零基础入门语音识别-食物语音识别Task06

发布时间：2024-08-20 11:01

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零基础入门语音识别-食物声音识别挑战赛。
baseline及用图由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

语音识别基础与发展

语音识别的基础

语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。

大多数语音识别的研究都是分别求取声学和语言模型，并把很多精力放在声学模型的改进上。但后来，基于深度学习和大数据的端到端（End-to-End）方法发展起来，能将声学和语言模型融为一体，直接计算P(W|O)。

语音识别的发展

·传统机器学习，基于统计的GMM-HMM，其中HMM （隐马尔可夫模型，Hidden Markov Model）用来描述信号动态特性（即语音信号相邻帧间的相关性），GMM（高斯混合模型，Gaussian Mixed Model）用来描述HMM每个状态的静态特性（即HMM每个状态下语音帧的分布规律）；

·与深度学习结合，DNN-RNN、DNN-HMM，可引入LSTM（长短期记忆网络，Long Short-Term Memory），DNN（深度学习网络，Deep Neural Networks），RNN（循环神经网络，Recurrent Neural Network）；

·迁移学习（Transfer learning）算法、以及注意力（Attention）机制的基于语音频谱图的CNN（卷积神经网络，Convolutional Neural Network）模型的兴起。

语音识别方法

语音识别系统在长久的发展中形成了完整的流程（从前端语音信号处理，到声学模型和语言模型的训练，再到后端的解码），而深度学习方法较多地作用于声学模型和语言模型部分（或者端对端模型）。
Task05的学习从“声学模型”、“语言模型”、“端到端模型”等模块简要介绍语音识别的基本实现方法。

补充学习：集成学习

面对一个机器学习问题，有一种策略的核心，是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的分类器称为基分类器。集各家之长，如同贤明的君主广泛地听取众多谋臣的建议，然后综合考虑，得到最终决策。俗语说“三个臭皮匠，顶一个诸葛亮”，基分类器就类似于“臭皮匠”，而之前介绍的很多复杂模型可以认为是“诸葛亮”。即使单一一个“臭皮匠”的决策能力不强，我们有效地把多个“臭皮匠”组织结合起来，其决策能力很有可能超过“诸葛亮”。而如何将这些基分类器集成起来，就是本章要讨论的重点。集成学习不仅在学界的研究热度不减，在业界和众多机器学习竞赛中也有非常成功的应用。例如在Kaggle竞赛中所向披靡的XGBoost，就是成功应用集成学习思想的一个例子。

集成学习的步骤

虽然集成学习的具体算法和策略各不相同，但都共享同样的基本步骤。

集成学习一般可分为以下3个步骤。
（1）找到误差互相独立的基分类器。
（2）训练基分类器。
（3）合并基分类器的结果。

从减小方差和偏差的角度解释Boosting和Bagging

Bagging能够提高弱分类器性能的原因是降低了方差，Boosting能够提升弱分类器性能的原因是降低了偏差。

学习心得

历时接近两星期的组织学习差不多结束了，因为没有对Python的深入学习，所以在学习中，有些代码数据基本看不懂，但是对于音频的处理、特征提取，具体的卷积神经网络，这一类的知识了解了不少。其中其中，在这次学习中，最最重要的一点，便是接触到了天池的比赛，还有在直播中认识了不少带队老师，确定了未来的努力方向以及方法，了解到了比赛的步骤。这次的课程学完之后，需要再对Python以及模型的搭建进行进一步的学习，以便在下一次的学习中能跟上进度。

参考资料

Task5 食物声音识别-模型改进与优化.
Task6 拓展阅读：语音识别基础知识介绍