第一章:语音识别系统
在本章中,针对语音识别系统提供一个整体的流程图,对每一个步骤进行一个简短的介绍,如果单纯是想了解语音识别系统的读者来说,相信阅读完本章以后就足够了。各步骤的具体细节及算法将在之后的章节逐一论述。
好了,我们先看一张语音识别系统的整体流程图
图中字典左侧都有标注,右侧没有标注是因为我暂时还没有涉及。目前本书先讲述字典左侧的概念,暂未提及的部分将在以后更新。
语音数据库 首先,做一个语音识别系统,必不可少的就是语音数据库了。我认为语料的数量决定了一个语音识别系统的上限,语料越多,变化就越多。多样性的提升将会训练出更好的模型。
特征提取 在有了语料之后,我们要对所有的语料进行特征提取,特征提取的目的就是要把音频信号中具有识别性的成分提取出来,并且将其它无用的信息扔掉,例如背景噪声,情绪等等。特征提取有许多不同的方法,方法的选择是基于你语音识别系统的目的。在特征提取章节将对目前比较主流的语音信号处理的方法做细节的论述。
声学模型训练 声学模型训练是一个机器学习的过程,通过对特征的采集和分析进行声学建模。目前主流的系统多采用隐马尔可夫模型进行建模。
声学模型 训练完成的结果就是一个声学模型。
语音输入 语音输入是一段待分析的音频。通过特征提取采集到该音频的声学特征,再将特征放入训练好的声学模型进行相似度的比对。
字典
语言数据库
语言训练模型
语言模型
语音解码和搜索算法
文本输出