梅尔频率倒谱系数(MFCCs)
梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)是在语音识别领域最常用到的语音特征提取方法。
为什么使用MFCCs
通过对人耳听觉机理的研究,发现人耳对不同频率的声波又不同的听觉敏感度。MFCCs参数符合人耳的听觉特性,而且当噪声较大时仍然具有较好的识别性能。
MFCCs原理
从200Hz到5000Hz的语音信号对语音的清晰度影响最大。由于掩蔽效应(Masking Effects)的存在,导致当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使响度较低的频率变得不容易被察觉。就像在一个安静的环境中,你可以听到时钟滴答滴答的声音,但是如果同样的响声在一个吵闹的聚会环境中,一般人就听不到了。对于纯音,一般低音容易掩蔽高音,而高音较难掩蔽低音。当两个信号的频率比较接近的时候,又差拍现象存在,这时听到的不再是两种频率的信号,而是被低频率调制的单频声音。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。并将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输出信号不做任何的假设和限制,又利用了听觉模型的研究成果。
MFCCs表达式
梅尔频率倒谱系数是在Mel标度频率域下提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用如下表达式近似的表示: 其中f为频率,它的单位为Hz。Mel频率与线性频率的关系如下:
语音特征参数MFCCs提取过程
上图为语音特征参数MFCCs的提取过程,接下来,将对图中每一步进行分析。