预加重(Pre-emphasis)

什么是预加重

预加重是一种突出语音信号高频共振峰的方法。

为什么要进行预加重处理

在解释这个问题之前,我们先引入一个概念,叫做共振峰(formant)。
共振峰是用来描述声学共振现象的一种概念。声学共振简单来讲就是当两列声波的震动频率相同或相近时,使得振幅明显增大的现象。声音在经过共振腔时,收到腔体的滤波作用,是的频域中不同频率的能量重新分配,一部分因为共振作用得到强化,另一部分则收到衰减。正是因为能量的分布不均,使得有些强的部分犹如山峰一样,故而称之为共振峰。而共振峰描述的就是人类声道中的共振情形,表现在频谱中是指能量相对集中的一些区域。
预加重处理的目的是提升高频部分,使信号的频谱变得平坦。因为在发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低于低频共振峰的振幅,进行预加重处理,可以消除声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,突出高频共振峰。在语音声学中,共振峰决定着元音的音质,而在计算机音乐中,共振峰是决定音色和音质的重要参数。

预加重实现方法

预加重处理其实是将语音信号通过一个高通滤波器(High-pass filter)。所谓高通滤波器,指的是容许高频信号通过、而大大减弱较低频率的一种滤波器。高通滤波器的传递函数是:

H(z)=1a×z1,0.9<a<1.0H(z) = 1 - a \times z^{-1}, 0.9 < a < 1.0

经过预加重之后的信号表示为:

s(n)=s(n)a×s(n1)s(n) = s(n) - a \times s(n-1)

这里,引用知乎的一张图来对比一下变化前后的频域信号:

不难看出,原始信号中低频的信号在通过高频滤波器之后被大大削弱了。一般来讲,辅音的频率更高,而元音的频率更低。通常,辅音包含的信息量要大于元音。假如我们有一个单词chapter,保留辅音部分,我们会得到chpt,还是可以明白它的意思,可是如果保留元音部分,aer,就很难明白。

results matching ""

    No results matching ""