变速不变调算法
语音变速不变调是指保持音调和语义不发生变化,语速变快或者变慢。这个过程的表现形式是语音在时域上如手风琴版压缩或者扩展,也就是说,基本频率的值几乎保持不变,使得音调不发生改变;而整个发声过程的时间被压缩或者扩展,声门周期的减少或者增加,即声道运动速率发生改变,语速也随之变化。
算法实现
语音变速不变调算法有三大类:时域法、频域法和参量法。
时域法 | 频域法 | 参量法 |
---|---|---|
剪贴法 | LSEE-MSTFTM | 相位声码器 |
SOLA、SOLA-FS | - | 正弦模型 |
TD-PSOLA | - | - |
其中,时域法包括:剪切法、同步波形叠加法(Synchronized Overlap-Add, SOLA)、固定同步波形叠加法(Synchronized Overlap-Add and Fixed Synthesis, SOLAFS)、时域基音同步叠加法(Time-Domain Pitch Synchronized Overlap-Add, TD-PSOLA)、波形相似叠加法(Waveform Similarity Overlap-and-Add, WSOLA)。
剪贴法是由Fairbanks等人在1958年提出的,其中心思想是将语音划分为若干连续不重叠帧,然后重复或者删除其中的某些帧数,从而实现语速的加快或者变慢。可是,这种方法的弊端很明显,它仅仅依靠简单的重复或者丢弃语音帧,使得语音信号的波形出现不连续,基音发生断裂,因此,处理后的语音质量很差。即便在两个相邻帧部分进行平滑处理,基音断裂的现象依然没有得到很好的改善。
后来,S.Roucos等人提出了同步波形叠加法(SOLA)以减小基音断裂的现象。