变速不变调算法

语音变速不变调是指保持音调和语义不发生变化,语速变快或者变慢。这个过程的表现形式是语音在时域上如手风琴版压缩或者扩展,也就是说,基本频率的值几乎保持不变,使得音调不发生改变;而整个发声过程的时间被压缩或者扩展,声门周期的减少或者增加,即声道运动速率发生改变,语速也随之变化。

算法实现

语音变速不变调算法有三大类:时域法、频域法和参量法。

时域法 频域法 参量法
剪贴法 LSEE-MSTFTM 相位声码器
SOLA、SOLA-FS 正弦模型
TD-PSOLA

其中,时域法包括:剪切法、同步波形叠加法(Synchronized Overlap-Add, SOLA)、固定同步波形叠加法(Synchronized Overlap-Add and Fixed Synthesis, SOLAFS)、时域基音同步叠加法(Time-Domain Pitch Synchronized Overlap-Add, TD-PSOLA)、波形相似叠加法(Waveform Similarity Overlap-and-Add, WSOLA)。

剪贴法是由Fairbanks等人在1958年提出的,其中心思想是将语音划分为若干连续不重叠帧,然后重复或者删除其中的某些帧数,从而实现语速的加快或者变慢。可是,这种方法的弊端很明显,它仅仅依靠简单的重复或者丢弃语音帧,使得语音信号的波形出现不连续,基音发生断裂,因此,处理后的语音质量很差。即便在两个相邻帧部分进行平滑处理,基音断裂的现象依然没有得到很好的改善。

后来,S.Roucos等人提出了同步波形叠加法(SOLA)以减小基音断裂的现象。

results matching ""

    No results matching ""