摘要: 语音作为一个交叉学科,具有深远的研究价值,近 50 年的研究发展,语音识别技术已经有了极大的发展,但大多数产品能存在与实验室,没有达到使用(shǐyòng)化的效果,所以语音识别的研究还要更加深入。本为主要阐述了小波变换在语音信号去主要是由噪声引起的;当小波系数大于该阈值时, 则认为其主要是由信号引起的。选择一个合适的阈值, 对小波系数进行阈值处理, 就可以达到去除噪声而保留有用信号的目的。
第10页/共32页
第十页,共33页。
实验中通过改进matlab系统函数ddencmp求解得阈值,并对阈值进行了一定修改,由于实验中阈值很小,在经过多次比较后,决定把已经(yǐ jing)求得的阈值thr+。
含高斯白噪声的随机(suí jī)信号
去噪后的信号(xìnhào)
对于简单的直接加入高斯噪声的信号,去噪效果还是比较理想的,但在具体实验中,环境变量等其他因素引起的噪声情况比较复杂,效果并没有以上明显。
考察主要因素还是阈值的确定存在缺陷,故还应在阈值函数上多加改进
第11页/共32页
第十一页,共33页。
语音信号的端点识别是语音处理和语音识别的基础,然而在噪声环境下识别语音信号的端点往往比较困难的。我们(wǒ men)采用的是经典的双门限检测法
第12页/共32页
第十二页,共33页。
为了区分噪音和语音,很直观的一种方法是用信号的幅度作为特征,只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。
实际上,一般我们是使用短时能量的概念来描述语音信号的幅度的。对于输入的语音信号x(n),其中n为采样点,首先进行(jìnxíng)分帧的操作,将语音信号分成20~30毫秒一段,相邻的两帧之间有10~20毫秒的交叠。具体的帧长和帧移随采样频率不同而不同。
第13页/共32页
第十三页,共33页。
对于第i帧,第n个样本(yàngběn),他与原始语音信号的关系为:
第i帧语音信号的短时能量(néngliàng)可以用下面几种算法得到:
将语音信号分帧后计算每帧的短时能量,再设一个门限,就可以实现一个简单的端点检测算法。但是这样(zhèyàng)的算法是很不可靠的,因为人的语音分清音和浊音两种。浊音为声带振动发出,对应的语音信号有幅度高周期性明显的特点,而清音则不会有声带的振动,只是靠空气在口腔中的摩擦、冲击或爆破而发声,其短时能量一般比较小,往往会被基于能量的算法漏过去。所以我们用过零率来进行修正。
第14页/共32页
第十四页,共33页。
尽管不能用短时能量可靠地区分清音和静音(jìnɡ yīn),但是还是可以发现在静音(jìnɡ yīn)段信号的波形变化相对比较缓慢,而在清音段,由于口腔空气摩擦的效果,所造成的波形在幅度上的变化比较剧烈,通常可以用一帧信号中波形穿越零电平的次数来描述这种变化的剧烈程度,称为过零率。即:
第15页/共32页
第十五页,共33页。
将短时能量和过零率结合起来,对一段语音(yǔyīn)进行单个语音(yǔyīn)端点的检测:
第16页/共32页
第十六页,共33页。
对连续(liánxù)语音进行语音分割:
第17页/共32页
第十七页,共33页。
线性预测(yùcè)系数
线性预测(yùcè)倒普系数
Mel频率倒普系数
第18页/共32页
第十八页,共33页。
语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至十几毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管斤进行模拟,这就是所谓的声管模型。由于发音器官不可能毫无规律地快速变化,因此(yīncǐ)语音信号是准稳定的全极点线性预测模型可以对声管模型进行很好的描述,这里信号的激励源是由肺部气流的冲击引起的,声带可以有周期振动也可以不振动,分别对应浊音和清音,而每个声管则对应一个LPC模型的极点。一般情况下,极点的个数在12~16个之间,就足够清晰地描述语音信号的特征了。
第19页/共32页
第十九页,共33页。
语音信号(xìnhào)的声管模型
第20页/共32页
第二十页,共33页。
在语音识别系统中,很少直接使用LPC系数,而是由LPC系数推导(tuīdǎo)出另一种参数:线性预测倒普系数(LPCC),其递推式如下:
式中 a1 ,..., ap 为 p阶 LPC特征向量。cn , n = 1,..., p, p为倒谱的前 p个值, 当LPCC的阶数不超过 LPC阶数 p的时候 ,用第二式进行计算;如果(rúguǒ) LPCC阶数大于 p, 则用第三式进行计算 ,此时实际上是一种外推。
第21页/共32页
小波去噪语音识别学习教案 来自淘豆网m.daumloan.com转载请标明出处.