1 语音信号的分析与处理摘要: 本文针对语音信号时域、频域参数进行了系统详尽的分析, 并在 MATLAB 环境下实现了基于 DTW 算法的特定人孤立词语音信号的识别。关键词: 语音信号;短时傅里叶; ;动态时间规整引言语音信号参数分析是语音信号处理的前提和基础。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的分析才能获得语音本质特性的参数, 才能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于语音识别的模板和知识库。此外,语音合成音质的好坏、语音识别率的高低,都取决于语音信号参数分析的准确性和精度。因此,语音信号参数分析是语音信号处理研究中一项非常有意义的工作[1] 。近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式 PDA 、智能家电、工业现场控制等应用场合, 语音识别技术则有更为广阔的发展前景[2] 。在特定人孤立词语音识别中,最为简单有效的方法是采用 DTW(Dynamic Time Warping, 动态时间规整) 算法, 该算法基于动态规划(DP) 的思想, 解决了发音长短不一的模板匹配问题, 是语音识别中出现最早、较为经典的一种算法[3] 。 MATLAB 是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言, 它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本文就是在 MATLAB 基础上来进行语音信号参数的分析与语音信号的识别的。一、语音信号的分析 1 参数分析语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的, 即在 10一 20ms 这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等[4] 。本文仅涉及时域及频域参数分析。 2 时域分析进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单[5] 。 短时能量分析短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信 2 噪比的语音信号,短时平均能量用来区分有无语音。无语音信号噪声的短时平均能量很小,而有语音信号的能量则显著增大到某一个数值,由此可以区分语音信号的开始点或者终止点。 3 频域分析短时傅立叶分析在运用离散时间傅立叶变换分析语音信号的变化时,会遇到这样的问题,即单一的傅立叶变换并不能反映时间变化的频谱信息,诸如时变共振峰和谐波。具体而言,通常将信号的每一时刻与其相邻时刻信号的傅立叶变换相联系,这样就可以及时跟踪信号的频谱变化。语音信号的短时傅立叶变换见程序所述。可以验证,在短时傅立叶分析中对于同一种窗函数而言,其通带宽度与窗长成反比。如果希望频率分辨率高, 则窗长应尽量取长一些; 如果希望时间分辨率高, 则窗长尽量取短一些。由此可见, 傅立叶分析的时间分辨率和频率分辨率是相互矛盾的,这是短时傅立叶本身所固有的弱点。短时傅立叶分析一般采用汉明窗作为分析窗[6] 。通过基于 MATLAB 和短时频域分析,能够得出[7] :第一,长窗具有较高的频率分辨率,但具有较低的时间分辨率。从一个周期到另一个周期,共振峰是要发生变化的,这一点即使从语音波形上也能够看出来。然而,如果采用较长的窗,这种变化就模糊了,因为长窗起到了时间上的平均作用。第二,短窗的频率分辨率低,但具有较高的时间分辨率。采用短窗时,能够从短时频谱中提取出共振峰从一个周期到另一个周期所发生的变化。当然, 激励源的谐波结构也从短时频谱上消失了。第三,在对语音信号进行短时傅里叶分析时,窗长需要折衷考虑。一方面,短窗具有较好的时间分辨率因而能够提取出语音信号中的短时变化;但另一方面,损失了频率分辨率。第四,汉明窗都具有低通的性质, 且在截止频率处比较尖锐, 当其通带较窄
语音识别论文 来自淘豆网m.daumloan.com转载请标明出处.