南京邮电大学
硕士学位论文
基于谱包络和超音段韵律的语音转换技术研究
姓名:马瑞云
申请学位级别:硕士
专业:信号与信息处理
指导教师:张玲华
2011-03
南京邮电大学硕士研究生学位论文摘要
摘要
语音转换是指改变源说话人的语音个性特征,使之具备目标说话人的语音个性特征,
从而使源说话人的语音听起来像目标说话人的语音的一种处理技术。语音转换的研究是在
语音识别和语音合成的研究基础上进行的,同时也是这两个领域的丰富和延拓,具有巨大
的应用前景和理论研究价值。
论文的主要工作包括以下几个方面:
1. 针对传统高斯混合模型中,高斯混合数过大会引起合成语音过平滑的问题,提出利
用部分转换分量函数的加权和代替传统GMM模型的全转换函数,改善了过平滑现象。为进一
步避免过平滑,利用弯折函数直接对LSF参数进行转换,并利用改进GMM模型的转换结果对
语音谱进行调整,使语音谱包络的转换更加精确。
2. 在传统的基音周期检测方法的基础上,提出了一种新的基于RWAF变换的基音周期检
测方法,并通过对候选值进行加权确定最终的基音周期,提高了基音周期检测的准确性。
3. 针对传统的基音周期转换仅对短时基频作固定均值转换的问题,提出从基频轨迹
0 ~ tF 提取出基元段特征参数矢量,并利用基于 GMM 的独立建模方法对基元段参数空间进
行训练,得到比固定转换规则更具优势的实时动态转换规则,使基音周期转换效果更好。
4. 将上述方法运用于语音转换系统进行仿真测试,从主观和客观两个方面对转换后的
语音进行评价。实验结果表明,该系统在保证转换语音目标倾向性的同时,提高了语音质量,
得到了较好的转换效果。
关键词:语音转换;谱包络转换;高斯混合模型;基音周期检测;基音周期转换;超音
段特征
I
南京邮电大学硕士研究生学位论文 ABSTRACT
ABSTRACT
Voice conversion is a technology that can change source speaker’s voice character to sound
like target speaker’s. This technology is based on speaker verification and synthesis technology.
And, it enriches and extends the two speech research fields. Voice conversion is a valuable
theoretical research topic and offers many useful applications.
The main work in this paper includes the following aspects:
1. In the traditional Gaussian mixture model (GMM), gaussian mixture number excessive
will cause over smooth problems of synthesized speech. This paper proposes weighted sum of
part of the ponent functions instead of whole conversion functions in traditional
GMM to improve the over smooth phenomenon. In order to avoid over smooth problem further,
the warping function was designed to converse the LSF parameters directly, then the converted
spectrum is adjusted by using the results of improved GMM method. The method can make voice
spectral envelope conversion more accurate.
2. The paper improves the traditional pitch detection method by introducing a new
algorithm called RWAF. It bined with the weighted candidat
基于谱包络和超音段韵律的语音转换技术研究 来自淘豆网m.daumloan.com转载请标明出处.