采用谱-韵律双变换的语音情感转换中文摘要
采用谱-韵律双变换的语音情感转换
中文摘要
除了语义信息,人类语音还传达着情感信息,同一句话传达的信息可能会因为情
感的不同而不同,语音情感转换即是在保持语义不变的基础上,将一种情感转换成另
一种情感,具有深远的应用意义。
本文基于 EMO-DB 和 DES 两大公开情感语音库对情感语音特征进行分析,并针
对谱特征和韵律特征是情感特征的两大关键因素,提出了谱-韵律双变换的语音情感
转换,弥补了传统语音情感转换只着重于转换其中一种特征的不足。
在谱特征转换阶段,通过分析不同谱特征参数和谱特征转换模型优缺点,本文选
用 GMM (Gaussian Mixture Model) 作为模型,LSF (Line Spectrum Frequency) 作为谱
特征参数进行转换,基于 STRAIGHT 平台合成情感语音。在韵律特征转换部分,不
同于以句子为单元分析韵律的传统方法,本文针对语音信号韵律特征的时变性,提出
了 PTR (Prosody Transformation Rule) 算法对多种韵律特征(包括时长、音强和基频)
进行局部分析转换以提高转换效果。同时针对重音能加强愤怒语音的情感,而基频对
重音的影响最大的情感分析结果,本文在 PTR 基础上进行改进,提出 PTR 结合单高
斯的算法来调整愤怒语音的局部基频从而达到愤怒语音带重音转换的效果。
本文对转换后的情感语音做了基于 ABX 和 MOS 的主观评测,评分结果表明本
文提出的方法达到了很好的语音情感转换效果,带重音转换的愤怒语音情感相对得到
提高,同时本文通过采用支持向量机对转换后的语音自动分类来进行客观评测,评测
结果达到了 %的正确率。
关键词:语音情感转换;PTR 算法;高斯混合模型;谱包络转换
作者:李冰洁
指导教师:陶智肖仲喆
I
英文摘要采用谱-韵律双变换的语音情感转换
Emotional Speech Conversion using Spectrum- Prosody
Dual Transformation
Abstract
Natural speech not only includes the basic linguistics, but also carries the emotions.
Speech with the same words may convey differernt informations if it carries different
emotions. Emotional speech conversion is to transform the emotin conveyed in the speech
to target emotion while the keeping the same words and it has far-reaching significance.
In this paper, we analyse the features of emotional speech based on the two public
emotional speech database: EMO-D and DES. Since spectral and prosodic features are key
factors that influence the emotional effects of speech, this paper proposes a
spectrum-prosody dual transformation method which is better than the traditional speech
processing methods that only focuses on one and ignores another.
Through analysing the merits and drawbacks of different spectrum features and the
models which can transform them, we choose the LSF as the spectrum features and choose
GMM (Gaussian Mixture Model) as the tansforming model in our spectrum transforation
stage, and use the STRAIGH
采用谱-韵律双变换的语音情感转换 来自淘豆网m.daumloan.com转载请标明出处.