第一章绪论
语音转换概述
语音是人与人之间进行相互沟通和交流的一种最方便最自然的方式。语音中包含很多信息,其中最主要的是语音的语义信息,另一个很重要的信息为语音的个性化信息。语音转换,就是改变说话人语音特性,使一个人的说话声音听起来像另一个人的声音。在转换过程中改变源说话人的声音特征,使转换后的声音携带更多目标说话人的声音特征,但要求保留原有语义信息不变,并且合成出来的语音具有较高的清晰度、可懂度和自然度[1]。语音转换技术的研究是在语音合成与识别技术的研究水平达到一定程度之后出现的,是对语音合成与识别技术的丰富与延拓。这一技术有良好的发展前景和巨大的应用价值。
语音转换技术的研究在刚刚开始时人们只是尝试从语音波形的修改,简单的合成参数等多种手段来进行探讨,直到九十年代人们开始尝试使用数字信号处理+概率统计模型理论以后,语音转换才取得较大进展。
语音转换的研究意义及其应用
语音转换技术是语音信号处理中一个比较新的分支,语音转换技术的研究具有非常重要的应用价值和理论价值。它涉及到语音信号处理的许多领域,如语音增强、语音合成、语音编码、语音分析、语音识别以及说话人辨识和确认,一方面语音转换技术需要研究和借鉴这些领域里的相关知识,另一方面,又将为这些领域的研究提供一些依据,并促进这些领域的进一步发展。
语音转换技术在语音信号处理应用中非常的有用,它广泛应用于人机交互技术中的语音识别与合成和日常生活中的多媒体等,具体的应用例子如下:
(1)在文语转换(TTS: Text-To-Speech)系统中的应用语音转换技术的一个重要应用就是文语转换中多说话人的语音合成。现有的文语转换
系统主要有波形叠接相加合成(PSOLA)、基于数据库的合成和共振峰合成(Formant Synthesis)等方法,它们合成的语音的个性特征一般都是单一的,缺乏个性化,这也就限制了它的应用。另外,目前的语音合成技术大多是将分成的小段语音有机地拼接起来,产生所需的自然语音流。所以,必须事先录制大量的语音数据,并将这些语音数据按需要进行
切分,按韵律进行标注,进行对韵律如音高、音长、音强的调节,所有这些工作会花费大量时间。典型的 TTS 系统只可以合成少数几个说话人的语音,这是因为必须要给每一个说话人单独建立一个语音库。建立多个说话人语音库,不仅费时费力,而且也会增大音库所需的存储空间,这就限制了一些存储空间有限的情况下多个说话人个性特征文语转换系统的应用。
利用语音转换系统,就能只用少量的语音数据训练得到所需的新语音,可以大大降低成本。在语音库很小的情况下,利用语音转换技术来产生一个新的语音库。将合成单元先通过语音转换,再进行文语合成(TTS),或者将文语合成后的语音通过一个语音转换系统, 将它转换成特定说话人的语音特征。这样就不用再为每个说话人都建一个语音库,省去了重新录音建立音库的繁重工作,增加的工作量和对存储空间的增加都很小,只需要增加转换参数就可以了。
(2)在语音处理中的应用电子邮件朗读器是交互式声音应答系统中很重要的一个工具,它可以使人们通过电话
收听电子邮件。利用电子邮件中附带的发送者的个人说话特征,语音转换系统就能用发送者的声音读出电子邮件的内容;语音增强技术广泛地应用于旧磁带的重录。由于录音条件和技术的限制,旧磁带中常常带有不清晰的部分或者噪声,可以使用语音增强技术进行修复,但这需要信噪比达到一定的水平。利用语音转换技术,只有足够的清晰语音,就可以产生待修复语音的高质量副本[2]。;自动语音识别技术能使计算机能听懂人说的话。利用多个说话人的语音对系统进行训练可以提高系统的稳定性,但收集和处理这些语音库是一项非常烦琐的工作。利用语音转换技术就能在识别时减小说话人间的差异,而不需要在训练阶段利用多个人的语音进行训练;可在保密通信中进行语音个性化的伪装,如通过语音转换技术,按一种确定的规则对说话人语音的某些特征参数进行改变,再在通信接收端进行相应的反变换,然后合成出原来的语音。如果在通信传输的过程中语音被侦听到,则听到的就会是另外一个说话人的声音,这样可以达到说话人伪装效果。
(3)在多媒体中的应用语音转换广泛应用于多媒体中[3],比如在唱卡拉OK时,一个普通人的演唱就可成功地
转换为一个著名歌手的演唱。这只是修改了时间和基音,而未改变演唱者的身份。另一种应用则是利用脸部的 3D动画,来合成相应的虚拟语音;语音转换还应用在电影配音中,在配音演员的配音不易直接获得的情况下,就可以使用预先训练好的语音转换系统来得到所需要的配音。尤其当用另一种语言配音时,配音演员往往不是演员本人,这通常会造成配音效果不理想,与演员本人的个性特征差异较大,但如果将配音先进行语音转换,转换成
具有演员个性特征的语音,则配音效果就会理
基于谱包络和超音段韵律的语音转换技术分析 来自淘豆网m.daumloan.com转载请标明出处.