第第4 4章章人机主要交互技术人机主要交互技术(新一代人机交互技术) 应用程序语音合成语音输入语音输出语音人机交互语音识别自然语言处理自然语言生成交互管理语音合成?语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术?让机器说话可以通过录音/重放,或语音合成实现?文语转换是语音合成的一种应用形式?文语转换是连续语音识别的逆过程孤立词孤立词/ /音段阶段,注重音色音段阶段,注重音色( (音质音质, ,音品音品) ) ?语音合成的最早研究始于 1779 年 Kratzen sten , 目的是研究如何用管形器官模型来模拟 5个单元音 A、 E 、I、0、U ? 1791 年, Von Kempelen 制成了一种能说话的机器? 1939 年, BELL LAB 的 应用共振峰原理制作了第一个电子合成器 VODER(VOice DEmonstratoR). ? 20世纪 70年代,线性预测技术用于语音合成语句阶段,注重韵律语句阶段,注重韵律?? 1980 1980 年年,MIT ,MIT 的的 设计制造了著名的共振峰语音合成器设计制造了著名的共振峰语音合成器?? 1986 1986 年年, , 和和 提出了基于时域波形修改的提出了基于时域波形修改的语音合成算法语音合成算法 PSOLA PSOLA ?? 2000s 2000s , , Unit-selection Unit-selection , , N. Campbell & A. Black N. Campbell & A. Black 国外语音合成的发展按照人类语言功能的不同层次,语音合成可分按照人类语言功能的不同层次,语音合成可分为三个层次: 为三个层次: ( (1 1) )从文字到语音的合成从文字到语音的合成( (Text-to-Speech) Text-to-Speech) ( (2 2)从概念到语音的合成( )从概念到语音的合成( Concept-to-Speech) Concept-to-Speech) ( (3 3)从意向到语音的合成( )从意向到语音的合成( Intention-to-Speech) Intention-to-Speech) 语音合成的层次语音合成的层次文本文本分析输出语音语音合成语音库韵律分析字典/词库分词规则文语转换系统组成文语转换系统组成多音字库儿化音库语音合成技术语言学处理规则协同发音/韵律规则??语音合成系统的三个主要组成部分: 语音合成系统的三个主要组成部分: ??文本分析模块文本分析模块??韵律分析模块韵律分析模块??语音生成模块语音生成模块文本分析主要功能文本分析主要功能使计算机从这些文本中能够认识文字,从而知道要使计算机从这些文本中能够认识文字,从而知道要发什么音、怎么发音发什么音、怎么发音( (声调声调) ),并将发音的方式告诉,并将发音的方式告诉计算机,另外还要让计算机知道文本中,哪些是词, 计算机,另外还要让计算机知道文本中,哪些是词, 哪些是短语、句子,发音时到哪应该停顿,停顿多哪些是短语、句子,发音时到哪应该停顿,停顿多长等等长等等文本规整多音字处理声调判定特殊声调调整特殊符号停顿处理语音处理自动分词系统词库多音字词库变调规则库特殊声调规则文本分析的任务文本分析的任务(1) 文本规整将输入的文本规范化。在这个过程中,要查找拼写错误,处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语, 并将文本中出现的一些不规范或无法发音的字符过滤掉。(2) 词的切分和词法分析分析文本中词或短语的边界,确定文字的读音,以及各种多音字的读音方式。文本分析的主要工作步骤文本分析的主要工作步骤
语 音 人 机 交 互 - 语音人机交互-课件(PPT·精·选) 来自淘豆网m.daumloan.com转载请标明出处.