下载此文档

大词汇量连续语音识别系统中统计语言模型的研究(可复制论文).pdf


文档分类:论文 | 页数:约60页 举报非法文档有奖
1/60
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/60 下载此文档
文档列表 文档介绍
大词汇量连续语音识别系统中统计语言模型的研究摘要的实验,从预处理方案、训练语料的规模、数据平滑方法、语料的搭配情况,词并阐明一个可靠的语言模型对于提高连续语音识别系统的识别正确率,起着至关重要的作用。相对于已发展得较为成熟的声学模型来说,语言模型还有极大的发关键字:语音识别隐马尔可夫模型语音识别是模式识别领域的一个重要的研究课题,它的发展将会对未来的人机交互界面带来极大的影响。而在语音识别的研究中,大词汇量、非特定人、连续语音识别是最困难,最具有挑战性的一个课题。目前虽然已有许多大词汇量连续语音识别系统问世,但是其性能还远远达不到大规模应用的要求,对于它的进一步研究具有重要的实际意义。语言模型是描述自然语言内在规律的数学模型。随着语料库语言学的崛起,基于语料库的统计语言模型逐渐取代了传统的人工编制的语言学文法,被广泛地应用于自然语言处理的各个应用领域。本文研究的目的是建立基于词上下文的汉语统计语言模型。首先讨论了统计语言‘模型的构造原理、评价标准和存在的一些问题。建立了一个具有一定规模、分类齐全的语料库,并完成了语料库的预处理、分词方案。采用ぞ甙瓿捎镅模型的训练和评价工作。此外,进行了大量表文件的选择,工具包使用参数的设置等方面对语言模型进行了优化和改进,使语音识别系统识别率有了显著提高。本文针对模型文件中的词表文件建立了一个音字转换系统,这个模块用于将语音识别系统中的声学模型和语言P土悠鹄矗哂惺种匾5淖饔谩=饩隽多音字处理问题,提出将多音字分的读音分为低频音和高频音的处理方法,解决了多音字词语注音时需要人工干预的问题,并且提出了一种有效的数据结构方法,大大提高了汉字拼音搜索匹配的速度。这个模块也可用于声学模型的拼接训练,不需要在识别内容改变的情况下重新进行整词训练,节省了大量的人力物力。本文系统的介绍了大词汇量连续语音识别系统的整体模型和各个组成部分,展空间。萜交语言模型语料库音字转换火甁篕量连续语音识别系统中统计语言模型的研究
知识水坝***@pologoogle为您整理
狢瓵大词汇量连续语音识别系统中统计语言模型的研究琤猚,,琧瓵琻.,..琧猙琣—甌琫瓼琧甌瑂,瑃,瓵·甀疭.—
知识水坝***@pologoogle为您整理
琀,猤狢大词汇量连续语音识别系统中统计语言模型的研究瑀—瓵,.:珻瑂琯—北京籣看笱兑学位论文一¨
~:本学位论文属于保密在一年解密后适用本授权书。非保密论塑唬翰椋菏本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容畚闹胁包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志列本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期上∞学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑文注释:本学位论文不属于保密范围,适用本授权书。导师签名日期:期:弓.≥人训汇量连续语音识别系统中统镅阅P偷难芯
第一章绪论引言语音识别技术汇总了多学科研究成果,不同领域的研究成果都对语音识别的发展做出了贡献。语音识别的准确率和多种因素有关,例如不同的说话人、不同的说话速度、不同的晓话内容、以及不同的环境条件。而且语音信号本身的特点造成语音识别的困难,这些特点包括多变性、动态性、瞬时性和连续性等计算机语音识别过程与人对语音进行识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计理论的,一个完整的语音识别系统可大致分为以下三部分。镆籼卣魈崛。捍佑镆舨ㄐ沃刑崛〕鏊媸奔浔浠挠镆籼卣餍蛄小P陀胧侗鹚惴ǎ和ü坝镆籼卣鳎玫缴P汀T谑侗鹗苯淙的语音特征同声学模型进行匹配与比较,得到最佳的识别结果镅阅P陀胱匀挥镅源恚和臣朴镅阅P秃突诠嬖虻挠镅阅P陀τ糜谟镆识别中,为语音识别器提供候选的语音单元,或对识别后的路径进行选择。语言处理可以进行语法、语义分析。声学模型提供了一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离的方法。声学模型的设计和语言发音特点密切相关。声学模型单元大小址⒁裟P汀胍艚谀P突蛞羲啬P对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。语言模型对中、大词汇量的语音识别系统特别重要。当识别发生错误时可以根振语言学模型、语法结

大词汇量连续语音识别系统中统计语言模型的研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数60
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mkt365
  • 文件大小0 KB
  • 时间2013-11-07
最近更新