[机器翻译渐行渐近] 机器翻译
编者按: 近几年来,在谷歌、雅虎等从事搜索引擎服务的企业的大力推进下,机器翻译技术从学术研究领域逐步走到前台。在谷歌、雅虎提供的翻译网页上,我们甚至能够输入一段汉字或英文让谷歌和雅虎的服务器将它翻译成英文或汉字,亲身体验机器翻译的结果。那么,机器翻译技术研究到底现在进展到什么程度了?何时能够进入实用阶段?本期我们尤其邀请到中国科学院专门从事机器翻译研究的教授撰文,就机器翻译技术,尤其是其中取得研究结果最为丰富的统计机器翻译技术进行介绍。
统计机器翻译,又称为数据驱动的机器翻译。统计机器翻译方法萌芽于上个世纪50年代,早期的机器翻译系统通常建立在对词类和词序分析的基础之上,分析中常常使用统计方法,以后以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。直到上世纪90年代早期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,而且在试验中取得了初步的成功,统计机器翻译才引发了研究者广泛关注和争议。然而因为当初的计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到大家普遍的怀疑。
进入二十一世纪,越来越多的研究人员开始投入到统计机器翻译的研究中,统计方法也逐步成为国际上机器翻译研究的主流方法之一。在美国国家标准和技术研究所信息部语音组主持的机器翻译国际评测中,从2021年到2021年,统计机器翻译连续四年取得好成绩。
现在,统计机器翻译方法关键分为三类: 第一类是基于词的方法,以单词作为翻译的基础单位,不考虑上下文信息和人类语言学知识; 第二类是基于短语的方法,它将翻译的粒度从单词扩展到短语,能够很好地处理局部上下文依靠问题,提升了翻译的流利度和正确率; 第三类是基于句法的方法,将句法结构信息引入翻译过程,这种方法是目前研究的一个热点。
基于词的方法
基于词的统计机器翻译,顾名思义,其关键思想是以词作为翻译的基础单位。训练时,它从语料库中统计目口号言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目口号言单词,然后插入、删除目口号言单词,并调整它们的次序,最终组合成目口号言句子。这种方法的经典代表就是上世纪90年代早期IBM企业的Brown等人提出的基于信源信道模型的方法,能够说,它为当代统计机器翻译研究的蓬勃发展奠定了坚实的基础。
信源信道模型将统计机器翻译看成一个信息传输的过程: 信道的输入是目口号言,在经过信道编码以后,输出源语言,机器翻译的任务就是将源语言还原为目口号言,这一过程通常称之为解码。需要注意的是,这种模型和大家通常的认识有所区分,就模型而言,信道的输入是目口号言,而输出则是源语言,实际上在翻译时,还是将源语言作为输入,输出为目口号言。
依据Bayes公式,Brown等人提出了统计机器翻译的基础方程式:
其中,Pr博士在此基础上公布了增强版GIZA++,这些工作为以后统计机器翻译的发展奠定了坚实的基础。
从本质上说,IBM的方法是纯粹的单词到单词自动转录方法,除了计算复杂之外,另外一个很大的缺点在于它只能学习两种语言单词之间互为翻译的知识,而对单词的上下文语境不敏感,这就造成了IBM方法在词等级上因为缺乏上下文语境
[机器翻译渐行渐近] 机器翻译 来自淘豆网m.daumloan.com转载请标明出处.