[机器翻译渐行渐近] 机器翻译
编者按: 近几年来,在google、雅虎等从事搜索引擎服务的公司的大力推动下,机器翻译技术从学术研究领域逐渐走到前台。在google、雅虎提供的翻译网页上,我们甚至可以输入一段中文或英文让goog题。因此实际的做法是引入某种约束条件,减少语序调节的也许性,从而缩小解码时的搜索空间。最常用的两种语序调节省束是IBM约束和ITG约束。在这两种约束的基本上,研究者提出了不同样的语序调节模型。
基于句法的模型
基于句法的记录机器翻译最早可以追溯到上世纪90年代初,当时同步树粘接语法和反向转录语法相继提出来并被应用到机器翻译上。从时间上说,和IBM提出基于单词的记录翻译模型的时间很接近,但是基于句法的记录机器翻译研究逐渐得到人们的关注和承认却是在后来。虽然是在这段时间,诸多研究者对基于句法的记录机器翻译仍然持观望态度,这核心是由于最初的基于句法的记录机器翻译系统在性能上和基于短语的记录机器翻译系统相差甚远,,发现引进诸多和句法构造有关的特性并不能明显改善翻译质量。这些使得人们对基于句法的记录机器翻译产生了怀疑。
然而,基于短语的记录机器翻译自身存在部分固有缺陷,如短语层次上的全局语序调节、短语非持续性和泛化能力问题等,极大地束缚了该措施的进一步发展。这使得人们又不得不求助于句法,综观记录机器翻译的发展历程,可以看到,基于句法的记录机器翻译是继基于短语的记录机器翻译后来的一种新趋势。从目前的状况来看,有些基于句法的记录机器翻译系统在性能上已经明显超过了基于短语的系统。
将句法知识引入到记录机器翻译系统中存在多种不同样的措施,如在单词对齐模型中引入句法知识,在翻译之前运用句法知识调节源语言语序,在翻译后来运用句法知识重新排序等,这里只讨论翻译模型本质上就是基于句法的,并称之为基于句法的记录机器翻译。本文延续Chiang的分类思想,根据翻译模型所依托的语法与否涉及语言学知识将基于句法的记录机器翻译粗略分为如下两类:
1. 基于形式化语法。该类翻译模型建立在形式化语法的基本上,但并不涉及人类语言学知识,如短语标记、词和词之间的依托关系等。
2. 基于语言学语法。该类模型建立在语言学语法基本上,将人类语言学知识涉及到模型中。根据所采用的构造树形式的不同样,又可以将它分为如下两类:
● 基于短语构造树: 该类模型通过短语构造树,将短语的句法标记及标记之间的依托关系等语言学知识引入到翻译过程中。
● 基于依存树: 该类模型通过依存树,将词和词之间的依托约束关系等语言学知识引入到翻译过程中。
基于句法的记录机器翻译有两个代表性模型,一种是Chiang中提出的层次短语模型,这是基于形式化语法的; 另一种是南加州大学信息科学研究所提出的串到树模型,这是基于语言学语法的。限于篇幅,这里不再赘述。
将来发展和挑战
通过近十几年的发展,记录机器翻译有了长足的进步,但是仍然尚有诸多难题需要解决:
1. 丰富的语言学知识的引入和使用问题。目前的记录机器翻译系统难以解决复杂多变的语言现象,有的甚至主线不做解决,例如单复数问题、时态问题、句法构造问题等。
2. 大规模数据的解决和使用问题。记录措
[机器翻译渐行渐近] 机器翻译 来自淘豆网m.daumloan.com转载请标明出处.