(安徽工业大学计算机学院安徽马鞍山243002【摘要】在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形。实验结果表明,改进方法比原方法具有较高的准确率。关键词自然语言处理;基于实例的机器翻译;句子相似度;putingYANGSi-chun(puter,ranslation,,animprovedmethodisputforward,includingtheextractionofkeywords,;ranslation;sentencesimilarity;basedonword基于实例的机器翻译(ranslation,EBMT是以双语对齐的实例库为主要知识源,输入一个待翻译的源语言句子,从实例库中查找与输入句最相似的例句,再模仿例句的译文来实现输入句的翻译。在EBMT中,实例匹配是关键,直接关系到系统本身的翻译质量。实现实例匹配的有效机制是进行句子相似度计算[1-2],目前主要有基于词[3-5]和基于句法语义分析[6-7]的两类方法。两类方法各有优缺点,基于词的方法简单、流行,但由于仅利用句子的表层信息,即组成句子的有关词汇的词法和语义信息,因此,在判断句子整体结构相似方面有欠缺;基于句法语义分析的方法折衷考虑句子的组成词汇语义信息与整体框架结构信息,但在折衷考虑的层次上较难把握。本文研究基于词的句子相似度计算问题,并在文献[5]的基础上提出了一种改进的方法。1基于词的句子相似度计算基于词的方法是目前最简单、最流行的方法,依据词的形态变化、同义词、反义词以及更进一步的语义距离来判断孤立词之间的相似度,再通过这种词间相似度的不同组合来确定句子间的相似度。文献[3]利用同义词表计算两句词之间的语义距离,进而计算两句之间的相似度。文献[4]通过正反双向比较两句相同词的个数及其位置关系,得到一个转换表达式和子块库,再通过系统预定义的翻译模式和限制条件实现两句相似度的计算。文献[5]通过比较两句相同词的个数及其位置关系,得到两句的词形相似度和词序相似度,再通过词形相似度和词序相似度计算两句的相似度。文献[4-5]采用的方法实质上是相同的,均通过比较相同词的个数及其位置关系来计算两句的相似度。但在相似度的定义中,仅考虑了形态上相同的词,而没有考虑同义词的情形。例如,对两个简单的句子“我/是/老师/。/”与“他/为/学生/。/”,按照文献[5]中的方法计算则相似度很低(,实际上这两句收稿日期:2004−09−01基
一种改进的句子相似度计算模型 来自淘豆网m.daumloan.com转载请标明出处.