《现代图书情报技术》版权所有,欢迎下载引用!
请注明引用地址:多语言文本表示研究综述[J],现代图书情报技术,2010(6):33-41.
总第 193期 2010年第 6期
多语言文本表示研究综述
刘飒章成志
(南京理工大学信息管理系南京 210094)
【摘要】对多语言信息处理中的文本表示问题进行阐述。在分析单语言文本表示的模型和过程的基础上,说明多
语言文本表示的过程,详细分类并阐述其中的各种方法,对其进行比较分析。概括多语言文本表示的特点,指出
尚存在的问题,并对多语言文本表示的发展趋势进行探讨。
【关键词】多语言文本表示跨语言信息检索潜在语义分析显式语义分析
【分类号】TP391
SurveyofMuliigualDocumentRepresntton
Li Sa ZhangChengzi
(DeparmentofIfratonManagement NanjngUnieriyofScinceandTechnolgy Nanjng210094,Chia
【Absract ,i
desrbesteprces ofmuliigualdocumentrprsntton,itoducesdifrntmetodsi parstei
,andpoitout
isowssmedevelpmenttendsofmuliigualdocumentrprsntton.
【Keywords Muliigualdocumentrprsntton Crs-lnguageifratonrtival Latntsmantcanalss
Explcismantcanalss
1 引言
随着互联网的飞速发展和国际化交流的日益扩展,不同语言的信息交换也越来越重要。如何跨越语言障碍,
实现信息共享和沟通,是多语言信息处理中的关键问题[1]。其中的文本表示则是多语言信息处理的基础,是解决
跨语言障碍的重要阶段之一。
多语言文本表示,特指多语言信息处理中的文本表示。多语言文本表示与单语种文本表示最大的不同在于:
前者至少涉及两种不同的语言,为了顺利进行后续的多语言文本处理,需要在文本表示阶段实现或部分实现多语
言文本的关联,以消除语言障碍。因此,如何对多语言文本进行映射,实现跨语言的文本表示是多语言信息处理
中的关键问题之一。
根据映射空间不同,将多语言文本表示方法分为两类:映射到单语言空间(包括映射到某一语言空间和映射
到中间语言空间);映射到多语言空间(包括基于潜在语义映射和基于显式语义映射)。通过对国内外文献的分
收稿日期:2010-05-26
收修改稿日期:2010-05-29
本文系国家自然科学基金项目“基于可比语料的多语言文本聚类研究”(项目编号:70903032)和教育部人文社会科学研究一般项目“多
语领域本体自动构建研究”(项目编号:08J870007)的研究成果之一。
XINDAITUSHUQIGBAOJSHU 3
tln ai
u
t , )om i , i v st e i n
t 】 s tce s h su ee ai tln nom i n rty t
ci h o tln ee ai nr fee h n al e h r
te h tu ie h eitc tln ee ai s
o ,si o e n th o r tln ee ai
】 tln ee ai o a om i ere e e i yi
ite i yi
C
3A N I
知识组织与知识管理
析,详细介绍多语言文本表示的各种方法,对其进行比
较分析;阐述多语言文本表示的特点、尚存在的问题,
并讨论今后的发展趋势。
2 多语言文本表示过程
多语言文本表示有两类方法:将多语言文本转换
为单语言文本,在单语言空间进行文本表示;在多语言
空间实现跨语言的文本向量表示。多语言文本表示与
单语言文本表示有重要关系,需要借助单语言的文本
表示方法或模型实现多语言文本的统一表示。单语种
的文本表示模型有布尔模型[2]、向量空间模型[3]、概率
模型[4]、语言模型[5]。这些模型仅考虑单词出现频率
或概率,忽略词语的语义信息,与实际情况不符。因
此,许多研究者尝试结合语义信息构建文本表示模型
以提高文本表示质量,典型的方法主
多语言文本表示研究综述 来自淘豆网m.daumloan.com转载请标明出处.