基于词典的中文分词算法研究及其在Nutch系统中的应用.docx基于词典的中文分词算法研究及其在Nutch系统中的应用 摘 要 随着数字化、网络化和信息化的飞速增长,一个以信息为核心的时代已经到来。对 实现信息化來说中文信息检索已显得口益重要。作为中文信息处理领域的一项基础性课 题,屮文分词技术也H渐受到人们的重视,屮文分词的准确性对屮文信息检索有着至关 重要的作用。因此中文信息检索已经成为信息社会的命脉和发展知识经济的重要基础。 中文信息检索对社会生活的很多方面以及对社会经济的发展已经产生了不可估量的影 响。 ,利用它 用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。可以毫不 夸大地说,现在人们的生活、工作、学习和交往都以离不开搜索引擎。 在冃前这个阶段,中英文的处理技术在自然语言的处理技术中还存在很大的差别, 因为中文处理技术中必须包含分词这道工序,所以许多处理西方语言的方法在处理中文 时不能直接引用。作为其他中文信息处理的基础——中文分词,搜索引擎仅仅是具中的 一个应用。其他的比如、语音合成、机器翻译(MT)自动分类、自动校对、自动摘耍 等等,都需耍用到分词。本文通过了解屮文分词的发展现状及冃前三种主耍的屮文分词 算法,进行分析总结,从理论上对整词二分、TRIE索引树、逐字二分三种词典组织形 式进行了分析和对比,提出新的双字哈希索引分词词典机制,按照一定的策略将待分析 的汉字串与一个“充分大的'‘机器词典中的词条进行匹配。并通过实验论证双字哈希分词 的优越性。采用双字哈希索引分词词典和正向最大匹配算法相结合,实现了基丁•词典的 中文分词算法。通过对Nulch分词架构的分析及代码的修改,将已实现的中文分词算法 作为插件导入Nutch这一搜索引擎应用程序,经测试,中文插件能使此搜索引擎具有较 好的屮文处理能力,从而提高了检索效率。 关键词: Nutch,中文分词,双字哈希索引,最大匹配算法 Abstract Dictionary based Chinese word segmentation algorithm and its application in Nutch system With the development of digital, networking and information technology in the rapid growth, an information as the core of the times has come. On the realization of information for Chinese information retrieval has become increasingly important. Chinese information processing field as a basic subject, Chinese word segmentation technology is increasingly valued by people, Chinese word segmentation accuracy for Chinese information retrieval plays a very important role. Therefore, Chinese information retrieval has become the lifeblood of the information society and the development of the important foundation of knowledge economy. Chinese information retrieval on many aspects of social lives and the social and economic development has produced inestimable effect. Since the last century after 90 time, to the Internet as the representative of the computer network has been rapid development. The resulting information is huge. Many people think that now is the era of computer popularization, the computer can help people cope with heavy work. As the amount of