下载此文档

基于词典的中文分词算法研究及其在Nutch系统中的应用.docx


文档分类:办公文档 | 页数:约39页 举报非法文档有奖
1/39
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/39 下载此文档
文档列表 文档介绍
基于词典的中文分词算法研究及其在Nutch系统中的应用.docx基于词典的中文分词算法研究及其在Nutch系统中的应用
摘 要
随着数字化、网络化和信息化的飞速增长,一个以信息为核心的时代已经到来。对 实现信息化來说中文信息检索已显得口益重要。作为中文信息处理领域的一项基础性课 题,屮文分词技术也H渐受到人们的重视,屮文分词的准确性对屮文信息检索有着至关 重要的作用。因此中文信息检索已经成为信息社会的命脉和发展知识经济的重要基础。 中文信息检索对社会生活的很多方面以及对社会经济的发展已经产生了不可估量的影 响。
,利用它 用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。可以毫不 夸大地说,现在人们的生活、工作、学习和交往都以离不开搜索引擎。
在冃前这个阶段,中英文的处理技术在自然语言的处理技术中还存在很大的差别, 因为中文处理技术中必须包含分词这道工序,所以许多处理西方语言的方法在处理中文 时不能直接引用。作为其他中文信息处理的基础——中文分词,搜索引擎仅仅是具中的 一个应用。其他的比如、语音合成、机器翻译(MT)自动分类、自动校对、自动摘耍 等等,都需耍用到分词。本文通过了解屮文分词的发展现状及冃前三种主耍的屮文分词 算法,进行分析总结,从理论上对整词二分、TRIE索引树、逐字二分三种词典组织形 式进行了分析和对比,提出新的双字哈希索引分词词典机制,按照一定的策略将待分析 的汉字串与一个“充分大的'‘机器词典中的词条进行匹配。并通过实验论证双字哈希分词 的优越性。采用双字哈希索引分词词典和正向最大匹配算法相结合,实现了基丁•词典的 中文分词算法。通过对Nulch分词架构的分析及代码的修改,将已实现的中文分词算法 作为插件导入Nutch这一搜索引擎应用程序,经测试,中文插件能使此搜索引擎具有较 好的屮文处理能力,从而提高了检索效率。
关键词:
Nutch,中文分词,双字哈希索引,最大匹配算法
Abstract
Dictionary based Chinese word segmentation algorithm and
its application in Nutch system
With the development of digital, networking and information technology in the rapid growth, an information as the core of the times has come. On the realization of information for Chinese information retrieval has become increasingly important. Chinese information processing field as a basic subject, Chinese word segmentation technology is increasingly valued by people, Chinese word segmentation accuracy for Chinese information retrieval plays a very important role. Therefore, Chinese information retrieval has become the lifeblood of the information society and the development of the important foundation of knowledge economy. Chinese information retrieval on many aspects of social lives and the social and economic development has produced inestimable effect. Since the last century after 90 time, to the Internet as the representative of the computer network has been rapid development. The resulting information is huge. Many people think that now is the era of computer popularization, the computer can help people cope with heavy work. As the amount of

基于词典的中文分词算法研究及其在Nutch系统中的应用 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数39
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小249 KB
  • 时间2020-12-10