下载此文档

几种基于词典的中文分词算法评价.pdf.pdf


文档分类:办公文档 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
贵州科学
第 26卷第 3期 Vol. 26,No. 3
2008年 9月 GU IZHOU SC IENCE Sept. 2008
几种基于词典的中文分词算法评价
李丹宁 1 ,李丹 1 ,王保华 2 ,马新强 2
( 1贵州科学院,贵阳 550001; 2贵州大学信息工程学院,贵阳 550003)
摘要基于词典的中文自动分词是中文信息处理的基础. 按照使用计算机缓存的优化原则,
分析了几种典型的分词词典机制,指出了其中的一些问题. 改进了整词二分法,极大地提高了速
度. 结合哈希索引和 PATR IC IA tree搜索算法,提出了一个综合最优化的中文分词系统.
关键词中文信息处理;自动分词;分词词典;缓存优化
中图分类号 TP391. 1 文献标识码 A 文章编号 100326563(2008) 0320001208
THE EVAL UAT ION O F SEVERAL AL GOR ITHM S FO R D IC2
T IO NARY2BASED CH INESE WORD SEGM ENTAT IO N
L I D a n - ning1 , L I D a n1 , WANG B ao - hua2 , MA X in2qia ng2
( 11Guizhou Academy of Science , Guiyang 550001; 21School of Inform ation P ro jec t , Guizhou University
, Guiyang 550003)
ABSTRACT Severa l typical Chinese word segmenta tion algorithm s based on dic tionary were discussed in this
paper, and existing problem s of these algorithm swere identified. The me thod of binary - seek - by - word was
imp roved through optimizing the usage puters cache. Combining with the ha sh index and the PATR IC IA
tree search mechanisms, an op tim prehensive Chinese word segmenta tion method wa s proposed.
KEY W O RDS Chinese informa tion p rocessing; Chine se word segm enta tion; segmentation dic tiona ry,
cache op tim iza tion
1 引言
随着个人计算机和 Interne t网络的普及,中文信息的处理成为非常重要的领域. 使用中文的用户所用到
的许多软件工具都会与中文信息处理相关,他们各自都要建立自己的中文信息处理系统,对于许多辅助性的
小软件这是一个巨大的开发成本,单独开发也使得中文处理的水平不高,所以开发一个统一、共用、高

几种基于词典的中文分词算法评价.pdf 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人755273190
  • 文件大小0 KB
  • 时间2015-10-28