第 26卷第 5期 2009年 9月中国科学院研究生院学报 JournaloftheGraduateSchooloftheChineseAcademyofSciences September 2009 3国家高技术研究发展计划(863 )(2006AA01Z454 )、国家信息安全 242计划(2005B23 )和国家自然科学基金(60573015 )资助-通讯联系人,E2 mail:******@is. 文章编号:10022 1175 (2009 )052 07032 09 一种快速中文分词词典机制 3 吴晶晶 1,2 荆继武 2- 聂晓峰 2 王平建 2 (1中国科学技术大学电子工程与信息科学系,合肥 230027;2中国科学院研究生院信息安全国家重点实验室,北京 100049 ) (2008年 10月 16日收稿;2009年 4月 21日收修改稿) WuJJ,JingJW,NieXF, [J].JournaloftheGraduateSchool oftheChineseAcademyofSciences,2009,26(5):703~ 711. 摘要通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,,该机制提高了中文文本分词的效率. 关键词文本实时处理,中文分词,词典法分词,双字词-长词哈希机制中图分类号 TP3911 1 随着中文网络的大规模发展,,已经被广泛应用于中文信息检索、人机交互、信息提取、文本挖掘等领域中[1]. ,前者需要解决未登录词汇(out2 of2 vocabulary )识别和词汇歧义切分等难题,目前主要采用字符串频度统计,语料字词标注[22 3]等机器学习方法;而快速词汇切分能力是关系到整个中文信息处理系统,特别是实时处理类应用系统可用性的关键技术,[42 10],依靠已有的特征词典作为文本切分匹配依据,设计简单,实现容易,算法效率很高, 词典法分词机制中与分词速度相关的有 2个要素:词典构造方法和词汇匹配方法,这 、后向匹配、最大匹配、,采用前向最大匹配是分词速度最高的匹配方法[5].本文不研究匹配方法造成的分词速度差异,主要通过研究不同词典的构造方法来实现高速的分词机制. 文中第 1部分简单描述了几种经典分词词典机制;第 2部分详细介绍几种改进词典机制;在第 3部分介绍作者提出的一种快速中文分词词典构造机制:双字词和长词哈希索引机制(double2 character2 and2 long2 vocabulary2 hash2 indexing );第 4
一种快速中文分词词典机制.pdf 来自淘豆网m.daumloan.com转载请标明出处.