下载此文档

基于词典中文分词技术的研究.pdf


文档分类:办公文档 | 页数:约50页 举报非法文档有奖
1/50
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/50 下载此文档
文档列表 文档介绍
Classified Index:TP391 Dissertation fortheMaster Degree inEngineering Candidate: Research on Automatic Segmentation Supervisor: based on dictiongary Guo Tongkang Yin Jinghua Academic Degree Applied for: Master ofEngineering Specialty: Date ofOralExamination: University: Microelectronics&Solid Electronics March,2010 Harbin University of Science and Technology ·7 哈尔滨理工大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《基于词典的中文分词技术研究》,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均己在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签名:智馥蕊醐∞lO铀肭日哈尔滨理工大学硕士学位论文使用授权书《基于词典的中文分词技术研究》系本人在哈尔滨理工大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。本学位论文属于保密口, 在年解密后适用授权书。不保密劢。(请在以上相应方框内打4) 作者签名: 导师签名: 吨}晦钯秀}哆馕每撩罕日期:Z010年03月18日日期:20IO年03月f8日 q妒哈尔滨理工大学工学硕上学位论文基于词典的中文分词技术研究摘要随着现代信息技术的发展,自动分词技术已经广泛应用在信息检索、信息抽取、机器翻译、语音合成等自然语言处理领域,同时结合中文文本的特点, 自动分词技术的研究已经成为中文信息处理的一项基础性课题。中文分词技术主要研究将待处理文本利用分词算法切分成词,便于计算机对文本信息进行处理、理解和传递。在实现分词的过程中,主要难点是歧义处理和未登录词识别。本文结合现有相关分词技术理论与实现的方法,通过最大匹配算法与词频统计算法的结合,对中文文本分词技术进行深入研究与实践。本文在传统单一词典基础上,将其分为特征词典和基本词词典两部分,优化分词词典中对于词条的存储结构;采用双字啥希索引结构,将词典中的词按前两个字为索引关建字进行存储,提高匹配查找的速度和准确率;增加对姓名、专属名词、地名和数量词切分准确性,提高分词系统的性能指标。同时,在分词算法上,主要采用正向与反向最大匹配分词结合的双向分词,将双向匹配所产生的歧义字段应用词频信息进行判断,完成对词语间歧义和未登录词的处理。采用C撑作为开发工具,在分词结果中,实现对存在严重歧义的短语和段落无明显歧义字段;通过对比实验,分词准确性优于单一使用最大正向匹配的分词算法。关键词中文分词;最大匹配方法;分词词典;歧义处理;词频统计哈尔滨理工大学T学硕十学位论文 Research on word SegmentaticResearc 0n wor on based on dictionary Abstract With the development ofmodern information technology,Chinese word segmentation technology isalready widely usedininformationretrieval,information extraction,machine translation,speech synthesis and other natural language processing field,bined with the characteristics ofthe Chinese-text, automatic wordsegmentation technology e abasicissueofinformation processing. Chinese wordsegmentation technology meetsmajor problem isdealing withthe textsare cutintothe use ofthewordsegment

基于词典中文分词技术的研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数50
  • 收藏数0 收藏
  • 顶次数0
  • 上传人tggwft
  • 文件大小1.93 MB
  • 时间2016-08-09