下载此文档

本科毕业设计-基于字典的中文分词技术研究.doc


文档分类:办公文档 | 页数:约43页 举报非法文档有奖
1/43
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/43 下载此文档
文档列表 文档介绍
武汉工程大学
毕业设计(论文)
6届)
题目: 基于字典的中文分词技术研究
学号:
姓名:
专业: 计算机科学与技术
指导教师:
武汉工程大学教务处
目录
摘要 I
Abstract II
第一章 绪论 1
课题背景 1
中文分词技术的发展现状 2
课题任务与论文结构 7
第二章 总体设计 9
功能分析 9
功能框架 10
开发工具 13
关键技术与难点分析 14
第三章 详细设计 17
模块设计 17
程序测试 29
第四章 结论与展望 32
全文总结 32
系统评价 33
努力的方向 34
致谢 36
参考文献 37
摘要
中文分词是指把中文文本切分成表达完整语义的基本要素——词,它是语音识别、智能输入、搜索引擎等工作的基础,大多数中文文字处理系统也是建立在中文分词的基础之上。
本文初步研究了中文分词技术并设计了一个汉语自动分词系统,为进一步研究提供了一个较好的试验平台。首先综述了现有中文分词技术和分词系统的发展现状及各自的优缺点。然后,针对课题任务,对系统进行了总体设计,明确了系统功能,整个系统主要分为三个模块:词典装载,查找匹配,后处理。在此基础之上,对构成系统的主要模块进行了详细设计和实现。提出了词典的改进存储结构;根据汉语中二字词较多的特点,通过快速判断二字词来优化速度;分析了切分歧义处理和未登录词处理,提出了适合本系统的自动分词算法,并给出该系统的具体实现。最后对系统从分词速度和分词准确性方面进行了性能评价,并展望了下一步的努力方向。
本系统主要在如下三方面有所改进:(1)用STL中的set容器来组织和存储词典以提高匹配效率;(2)采用正向最大匹配算法并快速判断二字词以提高匹配速度;(3)有效减少了因标点符号引起的切分歧义。
系统词典比较完善,准确率较高,运行速度较快。
关键词:中文信息处理;自动分词;字典匹配;正向最大匹配;切分歧义;
Abstract
Chinese segmentation is to segment one Chinese text into words, the basic semanteme to plete meaning. Chinese segmentation is the base of voice identification, intelligent input and search engine. Most systems of Chinese word processing is also built up on the base of Chinese segmentation.
This paper researches the techniques of Chinese segmentation, and designs one system for Chinese Automatic segmentation, which presents a better experimental testbed for future research on Chinese segmentation. First, the paper summarizes present development of the existing techniques and systems of Chinese segmentation and their advantages and disadvantages. Then, According to tasks to be fulfilled, the paper designs total theme of system, and specifies system functions. There are three modules in the system, dictionary loading, finding and match, postprocessing. Based on these work, the paper designs and realizes all these three modules in detail. Improved storage structure of the dictionary is present. The match speed is optimized by fast identifying 2-word vocabulary considering the fact that there are many

本科毕业设计-基于字典的中文分词技术研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数43
  • 收藏数0 收藏
  • 顶次数0
  • 上传人aibuaiwo1318
  • 文件大小298 KB
  • 时间2018-06-07
最近更新