下载此文档

基于词典的中文分词算法研究.pdf


文档分类:办公文档 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
总第���期�计算机与数字工程����.�����.��
����年第�期���������������������������������
基于词典的中文分词算法研究�
周程远朱敏杨云�
�华东师范大学计算中心上海��������
摘要中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算�
法,综合了����树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性�
能上有显著提高。�
关键词�中文分词计算机应用�中文信息处理�
中图分类号�����.��
��������������������������������������
����������������������������������
��������������������������������
�����.������������������,����������������������������,�����������������
���������������������������������������������������������������������������������.���������������������������
�������������������������������������������������������������������������,������������������������������������������
��������������,�����������������������������������������������������������������������,���������������������������������
�����������������������������.������������������������������������������������������������������������������������������
��������.�
�����������������������������������,��������������������,�������������������������������
�����������������】.��
典的分词方法和基于频度统计的分词方法。具体应�
��引言�
用时的不同算法则是二者不同程度的组合。基于词�
由于汉语的书写习惯,汉语句子中词与词之间�典的分词方法是以汉语词典为基础对中文语句通过�
的标志是隐含的,英文的单词与单词之间有空格,�匹配进行切分,这种方法主要包括三种基本算法:正�
所以不存在分词问题。而中文的每一句中词与词�向最大匹配法、逆向最大匹配法、全切分法。�
之间是没有空格的,因而必须采用某种技术将其分�很多分词系统较注重分词的准确率,而忽视了�
开。中文文本分词算法从��世纪��年代以来就�速度。在实时性要求比较高的场合下要求分析算�
一直是一个研究热点,由于中文语言的复杂性

基于词典的中文分词算法研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人endfrs
  • 文件大小0 KB
  • 时间2015-08-27