下载此文档

一个基于改进的反序分词词典的中文分词算法.pdf

文档分类：办公文档 | 页数：约4页举报非法文档有奖

1/4

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/4 下载此文档

文档列表 文档介绍

维普资讯
深圳职业技术学院学报
年第期，而中文的书面形式� 中每个词出现的频数，分析统计结果以便提取词汇。�
却是连续的汉字串，词与词之间没有什么明显的� 一般的基于词频的统计分词要有如下的过程：�
标志。中文的形态没有西文那样丰厚，书面中文� 预处理阶段：将要统计分词的字符串读入内存，�
的汉字基本没有形态的变化 �如英语有现在进行� 以标点符号和禁用词为切分标志，将字符串且分成�
式、过去式、过去完成式等 �，因此要进行语言的� 一些更短的短语串；�
计算机处理，必须进行词的提取处理，词的提取� 候选词形成阶段：这一步是核心，根据统计信�
在西文处理中叫取词 ��，在中文里叫� 息形成一些可能是词的候选词串；�
分词 �� 。� 后处理阶段：对于相关度超过阀值的候选词还�
中文分词主要有 �大类方法：基于规则 �分� 需要经过后处理，以删除一些冗余词。�
词词典 �的分词方法；基于词语共现的统计方法；� 传统分词词典存在两方面的问题，一个是采用�
规则和统计并举的混合型方法。� 纯文本方式构建词表，数据没有经过有效的组织，�
基于规则的分词主要依据的是词典信息方� 内部查找的计算复杂度为 ��为词表中词条数 �；�
法，它按一定的方法将中文字符串与词典里的词� 另外是最大匹配长度的确定，中文词的字数个数以�
条

一个基于改进的反序分词词典的中文分词算法来自淘豆网m.daumloan.com转载请标明出处.