维普资讯
深 圳 职 业 技 术 学 院 学 报
年第 期 ,而中文 的书面形 式� 中每个词 出现 的频 数 ,分析统计 结果 以便提取词汇 。�
却是连续 的汉字 串,词与词之 间没 有什么 明显 的� 一般 的基于词频 的统计分词要有如 下的过程 :�
标志 。中文的形 态没有 西文那 样丰厚 ,书面 中文� 预处理阶 段:将要统计 分词 的字符 串读入 内存 ,�
的汉字基 本没有 形态 的变化 �如英语有现在进 行� 以标点符 号和禁用词 为切分标志 ,将字符 串且分成�
式 、过去式 、过去完成 式等 �,因此要进行语 言的� 一 些更短 的短语 串;�
计算机 处理 ,必 须进 行词 的提 取处理 ,词 的提取� 候选 词形成阶段 :这一步是核 心 ,根据统 计信�
在西文处理 中叫取词 ����������,在 中文里 叫� 息形成一些可 能是词的候选词 串;�
分词 ����������������� 。� 后处理 阶段 :对于 相关度超过 阀值 的候选 词还�
中文分 词主要有 �大类 方法:基于规 则 �分� 需要经过后处理 ,以删除一些冗余 词。�
词词典 �的分 词方法 ;基于词语共现 的统计方法 ;� 传统分 词词典存在 两方面 的问题 ,一个 是采用�
规则和统计 并举 的混合型方法 。� 纯文本方 式构建词表 ,数据没有经 过有效 的组 织 ,�
基 于 规 则 的分 词 主 要 依据 的是 词 典 信 息方� 内部查找 的计算 复杂度 为 ������为词表 中词条数 �;�
法 ,它按 一定 的方法将 中文字符 串与词典里 的词� 另外是最大 匹配长度 的确 定 ,中文词的字数个 数 以�
条
一个基于改进的反序分词词典的中文分词算法 来自淘豆网m.daumloan.com转载请标明出处.