下载此文档

一个基于改进的反序分词词典的中文分词算法.pdf


文档分类:办公文档 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
维普资讯
深 圳 职 业 技 术 学 院 学 报
年第 期 ,而中文 的书面形 式� 中每个词 出现 的频 数 ,分析统计 结果 以便提取词汇 。�
却是连续 的汉字 串,词与词之 间没 有什么 明显 的� 一般 的基于词频 的统计分词要有如 下的过程 :�
标志 。中文的形 态没有 西文那 样丰厚 ,书面 中文� 预处理阶 段:将要统计 分词 的字符 串读入 内存 ,�
的汉字基 本没有 形态 的变化 �如英语有现在进 行� 以标点符 号和禁用词 为切分标志 ,将字符 串且分成�
式 、过去式 、过去完成 式等 �,因此要进行语 言的� 一 些更短 的短语 串;�
计算机 处理 ,必 须进 行词 的提 取处理 ,词 的提取� 候选 词形成阶段 :这一步是核 心 ,根据统 计信�
在西文处理 中叫取词 ����������,在 中文里 叫� 息形成一些可 能是词的候选词 串;�
分词 ����������������� 。� 后处理 阶段 :对于 相关度超过 阀值 的候选 词还�
中文分 词主要有 �大类 方法:基于规 则 �分� 需要经过后处理 ,以删除一些冗余 词。�
词词典 �的分 词方法 ;基于词语共现 的统计方法 ;� 传统分 词词典存在 两方面 的问题 ,一个 是采用�
规则和统计 并举 的混合型方法 。� 纯文本方 式构建词表 ,数据没有经 过有效 的组 织 ,�
基 于 规 则 的分 词 主 要 依据 的是 词 典 信 息方� 内部查找 的计算 复杂度 为 ������为词表 中词条数 �;�
法 ,它按 一定 的方法将 中文字符 串与词典里 的词� 另外是最大 匹配长度 的确 定 ,中文词的字数个 数 以�

一个基于改进的反序分词词典的中文分词算法 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人q1188830
  • 文件大小132 KB
  • 时间2022-02-19
最近更新