下载此文档

【word】+基于词典的中文分词算法研究.doc


文档分类:办公文档 | 页数:约17页 举报非法文档有奖
1/17
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/17 下载此文档
文档列表 文档介绍
【word】puter&(华东师范大学计算中心上海200062),提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,,(,EastChinaNormalUniversity,Shanghai200062),thenaliedverbatimbinaryalgorithmhasbeenpresented,whichintegratedTRIEtreesandverbatimbinarysearch’scharacteristics,,ChineseinformationprocessingClassNumberTP39】.1l引言由于汉语的书写习惯,汉语句子中词与词之间的标志是隐含的,英文的单词与单词之间有空格,,,,从实际应用上来说,中文分词又是实现计算机人工智能,智能搜索,人机对话,:,这种方法主要包括三种基本算法:正向最大匹配法,逆向最大匹配法,,,,:2008年11月2日,修回日期:2008年11月19日作者简介:周程远,男,硕士研究生,研究方向:,女,高级工程师,研究方向:现代软件技术,模式识别,,女,工程师,研究方向:(2009),,:首先读人一句句子,取出标点符号,这样句子就被分成相应的若干段,然后对每一段进行词典的匹配,如果没有匹配成功就从段末尾减去一个字,再进行匹配,重复上述过程,,,那么在一开始的匹配中,不用将分割出来的整段句子与词典匹配,只需要以最长词的长度为最大切分单位,,,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,,这是最简单的词典结构,词典正文是以词为单位的有序表,初始化时读取到内存一一歹?举一一对应一一道来一丁不视图1有序线性词典结构中,词典正文中通过整词二分进行定位.

【word】+基于词典的中文分词算法研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数17
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小38 KB
  • 时间2019-11-30