下载此文档

中文搜索引擎技术.pdf


文档分类:IT计算机 | 页数:约18页 举报非法文档有奖
1/18
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/18 下载此文档
文档列表 文档介绍
第八章 中文搜索引擎技术
第一节 中文分词技术
分词技术简述
百度分词技术
分词中的难题与发展
第二节 拼写检查错误提示
第三节相关提示功能分析
第四节 CACHE结构
CACHE的实现原理
三级CACHE的设计


把中文的汉字序列切分成有意义的词。
例:我/是/一个/学生


按照一定的策略将待分析的汉字串与一个机器词库中的词条
进行匹配。
常用分词方法:
正向最大匹配法(由左到右的方向)
例:我 /有意/ 见/ 分歧
反向最大匹配法
例:我 /有/意见/分歧
统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向
最大匹配的错误率为 。逆向匹配的切分精度略高于正向匹配。
1/245 。 逆向匹配的切分精度略高于正向匹配 。

相邻的字同时出现的次数越多,就越有可能构成一个词。
用于系统自动识别新词。

在分词的同时进行句法、语义分析,利用句法信息和语义
信息来处理歧义现象。



长:
对于大于等于小于等于4个汉字的词将被分词3个中文字不切割 。


查询:“工地方向导”
正向最大匹配: 工地/方向/导
反向最大匹配: 工/地方/向导

查询: 邓小平安定军山
正向最大匹配: 邓小平/安定/军/山
百度分词:邓小平/安/定军山
:百度识别人名 、 影视 、 戏剧名等专用词 ,专用词库分词时优先。
查询:何润东西南北(“何润东”、“东西南北”两个词)
正向最大匹配: 何润东/西/南北
归纳:
首先用专有词典采用最大正向匹配分词,切分出部分结果;
剩余没有切分交给普通词典,同样采取正向最大匹配分词。



「这个门把手坏了」 -「把手」是个词 ;
「请把手拿开」 -「把手」不是一个词;
「元帅任命了一名中将」 -「中将」是个词;
「产量三年中将增长两倍」 -「中将」不再是词。
真歧义
「乒乓球拍卖完了」
可以切分成「乒乓 球拍 卖 完 了」、
也可切分成「乒乓球 拍卖 完 了」。

中文搜索引擎技术 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数18
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小6.20 MB
  • 时间2021-03-23