第八章 中文搜索引擎技术
第一节 中文分词技术
分词技术简述
百度分词技术
分词中的难题与发展
第二节 拼写检查错误提示
第三节相关提示功能分析
第四节 CACHE结构
CACHE的实现原理
三级CACHE的设计
把中文的汉字序列切分成有意义的词。
例:我/是/一个/学生
按照一定的策略将待分析的汉字串与一个机器词库中的词条
进行匹配。
常用分词方法:
正向最大匹配法(由左到右的方向)
例:我 /有意/ 见/ 分歧
反向最大匹配法
例:我 /有/意见/分歧
统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向
最大匹配的错误率为 。逆向匹配的切分精度略高于正向匹配。
1/245 。 逆向匹配的切分精度略高于正向匹配 。
相邻的字同时出现的次数越多,就越有可能构成一个词。
用于系统自动识别新词。
在分词的同时进行句法、语义分析,利用句法信息和语义
信息来处理歧义现象。
长:
对于大于等于小于等于4个汉字的词将被分词3个中文字不切割 。
:
查询:“工地方向导”
正向最大匹配: 工地/方向/导
反向最大匹配: 工/地方/向导
查询: 邓小平安定军山
正向最大匹配: 邓小平/安定/军/山
百度分词:邓小平/安/定军山
:百度识别人名 、 影视 、 戏剧名等专用词 ,专用词库分词时优先。
查询:何润东西南北(“何润东”、“东西南北”两个词)
正向最大匹配: 何润东/西/南北
归纳:
首先用专有词典采用最大正向匹配分词,切分出部分结果;
剩余没有切分交给普通词典,同样采取正向最大匹配分词。
「这个门把手坏了」 -「把手」是个词 ;
「请把手拿开」 -「把手」不是一个词;
「元帅任命了一名中将」 -「中将」是个词;
「产量三年中将增长两倍」 -「中将」不再是词。
真歧义
「乒乓球拍卖完了」
可以切分成「乒乓 球拍 卖 完 了」、
也可切分成「乒乓球 拍卖 完 了」。
中文搜索引擎技术 来自淘豆网m.daumloan.com转载请标明出处.