下载此文档

概率检索模型BM25系列-文档相关性检索的利器.docx

文档分类：高等教育 | 页数：约6页举报非法文档有奖

1/6

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/6 下载此文档

文档列表 文档介绍

概率检索模型BM25系列-文档相关性检索的利器
给定一个用户需求(query),如果搜索系统展示的搜索结果是根据文档和query的相关性由高向低排序的,那么这个搜索引擎是最优的。在文档集合的基础上计算其相关性估计是其核心~
概率排序原理
以往的向量空间模型是将 query 和文档使用向量表示然后计算其内容相似性来进行相关性估计的,而概率检索模型是一种直接对用户需求进行相关性的建模方法,一个 query 进来,将所有的文档分为两类—- 相关文档、不相关文档 ,这样就转为了一个相关性的分类问题,赞!
对于某个文档DD来说,P(R|D)P(R|D)表示该文档数据相关文档的概率,则P(NR|D)P(NR|D)表示该文档属于不相关文档的概率,如果 query 属于相关文档的概率大于不相关文档P(R|D)>P(RN|D)P(R|D)>P(RN|D),则认为这个文档是与用户查询相关相关的.
现在使用贝叶斯公式将其转一下:
P(R|D)>P(NR|D)<=>P(D|R)P(R)P(D)>P(D|NR)P(NR)P(D)<=>P(D|R)P(D|NR)>P(NR)P(R)P(R|D)>P(NR|D)<=>P(D|R)P(R)P(D)>P(D|NR)P(NR)P(D)<=>P(D|R)P(D|NR)>P(NR)P(R)
在搜索排序过程中不需要真正的分类,只需要保证相关性由高到底排序即可,所以只需要P(D|R)P(D|NR)P(D|R)P(D|NR)降序即可,这样就最终转为计算P(D|R)P(D|R),P(D|NR)P(D|NR)的值即可.
二元独立模型(BIM)
词汇独立性假设:文档里面出现的词没有任何关联,这样一个文档的出现就可以转为各个单词出现概率的乘积(虽然这种假设有违实际,但是算起来简单的啊^_^)
上述提到的文档DD表示为 {1,0,1,0,1} ,用pipi来表示第ii个单词在相关文档出现的概率,则在已知相关文档集合的情况下,观察到DD的概率为:
P(D|R)=p1×(1−p2)×p3×(1−p4)×p5P(D|R)=p1×(1−p2)×p3×(1−p4)×p5
第 1,3,5 表示这个单词在DD中出现,所以其贡献概率为pipi,而第 2,4 这两个单词并没有在DD中出现,所以其贡献的概率为1−pi1−pi
同理在不相关文档中观察到的概率为:
P(D|R)=s1×(1−s2)×s3×(1−s4)×s5P(D|R)=s1×(1−s2)×s3×(1−s4)×s5
最终得到的相关性概率估算为:
P(D|R)P(D|NR)=p1×(1−p2)×p3×(1−p4)×p5s1×(1−s2)×s3×(1−s4)×s5P(D|R)P(D|NR)=p1×(1−p2)×p3×(1−p4)×p5s1×(1−s2)×s3×(1−s4)×s5
现在将其推广之后可以有通用的式子:
P(D|R)P(D|NR)=∏i:di=1pisi×∏i:di=01−pi1−siP(D|R)P(D|NR)=∏i:di=1pisi×∏i:di=01−pi1−si
di=1di=1表示在文档中出现的单词,di=0di=0表示没在文档中出现的单词:
在这里进一步对上述公式进行等价变换之后有:
$$\begin{equation}\begin{spl

概率检索模型BM25系列-文档相关性检索的利器来自淘豆网m.daumloan.com转载请标明出处.