下载此文档

国家科技创新平台规划.pptx


文档分类:办公文档 | 页数:约34页 举报非法文档有奖
1/34
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/34 下载此文档
文档列表 文档介绍
信息获取技术的评估 〔Retrieval Evaluation〕
李晓明,北京大学信息科学技术学院
2004年12月2日
1
提 要
引言
常用的评估指标
评估的实践〔评测〕
2
引言
关于IR领域
文本技术系算法给出的“Ranked A〞包含了所有相关文档,得到这些点就会很简单;否那么要考虑如何插值的问题
17
“省事的〞例子
D={d1,…,d1000},对查询q,所有相关文档集合〔共10个元素〕:Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
查询的返回结果序:
d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1
Ranking: * ^ * ^ ^ * ^ * * ^ ^ * ^ * ^ * ^ ^ ^ * ^ ^ ^ * ^
Recall: .1 .1 .2 .2 .2 .3 .3 .4 .5 .5 .5 .6 .6 .7 .7 .8 .8 .8 .8 .9 .9 .9 .9 1 1
Precisio: 1 .5 .67 .5 .4 .5 .43 .5 .55 .5 .45 .5 .46 .5 .46 .5 .47 .5 .42 .45 .43 .41 .39 .42 .4
18
11 standard recall level
其实只有10个点??
19
但实际上经常不是这样
得到的结果集合不包含所有的相关元素
实践上常常只是返回排序较高的假设干元素
因此不能得到需要的recall值
D中相关元素的个数不是10的倍数
于是能直接得到的recall值不一定包含0%, 10%, 20%, 30%, …, 100%
20
例子
所有相关文档集合〔共10个元素〕:Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
只能得到5个有效的recall值:10%,20%,30%,40%,50%
对查询q返回的结果序:
d123*
d84
d56*
d6
d8
d9*
d511
d129
d187
d25*
d38
d48
d250
d113
d3*
21
22
插值〔interpolation〕
目标是在11个标准召回率上都有精度值
可以想出各种“合理的〞方法〔例如将的点连起来〕,不同的方法结果会不一样〔因此做比较时要讲清楚〕
P(rj) = max P(r), rj ≤r≤rj+1
取在下一个标准召回率之间的召回率对应的最大精度值
P(rj) = max P(r), rj ≤r
取往后的召回率对应的最大的精度值〔这得到的是阶梯函数,单调性。
如何考虑返回的结果不包括所有相关文档?
23
我们最终关心对Q的总体情况
ri取标准召回率,Nq是所考察Q的大小。这样得到一个技术〔算法〕在〔Q,D〕上精度的宏观表现
24
F指数
用一个量来表示precision和recall的综合效果
How?人们定义:
为什么不是:
25
A(P,R)和H(P,R)并不一致
例如:
P1=, R1=: A(P1,R1)=, H(P1,R1)=;
P2=, R2=: A(P2,R2)=, H(P2,R2)=
也就是说,A(P1,R1)>A(P2,R2),但H(P1,R1)<H(P2,R2)
〔当然也可以举出它们一致的例子〕
26
指标定义的倾向
在P+R一定的情况下,希望它们接近。换句话说,这个指标不掩盖P, R一个方面特别的缺乏
27
召回缺乏分子小
精度不够分母大
28
基于P, R, F的评估小结
给定
包含一个新算法的IR系统〔测试〕,
一个测试文档集合D,
一个查询集合Q={q}
一个事先确定的相关集合的集合G(Q)
我们确定这个算法的P-R图和F值
29
流程
对于Q的每一个元素q:
得到一个有序结果集s(q)=<d1,d2,…dq>
与G(q)比照,依序计算s(q)中元素的r[i]和p[i],i=1,2,…,q
选择一种适宜的插值方式,得到p[i]在r=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1处的插值
如果r[q]<>1,那么令它其后的标准点上的p=0
对Q的所有元素,在标准召回点上求p的平均值
给出平均值的统计表和P-R图
30
31
还要算F:得出一个数
对每一个查询q,
得到标准召回点上的F,即
Fq(i)=2*p[

国家科技创新平台规划 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数34
  • 收藏数0 收藏
  • 顶次数0
  • 上传人天道酬勤
  • 文件大小702 KB
  • 时间2022-02-12