1
信息检索的评价
哈工大计算机学院
信息检索研究室
2007
2
评价
评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等
信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动
从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量
信息检索的评价
针对一个检索系统,可以从功能和性能两个方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因此相对来说较容易
性能评价
对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序
3
相关度
相关度理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合
检索系统的目标就在于检出相关文档而排除不相关文档
4
5
相关性
相关性是一种主观评价
是不是正确的主题
输入:“和服”;输出:“···咨询和服务···”
由于分词错误,导致检索结果偏离主题
是否满足用户特定的信息需求(information need)
时效性,是不是新的信息
输入:“美国总统是谁”;输出:“克林顿”
信息已经过时
权威性,是否来自可靠的信息源
6
评价IR系统的困难
相关性不是二值评价,而是一个连续的量
即使进行二值评价,很多时候也很难
从人的立场上看,相关性是:
主观的,依赖于特定用户的判断
和情景相关的,依赖于用户的需求
认知的,依赖于人的认知和行为能力
时变的,随着时间而变化
7
检索的评价
检索性能的评价
检索结果的准确度
检索任务
批处理查询
交互式查询
实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性
在评价和比较检索系统的检索性能需要以下条件:
一个文档集合C。系统将从该集合中按照查询要求检出相关文档
一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造
一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值
8
相关性判断
在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。
由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。
9
“pooling”方法有以下两个假设
假设绝大多数的相关文档都收录在这个文档池中
没有进行判断的文档即未被认为是不相关的
“pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”
由检索评价专家进行人工判断,最终评判出每一文档的相关性
10
信息检索-02信息检索评价 来自淘豆网m.daumloan.com转载请标明出处.