SEWM-2004 中文 Web 检索测试指南
2004 年 10 月 20 日北大网络实验室
1 背景与目标
在中文信息检索领域中,缺乏大规模"text/html"或
者"text/plain"。
文档集数据格式参见[4]。
3 主题提取任务
主题提取目的是对于一个特定主题发现一组关键资源。在今年的任务中我
们将只注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不
同站点(用它们的网站首页面表示)。对于主题'linux',CWT100G 中的下面站点可能被认为是关键资源:
/ linux org
/ 明辉开发者网络 linux 区
-/ 红旗 Linux
被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断
是否一个好的首页面,考查三个方面:
1)是否大部分切合主题;
2)提供主题的可靠的信息;
3)不是一个更大的切合主题站点的一部分。
对于'linux'这一主题,页面'' 不符合第一个条件,而页面
'-'不符合第三个条件。
提供主题格式和 TREC 一致,实例为:
<top>
<num> Number:
<title> linux
<desc> Description:
找到和 linux 主题相关的站点.
</top>
只有<title>可以用作系统的查询条件。
将根据在前十个结果(通常在的 Web 搜索系统返回的第一个页面)中有几
个正确的答案来判断系统的性能。使用前 10 个结果的精确率和前 10 个结果的
平均精确率(******@10)来评判。
4 主页/指定页面查询
用户有时候会用名称来查询特定的网页。在这种情况下,一个有效的搜索
系统将在第一个或前几个返回结果中给出那个网页。
今年的任务包括两个任务的组合:主页查询和指定页面查询。这两种情况
下,查询结果只有一个并且用户的查询需求常常是页面的名称。不同的是主页
查询的目标是一个特定的主页,而指定页面查询所找到的可以不是一个主页,
而是满足用户需求的特定页面。例如,主页查询时,查询词“内蒙古民族大学
”对应的查询结果是“”;而指定页面查询时,查询词“2001
年中国十大并购人物”对应的查询结果是“-
-”。
一些查询/排序策略对两种类型的查询都有效,而有的只对其中一种有效。
我们提供混和的查询集合。评判为:判断参与者返回文档的
WEB测试指南 来自淘豆网m.daumloan.com转载请标明出处.