下载此文档

平衡I/O和CPU的XML关键词检索.pdf.pdf


文档分类:IT计算机 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
~ ——:...
://..
——//———:——
:...—...
平衡/ 和的关键词检索球
李求实一,王秋月,王珊
.中国人民大学数据工程与知识工程教育部重点实验室,北京
.中国人民大学信息学院,北京

一,,’
., ,
,,
.,,,
: : ..
,,./.
,,:—.
:
.
,..
..
/印一
.,,
/

.
.国家高技术研究发展;
中国人民大学和惠普中国实验室联合研究项目;—
北京市教委和中国人民大学产学研合作项目;—
.中国人民大学研究生科学研究基金项目.
,.
李求实等:平衡/和的关键词检索
:;;/;
摘要:随着在数据交换和数据存储中的普遍应用,基于文档的信息检索研究逐渐成为新的研究热
点。文档本身含有的结构信息可以使其检索精度得到很大提高,但相应地,检索中使用的较复杂的评
分模型如组合语言模型和推理网络的结构化评分模型和较细的返回结果粒度由文档转变为元素或者段落,
也使得传统的信息检索由/密集型应用转变为密集型应用。针对上述应用特点的转变,提出了一种新
的检索处理框架,即保存数据的两种索引形式,根据系统的状态动态地调整任务调度,平衡/和的处
理,以达到减少单个查询的平均响应时间的目的。
关键词:可扩展标记语言;结构化检索;输入/输出;语言模型
文献标识码: 中图分类号:.
引言频改为该词在元素中出现的频率而不是在整个文档
由于其灵活性中出现的频率,等等。但这种方法没有充分利用文档
和可扩展性,被广泛应用在网上数据交换和集成中, 里的结构信息,而只是对元素进行独立的相关性计
如电子商务、电子政务、电子图书馆和文档等。算。一些研究中提出利用结构信息来改进相关度的计
从大量异构和富含文本信息的数据中获取信息算以期改善检索效果的方法,其中最常用的一种方法
需要使用信息检索技术。是利用元素间嵌套的结构关系来传递词频或相关度
信息检索不同于传统的信息检索,其数据的计算,类似于网页检索中的分数传播技术。
中含有结构信息。文档由嵌套的元素构成,通常由于》文档具有结构信息,其检索精度可以
可以被抽象成一棵标记节点的树,树中的节点表示各获得较大提高,但文档的评分模型也因此变得
元素。由于结构信息的存在,检索返回的结果可更为复杂。如组合语言模型和推理网络的结构化评分
以是相关的文档部分元素或段落,而不必是整个文模型“】,使得信息检索由/密集型应用转变为
档。另外,检索条件除了包含内容条件即关键密集型应用。
词,也可以包含结构条件,如使用路径表达式指明检在检索中,由于检索的粒度是元素,因而倒
索的范围和返回结果的节点类型等。对结构条件进行排表索引的粒度是文档中的元素而不是整个文档。倒
精确匹配,可以提高检索精度,但可能会漏选某些相排表索引的建立通常有三种不同策略:全部节点
关的内容;而对结构条件进行模糊匹配,存在着如何索引,即对一个关键词索引所有直接或问接包含它的
定义结构条件的模糊匹配程度,即结构相关性,以及节点。由于数据的层次关系,这样建立的索引中
如何和内容相关性相结合等问题。如何利用数据的结存在数据冗余,索引量大,占用聋间较大。叶节点
构信息获得更好的查询效

平衡I/O和CPU的XML关键词检索.pdf 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数10
  • 收藏数0 收藏
  • 顶次数0
  • 上传人qvuv398013
  • 文件大小0 KB
  • 时间2015-03-17