- 1 - 大容量 XML 数据存储搜索策略研究张俊北京邮电大学信息网络中心,北京 (100876) E-mail: zhangjunhd@ 摘要: 因特网给我们提供了巨大的信息量, 在信息量极其丰富的 Web 资源中, 蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过 Web 信息抽取的自动化实现, 可以提高信息获得的效率。信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据, 提取用户知识领域的知识。随着越来越多用户采用 XML 标记,将出现搜索和处理 XML 数据时所带来的新课题。本文针对这一背景,讨论了在处理大容量 XML 数据,为其建立搜索引擎时,所涉及的流程、问题和改进策略。关键词: XML ;搜索引擎;存储;检索中图分类号: 1. 引言最初设想的可扩展标记语言 (XML) 用于为 Web 定义新文档的格式。 XML 由标准通用标记语言 (SGML) 衍生而来,可以认为它是一种元语言,即一种定义标记语言的语言。 SGML 和 XML 都是基于文本的格式,提供了一种使用标记(文字由‘<’和‘>’括起)描述文档结构的机制。 Web 开发人员可能会注意到, XML 与 HTML 有一些相似,这是因为这二者都是由 SGML 衍生而来的。随着 XML 的应用日益普及,现在人们已普遍认同, XML 不仅有助于为 Web 描述新文档的格式,而且也适用于描述结构化的数据。所以许多人认为它可以比 HTML 更好地解决搜索问题。这是因为搜索引擎可以利用 XML 文档中的标签来确定在文档中的哪一部分查找,而不是像在 HTML 文档中那样,是在整个文档中查找。 2. XML 搜索引擎技术结构化的数据存储方式带来了搜索上的便利。但与此同时,严格的数据格式的要求会增加许多额外的开销。设计基于 XML 的搜索引擎需要的前提是统一的结构标准的制订[1] 。目前,在世界范围内,有一些组织正在从事建立结构标准的注册库的工作。 XML 搜索引擎分类现有的己经开发出来的 XML 搜索引擎主要有两大类[2] 。一类是 XML 文本搜索引擎, 它们是以文档为搜索单位,返回的查询结果是符合条件的整个文档。另一类是 XML 结构搜索引擎,结构的含义就是说这类搜索引擎关心的是文档中由标签标注的数据段,返回的查询结果通常是一个被标注的数据或是几个数据段组成的记录,它们是把 XML 文档看作存储半结构数据的数据库,而且它们的搜索技术都是采用了相应的数据库风格的查询语言,因此还可以对查询到的结果进行一定的运算。 搜索引擎的结构一个搜索引擎由采集器、索引器、检索器和用户接口四个部分组成。采集器从 抓取 XML 文档。它和 Web 站点的 Web 服务器通过 HTTP (Hypertext - 2 - Transfer Protocol) 协议进行交互,从 Web 站点下载 XML 文档。通常情况是使用爬虫软件来完成。在 XML 文档中的链接是用 XLL(Extensible Linking Language) 来描述的。 XLL 是由 Xpointer 和 Xlink 两部分组成的。 Xpointer 提供了更强大的指向文档
大容量XML数据存储搜索策略研究.pdf 来自淘豆网m.daumloan.com转载请标明出处.