海量Web信息搜集系统优化设计
论文摘要
本文首先由技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。
搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。
最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。
关键词:
搜索导向,replicas-finding, crawler , URL ordering
背景介绍
§
e Web)起源于1989年欧洲粒子物理研究室(CERN)。-Lee于1989年3月提出的,第一个原型(基于文本)于18个月后运行。
、图形、图象、音频、视频等信息的有机结合,给人们提供了丰富的信息表示空间。在十多年的时间里,院在《自然》上发布的数据[3],截止到1999年2月,,其中公开提供大约8亿页,这些网页包含了15T字节的数据。按照2000年4月在波士顿举行的第5届搜索引擎年会的会议报告[4],我们可以知道现今的网页数目已经超过了10亿页。
年的时间里发展速度惊人。NIC(中国互联网络信息中心)在2000年1月的统计信息表明[5],中国已有上网计算机350万台,其中万。关于网页的数目没有具体的统计数据,但根据《科学》杂志上提供的集合估计法[2],通过中国几个主要搜索引擎获得的搜索数据(天网、新浪、搜狐、网易),我们可以估计到当前中国拥有的网页数已经超过1000万页。
§ 搜索引擎的出现和发展
面对浩瀚的信息社会的兴奋之后,立刻觉得不知所措,太多的信息使我们很难迅速定位我们真正需要的信息,而跟随超链在无功。因此,人们迫切需要有效的信息发现工具来为他们在。
在1994年,第一代搜索引擎出现了,例如Lycos, Infoseek, AltaVista和Exite。这时,它们还处在研究阶段,数据量少,检索速度慢是它们的突出缺点。最近这几年里,搜索引擎技术有突飞猛进的发展,出现了AltaVista,Inktomi ,Google ,Inktomi的Directory Engine ,Inktomi , FAST, Northern Light 等成熟的搜索引擎产品,它们日趋变的好用,成为。
“北大天网(Webgather)”在“九五”攻关项目“计算机信息网络及其应用关键技术研究”中设立了“中文编码和分布式中英文信息发现”子专题,北京大学网络研究室承担了该子专题的部分研究开发工作,设计开发了“天网”中英文搜索引擎(WebGather)[3]。1997年10月29日,上提供查询服务。《软件世界》(1998年7月)将天网评为国内最值得关注的搜索引擎,1998年12月,的鉴定。之后,天网又进行了大量的技术创新和系统的完善。到目前为止,天网总访问量已经突破
5,000,000,并且仍以每天大于30,000的访问量递增。
系统概述
§ “天网”体系结构简介
搜集端
搜集
数据库
数据库
分析器
检索端
检索数据库
图
搜集端结构
“天网搜索引擎”由两个主要部分组成,分别是搜索端和检索端[refer]。搜索端从必要的信息存放到数据库中去(天网目前使用的是
informix 数据库),当数据库完成一次更新后检索端便可依据数据库中存放的信息对用户的检索请求做出答复了,也就是把用户想要的网页例出。从检索的效率上考虑(数据库往往把功能作得很完善,我们宁可扔掉一部分于我们无用的功能,来换取高速的读取),搜集端不是直接从informix 数据库中读取信息,而是从由数据库生成的中间文件中读取信息的。。
。
搜集端按如下方式工作,先由主控启动多个gather进程,并给它们逐一分配一个网上的URL,由它们负责去网上抓取网页。Gather对取得的网页进行分析,把结果送给主控,由主控对数据库进行操作,主控可以从gather 送来的结果中获得新的URL,再分配给gather。由于网络有时可能不能正常工作,gather 把自己在某一时刻的工作状态纪录在共享内存里面,restart进程负责巡视共享内存,处理gather遇到的各种问题,改进程为什么被称作”restart”,是因为当它发现有gather进程由于一些网络上的原因不能正常工作时(如分配的URL不存在,我们称之为“死链”),由他结束该gather的本次任务,分配新的任务后重新开始。为了协调网络速度和CPU处
海量的基于Web的FTP搜索引擎系统的设计与实现 来自淘豆网m.daumloan.com转载请标明出处.