网络爬虫引言-爬虫?Crawler ,即Spider(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的http 协议,利用超链接和Web 文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循http 协议,检索Web 文档的软件都称之为网络爬虫。?网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。聚焦爬虫?随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:聚焦爬虫?(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。?(2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。?(3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。?(4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。聚焦爬虫?为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。?与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。垂直搜索的本质?从主题相关的领域内,获取、加工与搜索行为相匹配的结构化数据和元数据信息。如数码产品mp3:内存、尺寸、大小、电池型号、价格、生产厂家等,还可以提供比价服务爬虫基本原理?网络爬虫是通过网页的链接地址来寻找网页,从一个或若干初始网页的URL开始(通常是某网站首页),遍历Web 空间,读取网页的内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到在网页中的其他链接地址,对HTML 文件进行解析,取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站所有的网页都抓取完,满足系统的一定停止条件。爬虫基本原理?另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。网络爬虫分析某个网页时,利用HTML 语言的标记结构来获取指向其他网页的URL 地址,可以完全不依赖用户干预。?如果把整个互联网当成一个网站,理论上讲网络爬虫可以把互联网上所有的网页都抓取下来爬虫基本原理?而且对于某些主题爬虫来说,这一过程所得到的分析结果还可能对以后抓取过程给出反馈和指导。正是这种行为方式,这些程序才被称为爬虫( spider )、crawler、机器人。爬虫基本原理?Spider怎样抓取所有的Web 页面呢??在Web出现以前,传统的文本集合,如目录数据库、期刊文摘存放在磁带或光盘里,用作索引系统。?与此相对应,Web 中所有可访问的URL都是未分类的,收集URL 的唯一方式就是通过扫描收集那些链向其他页面的超链接,这些页面还未被收集过。
13网络爬虫 来自淘豆网m.daumloan.com转载请标明出处.