地瓜 SEO 博客:百度快照抓取网站的原理及问题
——编辑整理自:地瓜熟了不:
地瓜熟了不:本文带有技术性质的分析了百度快照抓取网站的原理,对广大 SEOer 们具有比
较大的认识帮助,网站在搜索引擎(SE)里的具体表现,是每个 SEO 都非常关注的问题,SEO
工程师经常根据快照来分析网站的状态,针对快照的更新情况来做调整,以便更好地优化或者
提升网站的综合指标。快照,在搜索引擎中的应用,为分析网站提供了有利的条件因素。
我们拿百度来举个例子,其他搜索引擎的原理都大同小异。百度快照的定义,参见百度搜索帮
助:每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面, 称为“百度快照”。而官
方给百度快照赋予的功能就是,在查询结果中将要打开的网页无法打开或者载入速度很慢的时
候,“百度快照”可以快速浏览页面内容。
百度快照的原理,百度搜索引擎内部搜索程序对网络上的数据进行组织处理的过程,对文件
数据会进行索引存储的具体体现就是百度快照。通俗来讲,百度获取数据的过程,就是分发
出百度蜘蛛,在整个互联网通过彼此的链接互通情况下获取数据;而百度快照是在百度蜘蛛通
过某一链接到达新的网站或单个页面时,对这个网站首页或者单个页面的数据存储;百度内部
机制会根据具体的算法,对数据进行归类索引缓存,用户检索时,百度在通过提取数据库服
务器中索引的缓存数据,就看到了的快照。
我们经常会发现百度快照有时候更新,有时候却又很久都不变,那百度快照到底有什么几率
呢,其实这一切都在服务器日志中可以看到。百度快照很多站长在抱怨我的快照一直停留在 23
24 16这样的时间每个月更新一次,有的甚至半年没更新。快照也是一个搜索引擎的附加程序
作为搜索引擎的一环,所有的程序都要求是处理最优结果,节省运算时间为前提处理数据。所
以百度对于每个网站都有一个快照更新的评级,在百度这个现象很明显,当然对主页和内页的
评级也是不同的这个不多赘述。他评级的标准就是按几次蜘蛛抓取的数据分析,数据大幅度
更新(比较一组数据,更新量大到一个值的时候),举个很概念的例子:百度标准数据更新值
如果是7,你页面蜘蛛抓取第一次和第二次做对比更新值是3不达标,第三次抓取跟第一次对
比数据更新是8了,OK 截取第一次和第三次之间的时间间隔。当然这个是很笼统的说法,百
度要进行几次对比后取个均衡量做评判,这个就不是我们能知道的,但是这样的一个算法的原
理我们知道了。这样的做法就是可以让快照程序有针对性的去更新网站的快照,而不是所有网
站不分类别一起更新,这样对运算的时间和成本节省不少。
知道有这么个评级之后所有的事情都好办了,这个评级百度没有公开,目前也不知道百度对一
个网站重新评估更新评级的间隔是多少时间,但是 SEO 要做的事情如果是让更新快照的频
率更高的话其实很简单
既然我们知道原理了,我们就有针对的操作方法
第一步查看你的服务器日志,了解一下百度蜘蛛对于你的网站页面抓取的规律
第二步知道蜘蛛对一个页面抓取的时间间隔之后,列出一个内容更新时间表
第三步在每相邻两次次蜘蛛抓取间隔中更新你的页面内容,集中在这个时间段内更新(举
例:比如你本来更新内容是 10小时,但是这10小时中蜘蛛已经来过三次了那么你就要想办法
把这10小时的量更新在
地瓜SEO博客:百度快照抓取网站的原理及问题 来自淘豆网m.daumloan.com转载请标明出处.