web搜索引擎优化技术
宋斐
******@nxmu.
搜索引擎
搜索引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。
搜索引擎借助于自动搜索网页的软件,在网络上通过各种链接获得大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。
-主流搜索引擎
搜索引擎的工作原理
搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。
搜索引擎原理
搜索引擎的原理基于三段式工作流程,即搜集,预处理,提供服务。
搜索引擎的工作原理包括搜索引擎收录页面、建立索引和向用户提供查询服务等。
搜索引擎原理-三段式工作流程
网页搜集:
预处理:
提供服务:
1网页搜集
网页数据库的基本策略:
1)定期搜集:
2)增量搜集:
网页的抓取策略:
1)“爬取”策略:
2)维护URL:
定期搜索
定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。
优点:实现起来较简单
缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高
增量搜索
开始时搜集一遍,然后:
,则从库中删除
“爬取”策略
将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。
这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)
第四章_搜索引擎优化 来自淘豆网m.daumloan.com转载请标明出处.