下载此文档

2022年简谈搜索引擎工作流程搜索研究教程.docx


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
2022年简谈搜索引擎工作流程搜索研究教程
互联网是一个宝库,搜寻引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜寻引擎的相关学问及运用技巧上实力不足。国外的一次调查结果显示,约有71%的人对搜寻的结果感到不同程度的悲观。作为互联网的其次2022年简谈搜索引擎工作流程搜索研究教程
互联网是一个宝库,搜寻引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜寻引擎的相关学问及运用技巧上实力不足。国外的一次调查结果显示,约有71%的人对搜寻的结果感到不同程度的悲观。作为互联网的其次大服务,这种状况应当变更。 互联网的快速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里找寻信息,就像“大海捞针”一样困难。搜寻引擎正是为了解决这个“迷航”问题而出现的技术。 搜寻引擎的工作包括如下三个过程:
、搜集网页信息;=版权全部 热点网络 热点下载 热点网络学院 版权全部=

,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
发觉、搜集网页信息=版权全部 热点网络 热点下载 热点网络学院 版权全部=
须要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜寻信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的全部链接中动身,接着找寻相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地阅读整个互联网,通常在技术上采纳抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的运用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,须要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜寻引擎技术公司可能不尽相同,但目的都是快速阅读Web页和后续过程相协作。目前国内的搜寻引擎技术公司中,比如百度公司的网络蜘蛛采纳了可定制、高扩展性的调度算法使得搜寻器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。
索引库的建立
关系到用户能否最快速地找到最精确、最广泛的信息,同时索引库的建立也必需快速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的刚好性。对网页采纳基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜寻出的结果与用户的查询串相一样。新浪搜寻引擎对网站数据建立索引的过程中实行了根据关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜寻出的结果与用户的查询串相一样。新

2022年简谈搜索引擎工作流程搜索研究教程 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mama1
  • 文件大小12 KB
  • 时间2022-06-17