下载此文档

搬运机械手PLC控制系统.doc


文档分类:通信/电子 | 页数:约22页 举报非法文档有奖
1/22
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/22 下载此文档
文档列表 文档介绍
搜索引擎的信息覆盖率评测模型研究
摘要 本文从引擎搜集子系统网页搜集不完全性的若干因素,指出信息覆盖率这一概念的研究意义,由此提出了三类比较重要的信息覆盖率概念。在对信息覆盖率建立量化研究模型之后,本文以北大天网WebInfomall平台为考察对象,以不同的方式对中国Web进行取样,用PageRank和HITS这两类典型的权值算法计算出其中的重要网页作为样本,从量和质的角度上考察webinfomall的信息覆盖率,得到合理的数量覆盖率和质量覆盖率实验数据,从而验证了WebInfomall信息覆盖率结论的合理性和信息覆盖率评测模型的可靠性。
关键词 搜索引擎,信息覆盖率,取样,权值计算,验证,数量覆盖率,质量覆盖率
研究背景
e Web)自1989年诞生并于次年开始运行以来,在迄今为止的十多年里发展迅猛,已逐渐成为人类社会信息资源中的一个重要组成部分。它以超文本和超媒体为核心技术,将文本、图形、图像、音频和视频等信息有机结合起来,给人们以丰富的信息表示空间。技术和应用的不断发展,社会的信息化进程不断加快,越来越多的社会信息资源开始选择Web作为其载体。
当前,个网站,约2,500,000,000网页,包含了至少19TB以上的数据,而且这些网页正以每天净增7,500,000的速度膨胀[1] [2] 。而在中国,NIC)于2002年1月进行的互联网统计报告[3],CN下注册的域名数为127,319个,共有277,100个Web站点。到2002年为止,中国境内的Web站点共有53,432,598个网页,主要分布在约49,146个网站中[4]。
面对浩瀚的互联网络资源,人们若不借助其他工具很难快速的查找到自己所需要的信息,这带来了搜索引擎的诞生。从1994年诞生的第一代搜索引擎Lycos和InfoSeek等开始,发展到当前流行的Google、Altavista等系统,它们已逐渐成为人们进行网际冲浪的重要工具之一。根据弗吉尼亚理工大学GVU中心的调查报告[5] ,%的用之一斑。
我们将每一条独立的资源定位地址称为URL(Uniform Resource Location)。搜索引擎便是利用URL之间的连接关系,搜集其对应的网页信息,建立索引,供用户查询。因此,搜索引擎搜集的网页集合便是用户所能得到查询结果的最大范围;这个范围越接近何一个搜索引擎能搜集完Google系统和WiseNut系统,搜集到并提供给用户查询的网页数量分别是2,073,418,204个[6]和1,571,413,207[7]个,最多不过静态网页总数的80%。而根据Greg ?年3月发表的搜索引擎统计数据
[8]??,这两个系统的网页数据量是最大的。
网络上的信息数量巨大而且种类繁多,任何一个实际运行的搜集系统都不可能将其全部搜尽。优秀的搜索引擎总会搜集尽量多的网页,更好的满足用户的查询要求。考察搜索引擎对搜集系统的根据,对评价搜索引擎的性能好坏具有积极的作用。
另一方面,随着社会信息化程度的不断提高,的历史发展进程。基于搜索引擎技术开发的网络信息博物馆正以此为目的,力图通过搜索引擎的网页搜集系统不断搜集时在时间和空间上展示索引擎的信息覆盖率对验证网络信息博物馆网页资源的有效性也有着十分重大的意义。
本文的研究工作基于上述目的,针对北京大学计算机系网络与分布式系统实验室开发的为基础开发的网上信息博物馆WebInfomall[9],采取多种方法从多个角度计算其信息覆盖率,证明了该网页搜集系统获得的中国网络信息资源是基本有效的。
模型概述
网页搜集的不完全性
如果把RL作为它的唯一标记;又由于网页中存在其它网页的URL,可以把这种网页间的链接看作连接顶点的边,则整个示。相应的,每一个顶点的入度和出度对应着链向该网页的网页数量和该网页链向其他网页的数量。显然,这是一张不完全图,因为里面存在很多入度或出度为0的顶点。
当前的网页搜集系统都是基于对这种链接关系,从某一个种子URL开始,不断的从新搜到的网页中提取出URL,从而到达其它的网页。搜集过程中,通常需要对网页重要性作初步的判断,优先搜集相对有价值的网页。在这种搜集机制里面,存在着下列问题,导致无法遍历所有的网页。
部分网页的入度为0,即从任何一个网页开始,都不存在到它的路径,这类网页的数量约占全体网页数量的10%[10] 。
选择的种子URL集合中,任何一个网页都不存在到该网页的路径。.3%的顶点能被选取作为起始点去遍历剩下的约90%的顶点[10]。
由于在网页搜集的过程中出现了优先排序,搜集系统资源本身的限制(磁盘容量和时间限量)导致部分网页直到搜集过程中止都没有被搜集,出现Starve的情况[11]。
页来不及搜集。搜集系统自身一般都有搜集周期,

搬运机械手PLC控制系统 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数22
  • 收藏数0 收藏
  • 顶次数0
  • 上传人策划大师
  • 文件大小0 KB
  • 时间2011-11-13