下载此文档

基于PageRank的网页主题相关性算法研究.pdf.pdf


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
· 计算技术与自动化·
基于的网页主题相关性算法研究
张黎烁,李鑫,徐猛。
.河南工程学院,河南郑州;.南京银行,江苏南京
摘要:作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。本文
针对现有基于链接结构的相关性算法算法的不足,提出了基于网页主题相关度的改进算法。理论分析和实验表
明,相对于传统的信息采集策略,改进的策略在准确率和召回率方面具有明显的优势。
关键词:,相关性;算法
中图分类号:. 文献标识码:

—, ,
.,;.,
:;;
主题型搜索引擎,就是以构筑某一专题领域或学科领域的因率就是被浏览网页的值。
特网信息资源库为目标,智能地在互联网上搜集符合设定专题或根据算法,计算某一网页值的方法如公
满足学科需要的信息资源。。
网络蜘蛛信息采集策略的关键部分,是提高主题网络蜘蛛信息, 、
二牛.
采集效率和准确性的基础。本文对基于链接结构的相关性算法一
进行研究,在传统的算法的基础上,根据主题网页的其中,为某待评价网页,。,:,⋯,,⋯表示的链入网页,
分布特征,引入主题预测相关度加权,使主题网络蜘蛛对网页中表示网页。中链出网页的数量;、分别表示网页
潜在的与主题相关性大的链接优先爬行。通过对主题相关性算和网页的值;为阻尼系数,用来表示用户因疲劳
法的研究,实现了对主题网络蜘蛛爬行方向的前瞻性指导,防止厌倦或其他原因,停止根据网页中的链接继续浏览的概率,取值
“主题漂移”现象的发生。在和之间通常为.;.为网络上网页的总量,由于网
主题搜索引擎中相关性算法概述页总数巨大,因此在实际计算中可以忽略一项。
在主题搜索引擎中,网络蜘蛛信息采集的目标是尽可能多计算网页的值时,首先要对网页的初始
地发现并采集与主题相关的信息,而忽略或丢弃与主题不相关值进行初始化,,直至网页
或相关性不大的信息【。因此,相关性算法在主题网络蜘蛛的信
值趋于稳定,即收敛于一个相对固定的数时,计算结束。
息采集策略中具有至关重要的作用。相关性算法分为基于网页
算法能较好地反映出网页的权威性,可以有效地
内容的相关性算法和基于链接结构的相关性算法。本文主要从网页的链接结构中发掘出重要的网页。然而,算法也
介绍基于链接结构的相关性算法。存在很大的不足。,对于每一个网
主题网络蜘蛛信息采集以网页问的链接关系为基础,而网页的链入网页,只有唧/】的值传递给了网页
页间的链接关系错综复杂,因此如何选择有效的链接路径进行
,即在传统的算法中,网页的值是基于链接
爬行是主题网络蜘蛛信息采集策略中又一关键技术。通常采用
平均传递的。算法仅仅对网页的链接结构进行分析,没
基于链接结构的相关性算法,对主题网络蜘蛛的爬行方向进行
有区分网页中的超链接与该网页的主题是否相关,常常导致采
指导。目前,算法和算法是最常见的基于链接结
集到的网页虽然具有较高的值,却与主题无关的现象
构的相关性分析算法。
主题漂移现象发生。
算法
算法改进
算法是在年由斯坦福大学的和
.算法改进
提出来的

基于PageRank的网页主题相关性算法研究.pdf 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zbptpek785
  • 文件大小0 KB
  • 时间2015-12-14
最近更新