河北大学
硕士学位论文
基于改进的PageRank的网页信息可信度评估方法研究
姓名:马伟瑜
申请学位级别:硕士
专业:计算机应用技术
指导教师:袁方
2011-06
摘要
摘要
近年来,随着 的快速发展,Web 为用户提供了大量的网页信息资源,并逐
步成为了人们获取信息的主要途径之一。但 Web 数量及内容的快速增加,使得用户越
来越难对网络中信息的可信程度进行甄别。
本文在传统的 Web 结构挖掘算法 PageRank 的基础之上,针对如何评估 Web 信息可
信度的问题进行了研究。
通过实际考察和具体分析,网页信息可信的影响因素主要有网页之间的交互结构、
网页信息主题之间的相关程度以及网页信息的发布时间等。本文综合考虑了上述影响因
素,提出了一种基于改进的 PageRank 的网页信息可信度评估方法。该方法首先考虑了
网页间的交互结构,通过分析网页信息所在网页的链接与被链接的数量、对象,建立网
页信息自身的交互结构图;然后利用 TF-IDF 公式将网页信息主题表示成tf− idf 向量的
形式,并利用向量余弦距离公式计算网页信息主题间的相关程度,通过分析网页信息主
题间的相关程度把最具代表性的网页信息提取出来;此外,本文又考虑到网页信息内容
具有不同的发布时间,因而该方法在可信度评估过程中引入了时间衰减函数,利用该函
数反映时间这一要素对网页信息可信度的影响。
文章最终的评估方法是在加权的交互结构图中计算每个网页信息的可信度。文中将
网页信息主题之间的相关程度、网页信息的发布时间等相关因素引入到网页信息的交互
结构图中,利用信任传播机制在交互结构图中维护节点的可信度,达到了一个结点的可
信度改变后,其他相关结点都随之动态改变的目的。
通过具体实验对本文提出方法进行了验证,实验结果表明基于改进的 PageRank 的
网页信息可信度评估方法能够为用户提供更为可信的、有价值的网页信息。
关键词 PageRank 网页信息可信度相关度时间度 NPR(New-PR)
I
Abstract
Abstract
In recent years, with the rapid development of , Web provides users with a large
number of information resources, and gradually has e an important way to obtain
information. However, it is increasingly difficult work users to screen the web
information with higher credibility because of the web information's rapid increase.
This thesis mainly studies the academic problem about how to evaluate the credibility of
the web information based on the traditional web structure mining algorithm PageRank.
Through practical observation and detailed analysis, we find that there are some factors
which can influence the credibility of the web information. Such as, the interactive structure
of web pages, the correlation degree between two web information themes, the release time of
the web information, and so on. This thesis takes into account the above factors, and put
forward a web information credibility evaluation method based on improved PageRank. The
conceptualization of this method is that: first, consider the interactive structure of web pages,
基于改进的PageRank的网页信息可信度评估方法研究 来自淘豆网m.daumloan.com转载请标明出处.