下载此文档

云计算技术在web日志挖掘中的应用分析.docx


文档分类:IT计算机 | 页数:约65页 举报非法文档有奖
1/65
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/65 下载此文档
文档列表 文档介绍
摘 要
如何解决数据挖掘中海量数据处理的问题一直是数据挖掘领域一个非常重要的研究课题。尤其是随着网络技术的迅猛发展,web 上的数据正以指数级形式飞速增长,且 web 上的数据具有海量、多样、异构、动态变化等特点,这使得基于单一节点的集中式数据挖掘平台已经不能满足目前海量数据网络的分析任务了。如何实现快速地从 web 这个最大的数据集合中提取出有用的信息已成为数据挖掘领域一个备受国内外学者关注的课题。
云计算正是产生于这样的背景之下,它的出现给海量数据的处理和存储带来了曙光。同时,云计算只需要部署在普通的廉价计算机集群上即可运行,但是数据处理能力却很强,因此 Web 数据挖掘系统在云计算集群框架下的成功实行具有很重要的意义和应用价值。
本文在 Hadoop 平台上,结合 web 日志挖掘的特点,给出了一种基于云计算的 web 日志挖掘系统的设计方案,并对该系统的各个功能模块进行了详细的阐述。同时,针对目前从 web 日志中挖掘用户偏爱路径的算法注重客观访问频度,而忽略用户对这一频繁访问路径是否感兴趣的不足,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,给出了一个挖掘用户浏览偏爱路径的方法,从而剔除了由于页面放置和链接等因素对挖掘的影响。
最后对本文给出的改进算法的有效性以及云计算平台的高效性进行了实验比较分析。实验结果表明,改进后的挖掘用户偏爱浏览路径的算法更能反映用户的浏览意图。同时,利用云计算平台,通过“云”中多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的 web 日志挖掘。
关键词:云计算 web 日志挖掘 Hadoop 浏览偏爱路径
I
ABSTRACT
How to solve the problem of processing massive data in data-mining filed is always an important researching subject. Especially with the rapid development work technology, the data on the web increase rapidly in the form of exponential and with many characteristics such as massive, diverse, heterogeneous and dynamic, this makes mining on a single node can not meet the need of current massive data analysis task. How to extract useful information from the world’s largest data collection—web, has e a more concerned subject for scholars from all over the world.
puting is produced under the background of the situation mentioned above, its emergence gives a bright future for massive data processing and storage. The platform of puting can run only to be deployed in an ordinary cluster of puters, but the data processing capability is strong. Therefore, whether web data mining system run essful under the framework of Cloud’s cluster or not, has an important significance and application value.
Based on the Hadoop platform, combined with the characteristic of web log mining, we present a solution of web log mining system which based on puting, and describe each module of the system in details. Meanwhile, the current mining algorithms are focus

云计算技术在web日志挖掘中的应用分析 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数65
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小801 KB
  • 时间2018-05-29
最近更新