下载此文档

基于MapReduce并行计算的网站日志数据分析处理.pdf


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
科学技术创新 -101-
基于 MapReduce 并行计算的网站日志数据分析
utingmethodsalonecannotmeettheneedsof
,
paperexpoundstheprinciplebasisofMapReduce,appliesthecharacteristicsofMapReducecalculationmodel,cutsthe
large-scaledatasetinthedistributedfilesystemintoindependentdatablocks,andevenlydistributesthecalculationto

,time,HTTPprotocol,statuscodeandother
informationofothermachinesaccessingtheserver.
Keywords:BigData;ParallelComputing;MapReduce;DataAnalysis;Journal
Hadoop 是一种具有分布式特点的系统框架,Hadoop 发展 Hadoop 主要由两大核心 HDFS 和 MapReduce 两部分组
到今天已经发展成一个生态系统,其组件之多,使用也是极其 成。
复杂,但是根本的目的只有一个那就是解决数据的存储与分 。HDFS 是一种分布式文件系统,作为 Hadoop 核
析。本文将在 Hadoop 分布式系统下的 MapReduce 为处理系统 心之一,具有处理超大数据、流式处理、可在廉价的服务器上运
的基础上进行网站日志的清洗,通过 LogMapper 类进行键值对 行等特点。HDFS 在访问应用程序数据时,具有很高的吞吐率,
的 Shuffl 操作、通过 LogReducer 类进行合并统计。利用分布 因此对于超大数据集的应用程序而言,选择 HDFS 作为底层的
式、并行计算的优越性,快速得到数据分析结果。

基于MapReduce并行计算的网站日志数据分析处理 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
最近更新