下载此文档

传统的海量数据分析方案.ppt

文档分类：通信/电子 | 页数：约44页举报非法文档有奖

1/44

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/44 下载此文档

文档列表 文档介绍

2006年6月2007年1月2007年8月05001,0002,0003,0004,0002Billion交易/天3Billion交易/:纽约证券交易所(NYSE)5,000数据量超过200TB基于Oracle进行了2年半的努力以失败而告终数据量的增长相当快花费1000万美元构建的数据仓库4个月里容量和性能就无法再满足要求*数据量增长的速度远远超过了传统DBMS的处理能力ApacheHadoop项目2004年DongCutting参考Google的论文开始实现Hadoop2006年Yahoo年雇佣DongCutting组队专职开发2006年2月,ApacheHadoop开源项目正式启动。ApacheHadoopHDFS设计1个NameNode+若干个DataNode将文件划分为若干块(Chunk)存储于各DataNode节点上每个块固定大小(64M)通过冗余来提高可靠性每个数据块(Chunk)至少在3个DataNode上冗余通过单个NameNode来协调数据访问、元数据存储结构简单,容易保持元数据一致性HDFS体系结构NamenodeB动态复制机架1机架2客户端(写文件)BlocksDatanodesDatanodes客户端(读文件)查找元数据获得文件存储位置元数据(文件名,存储位置)MapReduce-“分而治之”Inputsplitshuffleoutput交换聚集查询(SUM、AVG等)MapMapMapMapMapReduceP1P2P3P4P5D1D2D3D4D5最终查询结果MapReduce用户自定义Map、ReduceWorkerWorkerMasterWorkerWorkerWorkerforkforkfork分配map分配reduce读取写入本地文件系统OutputFile0OutputFile1写入GFSChunk0Chunk1Chunk2存储于GFS的输入数据MapReduce执行流程提交任务调度mapmapreducereduceMapReduce执行流程GFS数据块1数据块2mapmapreducereduce读输入文件

传统的海量数据分析方案来自淘豆网m.daumloan.com转载请标明出处.