下载此文档

传统的海量数据分析方案.ppt


文档分类:通信/电子 | 页数:约44页 举报非法文档有奖
1/44
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/44 下载此文档
文档列表 文档介绍
2006年6月2007年1月2007年8月05001,0002,0003,0004,0002Billion交易/天3Billion交易/:纽约证券交易所(NYSE)5,000数据量超过200TB基于Oracle进行了2年半的努力以失败而告终数据量的增长相当快花费1000万美元构建的数据仓库4个月里容量和性能就无法再满足要求*数据量增长的速度远远超过了传统DBMS的处理能力ApacheHadoop项目2004年DongCutting参考Google的论文开始实现Hadoop2006年Yahoo年雇佣DongCutting组队专职开发2006年2月,ApacheHadoop开源项目正式启动。ApacheHadoopHDFS设计1个NameNode+若干个DataNode将文件划分为若干块(Chunk)存储于各DataNode节点上每个块固定大小(64M)通过冗余来提高可靠性每个数据块(Chunk)至少在3个DataNode上冗余通过单个NameNode来协调数据访问、元数据存储结构简单,容易保持元数据一致性HDFS体系结构NamenodeB动态复制机架1机架2客户端(写文件)BlocksDatanodesDatanodes客户端(读文件)查找元数据获得文件存储位置元数据(文件名,存储位置)MapReduce-“分而治之”Inputsplitshuffleoutput交换聚集查询(SUM、AVG等)MapMapMapMapMapReduceP1P2P3P4P5D1D2D3D4D5最终查询结果MapReduce用户自定义Map、ReduceWorkerWorkerMasterWorkerWorkerWorkerforkforkfork分配map分配reduce读取写入本地文件系统OutputFile0OutputFile1写入GFSChunk0Chunk1Chunk2存储于GFS的输入数据MapReduce执行流程提交任务调度mapmapreducereduceMapReduce执行流程GFS数据块1数据块2mapmapreducereduce读输入文件

传统的海量数据分析方案 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数44
  • 收藏数0 收藏
  • 顶次数0
  • 上传人梅花书斋
  • 文件大小1.55 MB
  • 时间2020-03-27
最近更新