2006年6月2007年1月2007年8月05001,0002,0003,0004,0002Billion交易/天3Billion交易/:纽约证券交易所(NYSE)5,000数据量超过200TB基于Oracle进行了2年半的努力以失败而告终数据量的增长相当快花费1000万美元构建的数据仓库4个月里容量和性能就无法再满足要求*数据量增长的速度远远超过了传统DBMS的处理能力ApacheHadoop项目2004年DongCutting参考Google的论文开始实现Hadoop2006年Yahoo年雇佣DongCutting组队专职开发2006年2月,ApacheHadoop开源项目正式启动。ApacheHadoopHDFS设计1个NameNode+若干个DataNode将文件划分为若干块(Chunk)存储于各DataNode节点上每个块固定大小(64M)通过冗余来提高可靠性每个数据块(Chunk)至少在3个DataNode上冗余通过单个NameNode来协调数据访问、元数据存储结构简单,容易保持元数据一致性HDFS体系结构NamenodeB动态复制机架1机架2客户端(写文件)BlocksDatanodesDatanodes客户端(读文件)查找元数据获得文件存储位置元数据(文件名,存储位置)MapReduce-“分而治之”Inputsplitshuffleoutput交换聚集查询(SUM、AVG等)MapMapMapMapMapReduceP1P2P3P4P5D1D2D3D4D5最终查询结果MapReduce用户自定义Map、ReduceWorkerWorkerMasterWorkerWorkerWorkerforkforkfork分配map分配reduce读取写入本地文件系统OutputFile0OutputFile1写入GFSChunk0Chunk1Chunk2存储于GFS的输入数据MapReduce执行流程提交任务调度mapmapreducereduceMapReduce执行流程GFS数据块1数据块2mapmapreducereduce读输入文件
传统的海量数据分析方案 来自淘豆网m.daumloan.com转载请标明出处.