下载此文档

传统的海量数据分析方案.ppt

文档分类：通信/电子 | 页数：约45页举报非法文档有奖

1/45

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/45 下载此文档

文档列表 文档介绍

传统的海量数据分析方案
ORACLE
RADATA
可扩展能力差
专有硬件
针对叫LTP进行了优化
价格昂贵
实例:纽约证券交易所(NYSE)
日交易量
Billion交易/天
NYSE
5,

数据量超过200TB
基于0 racle进行了2年半的努力以失

3 Billion交易/天
败而告终
数据量的增长相当快

花费1000万美元构建的数据仓库4个
月里容量和性能就无法再满足要求
1,00
50072Bi
数据量增长的速度远远超过了
交易/天
传统DBMS的处理能力
2006年6月
2007年1月
7年8月
Apache Hadoop项目
·2004年 Dong cutting参考 Goog le的论文开始实现 Hadoop
·2006年Yaho年雇佣 Dong Cutting组队专职开发
·2006年2月, Apache Hadoop开源项目正式启动。
Apache Hadoop
Apache Hadoop Ecosystem
ETL ToOls
BI Reporting
RDBMS
Pig(Data Flow,Hive(SQL)
Scoop
MapReduce(Job Scheduling/ EXecution System)lI
8 HBase(key-value store)I( Streaming/Pipes APIs)9
HDFS
(Hadoop Distributed File System)
HDFS设计
1个 NameNode+若干个 DataNode
·将文件划分为若干块( Chunk)存储于各
DataNode节点上
每个块固定大小(64M)
·通过冗余来提高可靠性
每个数据块( Chunk)至少在3个 DataNode上冗余
·通过单个 Namenode来协调数据访问、元数据存
储
结构简单,容易保持元数据一致性
HDFS体系结构
查找元数据
获得文件存儲位置
元数据(文件名,存储位置)
(读文
Datanodes
Datanodes
动态复制
Blocks
机架
机架2
答尸端
(写文
MapReduce-“分而治之
input
map tasKs
reduce tasks output
pO
educe
part O
split 2
mapo
reduce
part 1
map
SH reduce
art 2
map()h
交换
Input split
shuffle
output
聚集查询(SUM、AVG等)
最终查询结果
P4
Ma
MapReduce
用户自定义
Map、 Reduce
fork fork
fork
分配
Master
分配
,ma
P
reduce
存储于GFS的 Worker!
输入数据
写入本地
Work写入 GFS Output
File o
u
u
Wrke文件系统
hunk
output
wOrker
File 1
Worker
MapReduce执行流程
提交任务
master
调度
reduc
map
workers

传统的海量数据分析方案来自淘豆网m.daumloan.com转载请标明出处.