传统的海量数据分析方案
ORACLE
RADATA
可扩展能力差
专有硬件
针对叫LTP进行了优化
价格昂贵
实例:纽约证券交易所(NYSE)
日交易量
Billion交易/天
NYSE
5,
数据量超过200TB
基于0 racle进行了2年半的努力以失
3 Billion交易/天
败而告终
数据量的增长相当快
花费1000万美元构建的数据仓库4个
月里容量和性能就无法再满足要求
1,00
50072Bi
数据量增长的速度远远超过了
交易/天
传统DBMS的处理能力
2006年6月
2007年1月
7年8月
Apache Hadoop项目
·2004年 Dong cutting参考 Goog le的论文开始实现 Hadoop
·2006年Yaho年雇佣 Dong Cutting组队专职开发
·2006年2月, Apache Hadoop开源项目正式启动。
Apache Hadoop
Apache Hadoop Ecosystem
ETL ToOls
BI Reporting
RDBMS
Pig(Data Flow,Hive(SQL)
Scoop
MapReduce(Job Scheduling/ EXecution System)lI
8 HBase(key-value store)I( Streaming/Pipes APIs)9
HDFS
(Hadoop Distributed File System)
HDFS设计
1个 NameNode+若干个 DataNode
·将文件划分为若干块( Chunk)存储于各
DataNode节点上
每个块固定大小(64M)
·通过冗余来提高可靠性
每个数据块( Chunk)至少在3个 DataNode上冗余
·通过单个 Namenode来协调数据访问、元数据存
储
结构简单,容易保持元数据一致性
HDFS体系结构
查找元数据
获得文件存儲位置
元数据(文件名,存储位置)
(读文
Datanodes
Datanodes
动态复制
Blocks
机架
机架2
答尸端
(写文
MapReduce-“分而治之
input
map tasKs
reduce tasks output
pO
educe
part O
split 2
mapo
reduce
part 1
map
SH reduce
art 2
map()h
交换
Input split
shuffle
output
聚集查询(SUM、AVG等)
最终查询结果
P4
Ma
MapReduce
用户自定义
Map、 Reduce
fork fork
fork
分配
Master
分配
,ma
P
reduce
存储于GFS的 Worker!
输入数据
写入本地
Work写入 GFS Output
File o
u
u
Wrke文件系统
hunk
output
wOrker
File 1
Worker
MapReduce执行流程
提交任务
master
调度
reduc
map
workers
传统的海量数据分析方案 来自淘豆网m.daumloan.com转载请标明出处.