文件存储
数据分析
数据计算
数据存储
平
台
管
理
数据集成
数据源
Database Web Log
…
现代数据处理
能力组件
现代数据处理框架
三大关键问题
3V
计算
存储
}
容错
}
}
*
大数据存储与处理-第二讲
*
三大关键问题
存储
计算
容错
*
大数据存储与处理-第二讲
*
存储问题
解决大数据存储效率的两方面:
– 容量
– 吞吐量
容量
– 单硬盘容量提升:MB → GB → TB → ┈
– 系统整体容量提升:DAS、NAS、SAN
吞吐量 = 传输数据量 / 传输时间
– 单硬盘吞吐量提升:转速、接口、缓存等
– 节点吞吐量提升:RAID、专用数据库机
*
大数据存储与处理-第二讲
*
提升吞吐量
RAID:Redundant Array of Inexpensive Disks,冗余磁盘阵列
– 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性
能和高可靠性
– RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升
吞吐量
Source: /
*
大数据存储与处理-第二讲
*
多核技术
Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每
隔18个月便会增加一倍,性能也将提升一倍。
采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。
指令数
主频
*
大数据存储与处理-第二讲
*
IPS MF IPC
多处理器技术
多处理器技术的核心:
按处理器之间的关系可以分为两类:
1
F 1 F/ N
非对称多处理器架构(ASMP)
–
–
–
–
不同类型计算任务或进程由不同处理器执行
简单,操作系统修改小
低效
早期过渡性架构
对称多处理器架构(SMP)
–
–
–
–
所有处理器完全对等
计算任务按需分配
高效
普遍采用
*
大数据存储与处理-第二讲
*
并行模式
独立并行
–
两个数据操作间没有数据依
赖关系
–
–
可以采用独立并行的方式分
配给不同的处理器执行
例:两个独立数据集的Scan
操作
流水线并行
–
多个操作间存在依赖关系,且
后一个操作必须等待前一个操
–
作处理完后方可执行
将多个操作分配给不同处理器,
但处理器间以流水线方式执行
–
例:Scan → Sort → Group
分割并行
–
数据操作的输入数据可以分解为多个
子集,且子集之间相互独立
–
分割为若干独立的子操作,每个子操
作只处理对应的部分数据,并将这些
子操作配到不同的处理器上执行
–
例: Scan → Merge
*
大数据存储与处理-第二讲
*
并行系统架构
共享内存(Shared Memory,SM)
–
多个处理器,多个磁盘,一个共享
内存,通过数据总线相连
–
处理器间共享全部磁盘和内存
–
–
–
结构简单,负载均衡
数据总线成为瓶颈,可扩展性较差,
共享内存单点故障
适合处理器较少(≤8)的小规模并
行数据库
共享磁盘(Shared Disk,SD)
–
多个处理器,每个处理器拥有独立
内存,多个磁盘,处理器与磁盘通
过数据总线相连
–
–
–
处理器间共享全部磁盘
容错性提高
共享磁盘成为性能瓶颈,需要额外
维护内存与磁盘间的数据一致性
无共享(Shared Nothing,SN)
–
每个处理器拥有独立的内存和若干磁盘,
通过高速网络相连
–
处理器独立处理所管理的数据
–
–
–
–
–
数据传输量小,效率高
可扩展性强
节点间交换数据开销较大
适合处理器数量较大的大规模并行系统
后期发展的主流
*
大数据存储与处理-第二讲
*
2021年大数据存储与处理-第二讲 来自淘豆网m.daumloan.com转载请标明出处.