下载此文档

2021年大数据存储与处理-第二讲.ppt

文档分类：IT计算机 | 页数：约50页举报非法文档有奖

1/50

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/50 下载此文档

文档列表 文档介绍

文件存储
数据分析
数据计算
数据存储
平
台
管
理
数据集成
数据源
Database Web Log
…
现代数据处理
能力组件
现代数据处理框架
三大关键问题
3V
计算
存储
｝
容错
｝
｝
*
大数据存储与处理-第二讲
*
三大关键问题
存储
计算
容错
*
大数据存储与处理-第二讲
*
存储问题
 解决大数据存储效率的两方面：
– 容量
– 吞吐量
 容量
– 单硬盘容量提升：MB → GB → TB → ┈
– 系统整体容量提升：DAS、NAS、SAN
 吞吐量 = 传输数据量 / 传输时间
– 单硬盘吞吐量提升：转速、接口、缓存等
– 节点吞吐量提升：RAID、专用数据库机
*
大数据存储与处理-第二讲
*
提升吞吐量
 RAID：Redundant Array of Inexpensive Disks，冗余磁盘阵列
– 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组，从而实现高性
能和高可靠性
– RAID0：连续以位或字节为单位分割数据，并行读/写于多个磁盘上，提升
吞吐量
Source: /
*
大数据存储与处理-第二讲
*
多核技术
 Moor定律：当价格不变时，集成电路上可容纳的晶体管数目，约每
隔18个月便会增加一倍，性能也将提升一倍。
 采用多核（Multi-core）技术提升IPC，从而突破性能提升瓶颈。
指令数
主频
*
大数据存储与处理-第二讲
*
IPS MF IPC 
 
多处理器技术
 多处理器技术的核心：
 按处理器之间的关系可以分为两类：
 1 
 F 1 F/ N 
非对称多处理器架构（ASMP）
–
–
–
–
不同类型计算任务或进程由不同处理器执行
简单，操作系统修改小
低效
早期过渡性架构
对称多处理器架构（SMP）
–
–
–
–
所有处理器完全对等
计算任务按需分配
高效
普遍采用
*
大数据存储与处理-第二讲
*
并行模式
独立并行
–
两个数据操作间没有数据依
赖关系
–
–
可以采用独立并行的方式分
配给不同的处理器执行
例：两个独立数据集的Scan
操作
流水线并行
–
多个操作间存在依赖关系，且
后一个操作必须等待前一个操
–
作处理完后方可执行
将多个操作分配给不同处理器，
但处理器间以流水线方式执行
–
例：Scan → Sort → Group
分割并行
–
数据操作的输入数据可以分解为多个
子集，且子集之间相互独立
–
分割为若干独立的子操作，每个子操
作只处理对应的部分数据，并将这些
子操作配到不同的处理器上执行
–
例： Scan → Merge
*
大数据存储与处理-第二讲
*
并行系统架构
共享内存（Shared Memory，SM）
–
多个处理器，多个磁盘，一个共享
内存，通过数据总线相连
–
处理器间共享全部磁盘和内存
–
–
–
结构简单，负载均衡
数据总线成为瓶颈，可扩展性较差，
共享内存单点故障
适合处理器较少（≤8）的小规模并
行数据库
共享磁盘（Shared Disk，SD）
–
多个处理器，每个处理器拥有独立
内存，多个磁盘，处理器与磁盘通
过数据总线相连
–
–
–
处理器间共享全部磁盘
容错性提高
共享磁盘成为性能瓶颈，需要额外
维护内存与磁盘间的数据一致性
无共享（Shared Nothing，SN）
–
每个处理器拥有独立的内存和若干磁盘，
通过高速网络相连
–
处理器独立处理所管理的数据
–
–
–
–
–
数据传输量小，效率高
可扩展性强
节点间交换数据开销较大
适合处理器数量较大的大规模并行系统
后期发展的主流
*
大数据存储与处理-第二讲
*

2021年大数据存储与处理-第二讲来自淘豆网m.daumloan.com转载请标明出处.