下载此文档

大数据存储与处理-第二讲 ppt课件.ppt


文档分类:IT计算机 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
大数据的三个关键问题
Google的大数据技术
Google的业务:PageRank
三大法宝
1
第二讲大数据的关键技术
文件存储
数据分析
数据计算
数据存储




数据集成
数据源
Database Web Log

现代数据处理
能力组件
现代数据处理框架
三大关键问题
3V
计算
存储
}
容错
}
}
三大关键问题
存储
计算
容错
存储问题
解决大数据存储效率的两方面:
–容量
–吞吐量
容量
–单硬盘容量提升:MB → GB → TB →┈
–系统整体容量提升:DAS、NAS、SAN
吞吐量= 传输数据量/ 传输时间
–单硬盘吞吐量提升:转速、接口、缓存等
–节点吞吐量提升:RAID、专用数据库机
提升吞吐量
 RAID:Redundant Array of Inexpensive Disks,冗余磁盘阵列
–把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性
能和高可靠性
– RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升
吞吐量
Source: /
多核技术
 Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每
隔18个月便会增加一倍,性能也将提升一倍。
采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。
指令数
主频
IPS MF IPC

多处理器技术
多处理器技术的核心:
按处理器之间的关系可以分为两类:
 1 
 F 1 F/ N 
非对称多处理器架构(ASMP)




不同类型计算任务或进程由不同处理器执行
简单,操作系统修改小
低效
早期过渡性架构
对称多处理器架构(SMP)




所有处理器完全对等
计算任务按需分配
高效
普遍采用
并行模式
独立并行

两个数据操作间没有数据依
赖关系


可以采用独立并行的方式分
配给不同的处理器执行
例:两个独立数据集的Scan
操作
流水线并行

多个操作间存在依赖关系,且
后一个操作必须等待前一个操

作处理完后方可执行
将多个操作分配给不同处理器,
但处理器间以流水线方式执行

例:Scan → Sort → Group
分割并行

数据操作的输入数据可以分解为多个
子集,且子集之间相互独立

分割为若干独立的子操作,每个子操
作只处理对应的部分数据,并将这些
子操作配到不同的处理器上执行

例: Scan → Merge
并行系统架构
共享内存(Shared Memory,SM)

多个处理器,多个磁盘,一个共享
内存,通过数据总线相连

处理器间共享全部磁盘和内存



结构简单,负载均衡
数据总线成为瓶颈,可扩展性较差,
共享内存单点故障
适合处理器较少(≤8)的小规模并
行数据库
共享磁盘(Shared Disk,SD)

多个处理器,每个处理器拥有独立
内存,多个磁盘,处理器与磁盘通
过数据总线相连



处理器间共享全部磁盘
容错性提高
共享磁盘成为性能瓶颈,需要额外
维护内存与磁盘间的数据一致性
无共享(Shared Nothing,SN)

每个处理器拥有独立的内存和若干磁盘,
通过高速网络相连

处理器独立处理所管理的数据





数据传输量小,效率高
可扩展性强
节点间交换数据开销较大
适合处理器数量较大的大规模并行系统
后期发展的主流

大数据存储与处理-第二讲 ppt课件 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小马皮皮
  • 文件大小0 KB
  • 时间2015-11-30