?大数据的三个关键问题?Google的大数据技术?Google的业务:PageRank?三大法宝1第二讲大数据的关键技术文件存储数据分析数据计算数据存储平台管理数据集成数据源DatabaseWebLog…现代数据处理能力组件现代数据处理框架三大关键问题3V计算存储}容错}}三大关键问题存储计算容错存储问题?解决大数据存储效率的两方面:–容量–吞吐量?容量–单硬盘容量提升:MB→GB→TB→┈–系统整体容量提升:DAS、NAS、SAN?吞吐量=传输数据量/传输时间–单硬盘吞吐量提升:转速、接口、缓存等–节点吞吐量提升:RAID、专用数据库机提升吞吐量?RAID:RedundantArrayofInexpensiveDisks,冗余磁盘阵列–把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性能和高可靠性–RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升吞吐量Source:键问题存储计算容错多核技术?Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。?采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。指令数主频IPS??MF?IPC??????多处理器技术?多处理器技术的核心:?按处理器之间的关系可以分为两类:?1??F??1?F?/N?非对称多处理器架构(ASMP)––––不同类型计算任务或进程由不同处理器执行简单,操作系统修改小低效早期过渡性架构对称多处理器架构(SMP)––––所有处理器完全对等计算任务按需分配高效普遍采用并行模式独立并行–两个数据操作间没有数据依赖关系––可以采用独立并行的方式分配给不同的处理器执行例:两个独立数据集的Scan操作流水线并行–多个操作间存在依赖关系,且后一个操作必须等待前一个操–作处理完后方可执行将多个操作分配给不同处理器,但处理器间以流水线方式执行–例:Scan→Sort→Group分割并行–数据操作的输入数据可以分解为多个子集,且子集之间相互独立–分割为若干独立的子操作,每个子操作只处理对应的部分数据,并将这些子操作配到不同的处理器上执行–例:Scan→Merge并行系统架构共享内存(SharedMemory,SM)–多个处理器,多个磁盘,一个共享内存,通过数据总线相连–处理器间共享全部磁盘和内存–––结构简单,负载均衡数据总线成为瓶颈,可扩展性较差,共享内存单点故障适合处理器较少(≤8)的小规模并行数据库共享磁盘(SharedDisk,SD)–多个处理器,每个处理器拥有独立内存,多个磁盘,处理器与磁盘通过数据总线相连–––处理器间共享全部磁盘容错性提高共享磁盘成为性能瓶颈,需要额外维护内存与磁盘间的数据一致性无共享(SharedNothing,SN)–每个处理器拥有独立的内存和若干磁盘,通过高速网络相连–处理器独立处理所管理的数据–––––数据传输量小,效率高可扩展性强节点间交换数据开销较大适合处理器数量较大的大规模并行系统后期发展的主流
大数据存储与处理-第二讲 来自淘豆网m.daumloan.com转载请标明出处.