非结构化数据存储方案
一、存储类型体系:
存储类型体系结构图
存储类型体系描述
块存储:将存储区域划分为固定大小的小块,是传统裸存设备的存储空间对外暴露方式。块存储系统将大量磁盘设备通过SCSI/SAS或FC S非结构化数据存储方案
一、存储类型体系:
存储类型体系结构图
存储类型体系描述
块存储:将存储区域划分为固定大小的小块,是传统裸存设备的存储空间对外暴露方式。块存储系统将大量磁盘设备通过SCSI/SAS或FC SAN与存储服务器连接,服务器直接通过SCSI/SAS或FC协议控制和访问数据。主要包括DAS和SAN两种存储方式。比照方下列图:
分布式文件存储:文件存储以标准文件系统接口形式向应用系统提供海量非结构化数据存储空间。分布式文件系统把分布在局域网内各个电脑上的共享文件夹集合成一个虚拟共享文件夹,将整个分布式文件资源以统一的视图呈现给用户。它对用户和应用程序屏蔽各个节点电脑底层文件系统的差异,提供用户方便的管理资源的手段和统一的访问接口。主要包括NAS和HDFS两种存储方式。
网络附加存储NAS结构如图:
HDFS分布式文件系统存储结构如图:
对象存储:对象存储为海量非结构化数据提供Key-Value这种通过键-值查找数据文件的存储模式,提供了基于对象的访问接口,有效地合并了NAS和SAN的存储结构优势,通过高层次的抽象具有NAS的跨平台共享数据优点,支持直接访问具有SAN的高性能和交换网络结构的可伸缩性。主要包括swift和ceph两种实现形式。
Swift,OpenStack Object Storage〔Swift〕是OpenStack项目的子项目之一,被称为对象存储。它构建在比较廉价的标准硬件存储基础设施之上,无需采用RAID〔磁盘冗余阵列〕,通过在软件层面引入一致性散列技术和数据冗余性,牺牲一定程度的数据一致性来到达高可用性和可伸缩性,支持多租户模式、容器和对象读写操作,适合解决非结构化数据存储问题。
ceph,Linux下PB级分布式文件系统,可轻松扩展PB容量,提供了对多种工作负载的高性能和高可靠性。它大致分为四部分:客户端〔数据用户〕,元数据服务器〔缓存和同步分布式元数据〕,一个对象存储集群〔包括数据和元数据〕,以及最后的集群监视器〔执行监视功能〕。
二、非结构化大数据分布式存储架构
非结构化PB级大数据分布式存储架构,相对于其各自存储结构及不同应用场景,结合台特性,现给出两种解决方案。第一种是基于OpenStack子项目swift的分布式大数据存储方案,另一种是基于ceph的分布式大数据存储方案
基于openStack子项
非结构化存储方案 来自淘豆网m.daumloan.com转载请标明出处.