下载此文档

海量数据的存储技术方案和应用实践.docx


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
海量数据的存储技术方案和应用实践
NoSQL+集群流批+PG集群+内存缓存
     
 
 
 
 
     
     
 
     
 
 
 
目 录
一、项目建设背景 3
二、高性单点瓶颈,适当采取牺牲CAP属性中的C,也不失为一个可选的策略。
早期的系统调研中,有的场景对于实时性一致性要求高,但是每次操作的数据量不大。而在其他的常见中,每次操作的数据量较大,但是对于数据的实时一致性没有过高的要求。
基于此,对于数据存储的选型,要区别对待。对于前后数据需要一致性的,依旧采用关系型数据库,用数据库事务来保证数据的ACID一致性要求。对于并发访问量高,但是数据的时效性和对比关联性不是很强的场景,我们采用分布式数据存储来应对。
经过多次选型调研,最终选择了Postgres数据库作为关系型数据库的载体,用于ACID的场景。使用NoSQL的数据存储作为高并发访问的场景的数据存储。
2、非关系型数据库选型
市面常见的NoSQL包括Redis、Durid、Hbase、MongoDB、Hive等。对于不同应用场景的选择是不同的。
MongoDB表结构灵活可变,字段类型可以随时修改。记录以Json格式后存储,不需要定
义表结构。但是多表查询、复杂事务等高级操作效率低下。所以其适合于写少读多的场景。
HBase列式存储特性带来了海量数据规模的支持和极强的扩展能力,但是由于查询都必须要依赖rowKey,这就使得很多复杂查询难以进行。例如,如果你的查询条件涉及多个列项,或者你无法获取要查询数据的key,那么查询效率将会非常低下。
Druid是基于MPP 架构的OLAP,其预聚合算是 Druid 的一个非常大的亮点,通过预聚合可以减少数据的存储以及避免查询时很多不必要的计算。适用于大量数据的下的实时聚合查询场景。
Redis牺牲了常规数据库中的数据表、复杂查询等功能,特别适合那些对读写性能要求极高,查询条件也同样简单的应用场景。
HIVE数据仓库,基于HDFS的结构,支持主流的SQL但是查询的速度较慢,适合于大批量场景的数据加工,存储的场景。
下面有个对比的表格:
支持情况
Redis
Durid
HBase
MongoDB
Hive
数据规模





批量查询性能





批量写入性能





支持表级关联
不支持
不支持
不支持


聚合查询
不支持

不支持


亚秒级查询





亚秒级写入





3、数据灾备方式的选择
数据是科技公司最大的资产,每个公司都在数据灾备上面作为了大量的应用防止出现意外时候,数据丢失及访问异常。为最大程度的降低风险。早期考虑dump每天的数据快照,在异地数据库进行恢复,但是这样存在dump期间的数据丢失情况。一旦出现数据服务器down机的情况,备库是无法承接使用的。
现在Postgres集群本地采用一主两从的流复制方式,保证主从节点之间数据一致性。同时在一台从节点上使用级联复制为异步IDC提供数据同步服务。
HDFS采用跨IDC机架的方式,Redis、Durid、MongoDB采用集群模式、保证数据灾备时候,能够快速切换到备机使用,且数据不会丢失。
三、建设实践
1、关系型数据库应用
 关系型中数据库切分存储
由于去IOM的要求及未来国产化、开源化的大趋势。我们最终选择了Postgres作为关系型数据库的载体。
单库Postgres性能无法满足高并发访问的要求,采用了分库分表的数据逻辑切分。由于是强职能管理型的系统特性。客户关联的数据信息使用基于所在辖区水平分库切分,而管理公共信息、统计报表信息、数据概览信息、以垂直切分的方式切分。对于常用的表,在各个数据库中冗余存储。以此减少OLAP操作时网络传输的耗时,同时便于利用数据库本身的特性。
这样切分,虽然不同的数据库中数据相较于一致性hash分库原则会不一致,不同辖区对应的数据库中数据量可能不一样多,牺牲了一部分的存储。但是较系统的性能,还是值得的。
同时对于数据库当日产生的操作信息及交易流水,按照一致性Hbase的原理,将流水信息存储在以流水号切分的数据库节点中存储。
关系型中数据库HA
在众多的PostgreSQL HA方案中,流复制HA方案是性能,可靠性,部署成本等方面都比较好的,也是目前被普遍采用的方案。而用于管理流复制集群的工具中,Pacemaker+Corosync又是比较成熟可靠的。同时为了兼顾异地灾备,以一个从节点进行级联复制,将数据异地灾备到其他IDC机房节点。
系统

海量数据的存储技术方案和应用实践 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小1.28 MB
  • 时间2022-08-31
最近更新