下载此文档

实时数据库方案讨论.docx


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
实时数据库应用方案讨论定义实时计算的概念实时计算一般都是针对海量数据进行的,一般时间要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。主要应用场景1)数据源是实时的不间断的,要求用户的响应时间也是实时的(比如对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况)2)数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。比如说:昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。三、实时计算的相关技术主要分为三个阶段(大多是日志流):数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段。下面具体针对上面三个阶段详细介绍下1)数据实时采集:需求:功能上保证可以完整的收集到所有日志数据,为实时应用提供实时数据;响应时间上要保证实时性、低延迟在1秒左右;配置简单,部署容易;系统稳定可靠等。目前的产品:Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume,淘宝开源的TimeTunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求。他们都是开源项目。2)数据实时计算在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。实时计算目前的主流产品:Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。Twitter的Storm流计算系统:是一个分布式的、容错的实时计算系统架构。可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC数据库)。Facebook的Puma:Facebook使用puma和HBase相结合来处理实时数据,Hbase为分布式KV结构的列式数据库系统,支持大数据量的实时查询。3)数据数据查询服务半内存:使用Redis、Memcache、MongoDB、BerkeleyDB等内存数据库提供数据实时查询服务,由这些系统进行持久化操作。全磁盘:使用HBase等以分布式文件系统(HDFS)为基础的NoSQL数据库,对于key-value引擎,关键是设计好key的分布。全内存:直接提供数据读取服务,定期dump到磁盘或数据库进行持久化。四、方案架构选择:A.(开源架构方式)Timetunel+Hbase+Storm+UPS(timetunel技术介绍:/detail/49652-%E6%B7%98%E5%AE%9D-%E5%AE%9E%E6%97%B6-%E6%95%B0%E6%8D%AE)架构原理表述:Storm被广泛用来进行实时日志处理,一般出现在实时统计、实时风控、实时推荐等场景中。一般来说,我们从类kafka的metaQ或者基于HBase的timetunnel中读取实时日志消息,经过一系列处理,最终将处理结果写入到一个分布式存储中,提供给应用程序访问。每天的实时消息量可以满足从几百万到几十亿不等,数据总量达到TB级。一

实时数据库方案讨论 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息