大数据流式处理
项目背景
网络发展迅速的时代,越来越多人通过网络获取跟多的信息或通过网络作一 番自己的事业,当投身于搭建属于自己的网站、APP或小程序时会发现,经过一 段时间经营和维护发现浏览量和用户数量的增长速度始终没有提升。在对其进大数据流式处理
项目背景
网络发展迅速的时代,越来越多人通过网络获取跟多的信息或通过网络作一 番自己的事业,当投身于搭建属于自己的网站、APP或小程序时会发现,经过一 段时间经营和维护发现浏览量和用户数量的增长速度始终没有提升。在对其进行 设计改造时无从下手,当在不了解用户的浏览喜欢和个用户群体的喜好。虽然服 务器日志中明确的记载了用户访浏览的喜好但是通过普通方式很难从大量的日 志中及时有效的筛选出优质信息。Spark Streaming是一个实时的流计算框架,该 技术可以对数据进行实时快速的分析,通过与 Flume、 Kafka 的结合能够做到近 乎零延迟的数据统计分析。
SSP 项目主要是采用实时处理方式,主要分析统计点击日志、曝光日志、媒 体请求日志、媒体请求返回日志等日志的用户行为分析。
案例需求
要求:实时分析服务器日志数据,并实时计算出某时间段内的浏览量等信息。
使用技术:Flume-》Kafka-》SparkStreaming-》MySql 数据库
案例架构
架构中通过Flume实时监控日志文件,当日志文件中出现新数据时将该条数 据发送给Kafka并有Spark Streaming接收进行实时的数据分析最后将分析结果保 存到MySQL数据库中,再通过可视化界面展示给运营和相关管理人员。结构图 。
图 实时处理架构
在本篇文章中使用Flume+Kafka+Spark Streaming具体实现大数据实时流式数
:
Agent
Sp^rk Streaming
Memory chflnn^l
Agent
Kafka sink
Memory chan ngl
图 实时采集日志架构图
环境准备
大数据平台
基于Cloudera Manager集群构建大数据生产环境, 部署的,此次项目所用到的组件包括 Flume、Kafka、Spark、Yarn、Zookeeper、
MySQL。
Q ClUSter 1 (COMS.!2口 Parcel)
e匡主机 zs
O 匕 Flume
© K HBase
O Q HDFS
O ' V Hive
O 常 Kafka
◎ Spark
O 臨 Sqocp 2
O 煞 YARN (MR...
O .* Zoo Keeper
图 大数据平台组件
大数据平台为 5 个节点。集群服务器按照节点承担的任务分为管理节点和工 作节点。管理节点上一般部署各组件的管理角色,工作节点一般部署有各角色的 存储、容器或计算角色。根据业务类型不同,集群具体配置也有所区别,根据申 通大数据的集群定位为海量数据存储和实时计算、数据挖掘、数据分析、人工智 能,这些计算场景对磁盘的10、CPU、内存要求较高,:
管理节点
工作节点
处理器
两路Inte
大数据流式处理性能 来自淘豆网m.daumloan.com转载请标明出处.