下载此文档

海量日志实时分析-陈军 it168文库.pdf


文档分类:IT计算机 | 页数:约24页 举报非法文档有奖
1/24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/24 下载此文档
文档列表 文档介绍
海量日志实时分析-陈军_it168文库海量日志实时分析
日志搜索引擎
提纲
• 日志的应用场景
• 过去的做法
• 现在的做法
• 日志搜索引擎
• 日志易产品架构
一条 Apache Access 日志
• - - [15/Apr/2015:00:27:19 +0800] “POST /report HTTP/”
200 21 “/” “Mozilla/ (Windows NT ; WOW64;
rv:) Gecko/20100101 Firefox/” “”
• 字段:
– Client IP:
– Timestamp: 15/Apr/2015:00:27:19 +0800
– Method: POST
– URI: /report
– Version: HTTP/
– Status: 200
– Bytes: 21
– Referrer: /
– User Agent: Mozilla/ (Windows NT ; WOW64; rv:) Gecko/20100101
Firefox/
– X-Forward:
– Request_time:
– Upstream_request_time:
日志:时间序列机器数据
• IT 系统信息
• 操作系统
• 应用软件
• 用户信息
• 用户行为
• 各种传感器信息
• 日志反映的是事实数据
• 深度解析LinkedIn大数据平台(-
07-23/2820811/1)
应用场景
• 运维可用性监控
• 应用性能监控
• Application Performance Monitoring (APM)
• 安全审计
• Security Information Event Management (SIEM)
• 用户数据统计分析
• 物联网
• 智能家电
• Nest Lab 采集的智能恒温器数据使用 Splunk 来分析
• 车联网
过去的做法
• 日志没有集中处理
• 登陆每一台服务器,使用脚本命令或程序查看
• 日志被删除
• 磁盘满了删日志
• 黑客删除日志,抹除入侵痕迹
• 日志只做事后追查
• 没有实时监控、分析
• 使用数据库存储日志
• 无法适应TB级海量日志
• 数据库的schema无法适应千变万化的日志格式
• 无法提供全文检索
• Complex Event Processing (CEP)
• 难以处理大数据量
现在的做法
• Hadoop
• 批处理,不够及时
• 查询慢
• 可作基亍日 志的用户数据离线挖掘,无法做 OLAP (On Line Analytic Processing)
• Storm
• 历叱久,停止开发
• 仸务调度差
• Spark
• 生态圈完整
• DataBricks 丏门支持
• Storm vs. Spark Streaming
• Storm 是真正的流式处理,Spark Streaming 是 mini-batch
• Exactly Once vs. At Least Once
• 延时与吞吏率的取舍
• Hadoop/Storm/Spark都只是一个开发框架,不是拿来即用的产品
对日志准实时搜索、分析

海量日志实时分析-陈军 it168文库 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数24
  • 收藏数0 收藏
  • 顶次数0
  • 上传人755273190
  • 文件大小1.58 MB
  • 时间2021-06-28