网易视频云:如何监控 OpenStack
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PASS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云的技术专家与大家分享一下如何监控 OpenStack。
OpenStack 是开源 IaaS 解决方案,组件众多,架构复杂,并且技术栈长。随着系统规模不断扩大, 如何快速发现,定位故障,最终处理故障成了一个急需解决的问题。OpenStack 的监控分为三方面:监控、报警;诊断、追踪;故障处理;其中监控和报警是发现问题的第一步,解决的主要问题是在大规模部署 OpenStack 的情况下,如何准确、详尽地报告系统目前情况,及早发现并提示故障发生。
OpenStack 的监控可以分为三个层次:操作系统监控,服务监控,端到端监控;层层依赖,服务的稳定依赖操作系统的稳定,而只有服务稳定了,用户才能正常的操作云资源。他们的关系如下图所示:
端到端的监控着眼于发现影响用户的问题,这类问题优先级很高,但是由于属于最高层,具体产生的原因不很明显,所以需要下面两层的监控发现更细致的问题。
服务监控着重从 OpenStack 的软件架构,实现原理出发,站在运维人员的视角,判断服务是否正常。
操作系统监控收集操作系统的基本指标,如果操作系统异常,在其上运行的服务软件很难正常工作。在一般大型互联网公司中这一层的监控由 SA 负责。
选择开源系统
开源监控系统千千万,如 zabbix,nagios,Cacti,Munin,icinga,ganglia ,collectd + graphite,influxed + grafana,prometheus 等等。但是 OpenStack 的特殊性决定了我们需要一款监控系统:
监控系统目前状况,在超出预期时报警;
记录历史信息,比如过去一年的 CPU 使用情况,内存使用情况,因为运维 OpenStack 系统的关键是预测和判断系统的承载能力,运维人员需要有历史数据;
图形化,数据可视化是运维 OpenStack 的关键,运维人员需要在系统还没有达到承载上限的时候预判风险,提前扩容;
故障响应可扩展:发现问题除了报警,对于能够自动化处理的故障,监控系统能够支持自动化处理;
报警管理,问题分轻重缓急,轻度的问题可以推迟处理后者不处理,严重的需要立刻报警;
开源系统在以上几个方面各有所偏重,使用方法也各不相同,本文主要基于 zabbix 设计 OpenStack 的监控系统,不过基本思路可以应用到任何监控系统上。
1. 操作系统监控
操作系统是整个 OpenStack 的基础,选择通用的监控项即可,主要监控如下信息:
监控内容
磁盘空间使用率
磁盘io使用率
CPU 使用率
内存使用率
网卡使用率
每一个 OpenStack 节点都必须监控操作系统状态。在 zabbix 中可以设置一个 Template_OS_Openstack,所有 host 都关联到这个 template 上。
2. 服务监控
OpenStack 的服务繁杂,架构比较复杂,
网易视频云:如何监控 OpenStack 来自淘豆网m.daumloan.com转载请标明出处.