运维改革探索(一)：用多层级监控实现可视化运维

发布时间：2021-01-08 07:06:44 所属栏目：安全来源：网络整理

导读：副标题#e# 《运维改革探索(一)：用多层级监控实现可视化运维》要点：本文介绍了运维改革探索(一)：用多层级监控实现可视化运维，希望对您有用。如果有疑问，可以联系我们。作者介绍朱祥磊,山东移动BOSS系统架构师,负责业务支撑系统架构规划和建设.获国家

gmond：部署在各个被监控节点上,定期收集节点数据,并进行广播或单播；
gmetad：部署在服务器端,定时从data_source中拉取gmond收集的数据.在每个集群中选择一个节点定义为data_source；
ganglia-web：部署在服务器端,将监控数据投递到web页面.

2)Nagios系统架构

Nagios主要包括nagios daemon、插件(plugins)和NRPE模块,如下图所示.

Nagios按照设置的周期调用插件来检查监控对象状态.执行check_nrpe,并指定参数(检查命令,比如check_disk),告诉远端被监控节点的NRPE daemon需要检查哪些指标.NRPE 运行本地的各种插件进行检测,然后把检测的结果返回给check_nrpe.服务器端维持一个队列,所有返回的状态信息都进入队列.共有4种状态信息,即 0(OK)表示状态正常/绿色、1(WARNING)表示出现警告/黄色、2(CRITICAL)表示严重错误/红色、3(UNKNOWN)表示未知错误/深黄色.Nagios根据插件返回来的值,判断监控对象的状态,并通过web展示.同时调用告警脚本smswarn,发送告警短信,同时,也可以配置邮件告警通知.

3)已实现的被监控节点列表

目前云化平台性能监控系统共监控如下节点,分为19个集群：

3、云化平台性能监控效果

1)Ganglia效果示例

通过建立基于Ganglia的性能监控平台,改变了对平台性能监控的认识,大大提升了监控水平.

如下：一个界面内可以实现整个集群的运行趋势概况：

下面是云集群内每个机器的运行情况,超过几十种指标可选：

2)Nagios效果示例

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/6

首页

尾页

促进网络安全科普共筑	开源软件安全度走向成
首席信息安全官依然会	如何创建有弹性的网络