加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 综合聚焦 > 创业热点 > 经验 > 正文

书本上没有的:万台服务器下运维怎样做好监控?

发布时间:2021-06-02 12:11:21 所属栏目:经验 来源:互联网
导读:异常检测在运维实践中有着举足轻重的地位,实时、准确的发现异常能够帮助我们及时采取行动,最大限度减少故障的损失。 在监控领域中,其实最重要的一点是要能够通过一些监控指标发现问题,当我们的系统越来越大越来越复杂的时候,想从繁杂的指标当中,几百

异常检测在运维实践中有着举足轻重的地位,实时、准确的发现异常能够帮助我们及时采取行动,最大限度减少故障的损失。

在监控领域中,其实最重要的一点是要能够通过一些监控指标发现问题,当我们的系统越来越大越来越复杂的时候,想从繁杂的指标当中,几百个监控策略中发现异常其实是非常困难的,尤其是最初开始使用静态阈值的方式相对来说比较简单。

静态阈值这种方式,初期对主机性能进行监控,对你的CPU和内存使用率进行监控,这种方式还是比较好的,我们可以通过人工方式确定资源使用率达到60%,基本上达到了安全水平线,再高就有风险,就需要告警了,这个指标也有一定的特点,取值是在0到100%之间,可以根据人工的方式,根据我们的经验确定一个值,然后把它设立为一个告警阈值。

除此之外,当我们进行更多业务监控的时候,面临的挑战就更大了。

举个例子,比如说第二幅图里面,某些集训由于处理的逻辑比较简单,所以响应时间会比较低,正常来说,响应时间比较低,是不是设置阈值的时候,阈值也要设置的比较低,一旦发现异常可以马上发现。

如果基于传统的方式我们来解决这个问题,其实需要人工有很多分析,但是监控指标数量实在太多了,已经达到了人类不太好人工处理的地步了。怎么办?我们采用一些基于统计的方法,我们后面再详细来说一下,比较好解决了这个问题。

第三种监控指标是随着每天用户访问量,发生变化的,当用户访问量比较小,自然数值就下降,达到用户访问高峰期的时候,数值就比较高,呈现波动性变化,很难用一个阈值来解决这个问题,我们利用机器学习的方法,学习历史数据规律,采用分类模型的方式判断是否有异常。

第一个比较简单,固定阈值这种方式,好处是比较简单直观,坏处是难以适应日益复杂的需求。

第二个方面,某一个机群显示时间,类似这种指标我们用统计判别的方式来设定是比较好的,其中比较好的方法也能够比较好的识别出历史数据大部分时间是分布在哪个区域,从而设定一个合适阈值的。

另外这种方式也有一定好处,当你集群行为发生变化的时候会自适应进行一些调整,比如说如果这个集群最开始响应时间比较低,自动生成阈值,自然也是比较低的,当前几天突然出现响应时间增高,出现一个变化的时候,那自然是要出现一些告警的,这也是符合需求的,前几天出现了一些显示时间增大,我们肯定要进行一些告警,但是如果后续持续每天都出现这些问题的话,就说明这是没有问题的,可能由于处理逻辑更加复杂了,所以响应时间就增常了。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读