加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 服务器 > 安全 > 正文

美团点评运维总监钟红军:美团运维的工具化、产品化、运营化

发布时间:2021-01-12 18:41:53 所属栏目:安全 来源:网络整理
导读:副标题#e# 《美团点评运维总监钟红军:美团运维的工具化、产品化、运营化》要点: 本文介绍了美团点评运维总监钟红军:美团运维的工具化、产品化、运营化,希望对您有用。如果有疑问,可以联系我们。 本次分享嘉宾是美团点评运维中心高级总监钟红军,他向我
副标题[/!--empirenews.page--]

《美团点评运维总监钟红军:美团运维的工具化、产品化、运营化》要点:
本文介绍了美团点评运维总监钟红军:美团运维的工具化、产品化、运营化,希望对您有用。如果有疑问,可以联系我们。

本次分享嘉宾是美团点评运维中心高级总监钟红军,他向我们详细介绍了美团点评近3年来在大规模运维的理念和实践方面的探索,尤其是在运维自动化和数据运营方面的工作和效果.

美团点评运维总监钟红军:美团运维的工具化、产品化、运营化


钟红军 / 美团点评运维中心高级总监

美团点评集团运维中心高级总监,此前曾工作于百度,腾讯,PPTV等互联网公司,熟悉系统、网络、运维、安全、数据、开发等多个领域.

今天我将美团点评这几年在运维方面做的一些工作,以及自己的思考与大家分享一下.美团点评整个运维团队100多人,base在北京和上海,美团和点评两家公司在2015年合并,所以团队也是两地都有.运维中心有SRE团队有数据库的团队,有自动化开发等.

阶段1:工具化

我是2013年从百度加入点评的,之前在腾讯,当时想法很明确,因为腾讯、百度的运维体系相对比较成熟,包括运维工具、自动化的工具都是一整套,比较好用,对我来说最遗憾的是这些工具都不是自己做的,在腾讯我只是一个用户,每天用那些运维工具却不知道这些工具如何做出来的.所以在美团点评给自己的使命,就是要把美团点评的运维做到腾讯、百度的水平,把缺失的过程、成长的过程由自己做出来.美团点评运维团队在2014年-2015年业务发展非常快,公司有几万人,研发团队很大,那时候的运维做得还是处于相对基础的阶段,遇到了问题,不分白天黑夜操作压力很大,尤其是出了事故要应急,过节需要各种的准备,值班也很混乱.

最初想法很简单,希望把这事情做到极简、规范和一致,保证操作能做到几十年不变,不管谁来做都是同样的操作.比如装一台机器或者是部署一个应用,希望它做一百次、一千次也是这样.第二,把程序代替繁琐的工具,第三,所有的操作都可记录,以免出了事故找不到是谁操作的.第四,把运维操作往前推,希望运维操作不要由运维来做了,由研发来做,因为需求本身来自于研发,不是来自于运维,所以需求来了也应该由研发去做.

以上是我去年总结的四句话,看似很普通的四句话,是美团点评做自动化过程中的一个线条.第一句话,凡是不能变成工具的规范我们都不看.做运维大家会想到出一点规范,比如发布规范、部署规范、命名规范,机器取名得有一个规范,不规范操作容易出错.在我看来,任何一个规范如果不能变成一个工具去约束的话,这规范没有意义.写一篇文档或者一个要求,发给研发去看,只要它不能变成一个工具就没有意义,因为这个规范出来,如果布置工具的话,实现100次可能有一次有人不遵守.但其实他一次都不遵守,好过做100次只有一次不遵守,因为每次都不遵守,问题很好查,而做了100次有一次不遵守,就很难查.比如晚上服务挂了,一千台的服务器,是其中一台的问题其实挺难查的,如果这一千台有共同的问题,就很好查.

规范本身没有任何的意义,只有它变成一个工具才有意义,因为强调的是一致性,希望它犯错也是每次犯同样的错,不要每次犯不一样的错.所以,我们的点评团队没有howto,没有文档,整个运维很少做文档.当然现在也做了,100多人还是要做一些不能形成工具的规范,不过还是坚持这一点,规范应该想办法做一个工具.比如我们有一个静默期的要求,春节长假前三天不允许发版本.那么从2013年开始点评就执行这个规则的,因为它有工具支持,发布系统要有开关,一到时间就能关掉,必须走运维的审批流通,这个流程是自动化的.但在2015年,新发布系统不支持这个开关,因此把这个规范停下来了,不执行这个规范,因为没有工具支持,执行这个规范没有意义,发个通知告诉大家要静默期,首先要挨骂,其次大家该怎么样怎么样,骂完之后扔不执行这个规范,后来我们就停下来,直到今年春节的时候,终于支持这个功能了再执行这个规范.

第二,不是增加power,而是减少power .解释一下,在2014年-2016年做运维自动化相关工具的时候,团队的内部也是有很多的争议的,其中一个很重要的争议就是,有相当多的同学认为做自动化工具是给运维的人更大的power,能做更多的事,大家无限畅想这个工具可以怎么样,一按键所有的机器都重启起来,其实很悲剧.我的理念是工具是为了减少power,不是为了增加power,为什么这么说呢?如果是使之为了更强大的话,其实手工操作是最强大的,给一个ssh命令的窗口,一个root,就是最强大的,什么都可以做.工具本质是为了限制,不是为了增强,是干不了什么而不是能干什么.比如做自动化流程系统,在考核自动化流程系统的时候,看它的流程多不多,流程越多说明做得越烂.作为一个运维来说,我认为不应该有超过10个流程.常见的运维操作不会超过10个,加机器、减机器、重启机器,其他的配一个域名等.如果管理到位一点,比如配一个web的IP,这些应该都不需要运维来做,所以超过10件事是有问题的.

第三,解决一个复杂的问题,不可以引入另一个复杂问题作为代价.很多做运维的同学,尤其是做了一段时间后,学过很多各种各样的概念,从最早的ITIL,到现在的SRE等等,容易犯一个错误,就是喜欢用复杂的方法解决复杂的问题,运维的体系也好、运维自动化也好,其实是一个简单的问题.回到最初来讲,运维解决的问题是保障线上的稳定,只有这一件事情.运维自动化解决什么问题?就是让所有第三方因素或者是人为的因素对线上稳定性造成的伤害越少越好,这个越少越好来自于第一变更越少越好,我们在腾讯后期提出这种理念,没有变更才是最好.以前大家说管理变更,变更要管理起来,这个变更完了是永远管理不好的,最好不要有变更.比如扩容,很多同学提出节假日了容量不够,要实现一键扩容,在我的理解里面,我希望实现不需要扩容.

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读