为什么谷歌的服务从来不会崩溃?
Chef公司的Jacob则认为,50%的比例并不是那么重要,但他喜欢这种态度。他说:“这就是经济学。我们总需要一些人来做运营的破事儿,人们总有无限的破事儿希望运营人员能够解决。所以,给这些破事儿设个限额是完全合理的。” 在招聘SRE人员方面,谷歌甚至出台了严格的指导方针。约有五成到六成SRE人员是通过工程师的招聘流程进来的,其他人则有“85%到99%”的同等技术能力,再加上“大部分软件工程师缺乏、但对SRE工作非常有用的技术技能”,比如深入了解UNIX操作系统的内部原理或硬件联网协议。这也是为了确保开发和运营保持适当的平衡。 登月计划的启示 从许多方面来看,这是一种新的管理原则。但在进一步的阐述中,谷歌团队用了一个很老的案例。 谷歌SRE原则的精神祖先其实是“代码女神”Margaret Hamilton,她是MIT的程序员,也是数学和电脑科学的先锋,在上世纪六十年代为阿波罗登月计划开发程序。Hamilton描述到,阿波罗项目的文化之一就是“从每个人、每件事上学习,包括你最不抱希望的人和事。” Hamilton虽身为技术人员,却在运维方面起到了重要作用。当年,她经常把自己的小女儿Lauren带到实验室去。有一天Lauren不小心按下一个按钮,结果把一个用于阿波罗发射前的程序输入到正在运行发射后方案的电脑。这立马使得电脑崩溃,此后Hamilton便尝试给系统加入一个新的错误校验代码,让其能够在真正的飞行中预防这类突发情况的发生。上司对她的想法表示反对,认为宇航员永远不会犯这样的错误。然而,在阿波罗八号的飞行中,宇航员真的发生了这样的状况,所幸Hamilton早在系统文档中加入了一个变通方案。在此后的发射中,她给系统加入了错误校验代码。 “光是指出‘那样做会崩溃的’真的没啥作用。但如果你说,‘那样做会崩溃的,我来告诉你怎么做’,这就非常了不起了。”Underwood是这样解读的,“她看到了程序将会崩溃,并看清了会怎么崩溃,然后设计出了预防方案。” 这就是DevOps,用谷歌的说法就是SRE。听起来没什么大不了,却是非常强大的理念。它已经成就了谷歌。不过,像Underwood这样的哲学家型SRE人士还有更大的雄心。他们设想,在未来的世界里,运维能够更进一步变成代码的一部分。Underwood说:“我们期待着有朝一日,不需要人进行任何管理。” 文章来自钛媒体,作者JoyceChan (编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |