做好一次故障演练?
行故障演练? 伴随着海量请求、节假日峰值流量和与日俱增的系统复杂度一起出现的,很有可能是预料之中以及意料之外的各种故障。在很多情况下,由于事故处理预案的缺失或者预案本身的不可靠,以及开发人员故障处理经验的缺失,造成在各种报警之中自乱了阵脚,从而贻误了***战机。特别是一些平时线上没出现过的异常故障,一旦突然出现,往往措手不及。 系统是否足够健壮?是否有足够的能力应对故障的发生?当面临故障时会出现什么行为?我们并不希望真正线上出现故障时才去验证这些问题,这样风险太大,成本太大。所以希望在线上环境隔离真实流量的情况下,提前模拟产生各种任何可能发生的故障,来观察系统的反应,验证预期策略。 总结一下,故障演练主要有以下几个目标:
理想情况是达到如下流程化: 例行化故障演练、找出系统风险点、优化业务系统、产出可行有效的故障处理预案/场景故障可否演练影响应对预案操作 SOP实施预案后的影响预案解除条件预案解除 SOP预案实施失败的应对方案 (4)对应用表现的实际观察和判断 这个可以在监控系统上观察应用的各项指标表现,比如异常打点,流量打点,业务曲线,机器性能等一系列可能受故障影响的地方。 故障演练怎么做? 故障演练前 1. 检查必备基础能力
2. 确定故障演练范围、环境 (1) 要对哪些请求流量注入故障?
选择核心业务链路的请求流量
链路分析,标记出核心业务链路 (2) 要模拟哪些下游服务的故障?
此下游服务发生故障的机率大 此下游服务发生故障时影响的业务范围广 此下游服务发生故障的会影响核心业务 此下游服务发生故障时能制定出可行的应对方案
依赖链路分析,确定业务链路中依赖了哪些下游服务 反向依赖分析,确定下游服务故障会影响哪些业务链路,评估影响的业务范围
(3) 在哪个应用环境模拟故障? (编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |