编者荐语:
故障复盘的简洁框架-黄金三问,非常简洁,在此分享下。《谷歌SRE运维解密》书中说到“100%的可用性是不现实的,需要达到这个目标的成本通常远超于所能获得的价值。”如何快速故障复盘,希望可以帮助到大家。
文章来源于成哥的世界,作者
最近跟团队在做很多历史故障的复盘,看怎么才能够挖掘出更深层次的一些问题。
做的第一件事情,就是整理复盘框架,这个框架就是我提出的黄金三问(Three Golden Questions)。
非常简洁,这次借着实操,打算更深入的分享下。先分享框架,再分享内在的细分环节。
- 故障的根因是什么?
-
触发原因 -
根本原因(可以多个如技术层面+流程管控层面)
-
- 怎么做,后面才能完全避免同样的故障?
-
生产环境上是否有同样的问题,应该立即执行的巡检和规避措施什么? -
产品技术层面要做什么改进? -
架构设计要做什么改进? -
如涉及产品功能,测试层面需要做什么改进? -
管理/流程/机制上要做什么?(如高压线、质量保障措施、发布变更流程)
-
- 怎么做,下次遇到类似问题,可以更快的恢复业务?
-
应急流程/机制需要如何改进,可以帮助更快的判断和决策?(如信息同步、故障等级定义)
-
监控指标和告警机制是否可以完善,可以更快的发现? -
技术层面要有什么快速恢复的手段?(限流、降级、隔离、切换等)
-
- One more thing,我们还可以做些什么?
发现之前也分享了一些关于故障的随想,也把链接放在下面一并分享下:
《再好的技术,再完美的规章,也无法取代人自身的素质和责任心》