0°

故障复盘的简洁框架-黄金三问

编者荐语:

故障复盘的简洁框架-黄金三问,非常简洁,在此分享下。《谷歌SRE运维解密》书中说到“100%的可用性是不现实的,需要达到这个目标的成本通常远超于所能获得的价值。”如何快速故障复盘,希望可以帮助到大家。

文章来源于成哥的世界,作者Cheng哥

最近跟团队在做很多历史故障的复盘,看怎么才能够挖掘出更深层次的一些问题。

做的第一件事情,就是整理复盘框架,这个框架就是我提出的黄金三问(Three Golden Questions)。

非常简洁,这次借着实操,打算更深入的分享下。先分享框架,再分享内在的细分环节。

  1. 故障的根因是什么?
    • 触发原因
    • 根本原因(可以多个如技术层面+流程管控层面)
  2. 怎么做,后面才能完全避免同样的故障?
    • 生产环境上是否有同样的问题,应该立即执行的巡检和规避措施什么?
    • 产品技术层面要做什么改进?
    • 架构设计要做什么改进?
    • 如涉及产品功能,测试层面需要做什么改进?
    • 管理/流程/机制上要做什么?(如高压线、质量保障措施、发布变更流程)
  3. 怎么做,下次遇到类似问题,可以更快的恢复业务?
    • 应急流程/机制需要如何改进,可以帮助更快的判断和决策?(如信息同步、故障等级定义)
    • 监控指标和告警机制是否可以完善,可以更快的发现?
    • 技术层面要有什么快速恢复的手段?(限流、降级、隔离、切换等)
  • One more thing,我们还可以做些什么?

发现之前也分享了一些关于故障的随想,也把链接放在下面一并分享下:

故障管理中的涅槃重生

故障处理为什么要以人为本?

再好的技术,再完美的规章,也无法取代人自身的素质和责任心

谈谈我对公有云故障的看法

从微盟36小时故障,谈谈数据安全和备份这个事

 

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!