故障复盘的简洁框架-黄金三问

安全运维
21年9月30日
编辑

aqzt

释放双眼，带上耳机，听听看~！

故障复盘的简洁框架-黄金三问

编者荐语：

故障复盘的简洁框架-黄金三问，非常简洁，在此分享下。《谷歌SRE运维解密》书中说到“100%的可用性是不现实的，需要达到这个目标的成本通常远超于所能获得的价值。”如何快速故障复盘，希望可以帮助到大家。

文章来源于成哥的世界，作者Cheng哥

最近跟团队在做很多历史故障的复盘，看怎么才能够挖掘出更深层次的一些问题。

做的第一件事情，就是整理复盘框架，这个框架就是我提出的黄金三问（Three Golden Questions）。

非常简洁，这次借着实操，打算更深入的分享下。先分享框架，再分享内在的细分环节。

故障的根因是什么？
- 触发原因
- 根本原因（可以多个如技术层面+流程管控层面）
怎么做，后面才能完全避免同样的故障？
- 生产环境上是否有同样的问题，应该立即执行的巡检和规避措施什么？
- 产品技术层面要做什么改进？
- 架构设计要做什么改进？
- 如涉及产品功能，测试层面需要做什么改进？
- 管理/流程/机制上要做什么？（如高压线、质量保障措施、发布变更流程）
怎么做，下次遇到类似问题，可以更快的恢复业务？
- 应急流程/机制需要如何改进，可以帮助更快的判断和决策？（如信息同步、故障等级定义）
- 监控指标和告警机制是否可以完善，可以更快的发现？
- 技术层面要有什么快速恢复的手段？（限流、降级、隔离、切换等）

One more thing，我们还可以做些什么？

发现之前也分享了一些关于故障的随想，也把链接放在下面一并分享下：

《故障管理中的涅槃重生》

《故障处理为什么要以人为本？》

《再好的技术，再完美的规章，也无法取代人自身的素质和责任心》

《谈谈我对公有云故障的看法》

《从微盟36小时故障，谈谈数据安全和备份这个事》

给TA打赏

共{{data.count}}人

人已打赏

安全故障故障复盘的简洁框架黄金三问

2个docker容器镜像清理Shell脚本

2021-9-29 20:14:49

DevOps基础-1.2-DevOps的CAMS价值体系

2021-10-12 11:36:11

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部