故障复盘 – 复盘工具 5Why法

释放双眼,带上耳机,听听看~!

发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问,发现解决问题的线索,寻找发明思路,进行设计构思,从而搞出新的发明项目,这就叫做5W2H法。
(1)WHAT——是什么,目的是什么,做什么工作。
(2)WHY——为什么要做,可不可以不做,有没有替代方案。
(3)WHO——谁,由谁来做。
(4)WHEN——何时,什么时间做,什么时机最适宜。
(5)WHERE——何处,在哪里做。
(6)HOW ——怎么做,如何提高效率,如何实施,方法是什么。
(7)HOW MUCH——多少,做到什么程度,数量如何,质量水平如何,费用产出如何。

故障复盘 – 复盘工具 5Why法

案例1:订单系统故障

  • What(什么):电商平台订单系统在大促期间出现故障,无法正常接收和处理用户订单。
  • Why(为什么):由于系统访问量超出预期,数据库服务器不堪重负,引发了性能瓶颈。
  • Who(谁):涉及技术运维团队和产品经理,技术团队负责系统维护,产品经理负责需求预测和资源调度。
  • When(何时):故障发生在大促活动的第一天凌晨,高峰期流量涌入。
  • Where(哪里):问题发生在数据库服务器和订单处理模块。
  • How(怎样):系统通过硬抗的方式处理突发流量,但缺少弹性伸缩机制。
  • How to Improve(如何改进):增加数据库服务器容量和负载均衡机制,优化数据库查询性能,提前做好大促期间的系统容量评估和资源调度,确保系统具备弹性伸缩能力。

案例2:搜索功能失效

  • What(什么):电商平台的搜索功能在某一时间段内无法返回正确结果,导致用户无法正常查找商品。
  • Why(为什么):搜索引擎索引服务出现异常,未能及时更新商品信息。
  • Who(谁):涉及搜索服务运维团队和商品信息管理团队,运维团队负责搜索服务的稳定运行,商品团队负责信息更新。
  • When(何时):故障发生在周末晚上,恰逢新品上架的高峰期。
  • Where(哪里):问题出现在搜索服务的索引构建与更新流程。
  • How(怎样):搜索服务未对索引更新进行异步处理,导致索引更新时阻塞了整个搜索服务。
  • How to Improve(如何改进):优化商品信息更新流程,实现索引更新的异步处理,避免影响正常的搜索服务。同时,增加监控告警,当搜索服务出现异常时能及时通知相关人员处理。

案例3:用户账号被盗

  • What(什么):大量用户反馈账号被盗,密码被篡改,且账户余额和积分被恶意消费。
  • Why(为什么):平台的用户账号安全防护措施薄弱,黑客利用弱口令和社会工程学攻击盗取用户信息。
  • Who(谁):涉及网络安全团队和用户运营团队,网络安全团队负责平台安全防护,用户运营团队负责用户安全教育。
  • When(何时):问题在一周内集中爆发,疑为黑客团伙有组织的攻击。
  • Where(哪里):问题主要发生在用户注册和登录环节的安全认证措施。
  • How(怎样):平台目前仅采用基础的用户名/密码验证,缺乏二次身份验证和密码强度要求。
  • How to Improve(如何改进):加强用户账号安全防护,强制用户设置强密码,并引入手机验证码、邮箱验证或生物特征验证等多重身份验证机制。同时,加大对用户的安全教育力度,提醒用户不要使用简单密码,注意个人信息保密。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

安全运维之道:发现、解决问题的有效闭环

2024-4-14 20:59:36

安全运维

稳定性建设 – 架构优化的关键策略

2025-2-11 17:15:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索