告警服务治理 – 简单有效经验分享

释放双眼,带上耳机,听听看~!

Facebook 深入探讨的问题是:“人类应当留意哪些 IT 告警?”

告警服务治理 –  简单有效经验分享

Facebook 的产品工程师 Brian Smith 首先向我们介绍了 Facebook 用来确定 IT 事件应否入人类法眼(这一过程被称为 SAR,即信号、可行动性和关联性)的准则的初步定义。

  • 信号 — 这是误报吗?一定是信号不足!
  • 可行动性 — 收到这一告警时,能立即采取措施吗?
  • 关联性 — 收到这一告警时,有其他告警传达相同内容或重叠吗?如果是,请删除其中一个告警。

Smith 表示,使用 SAR 方法并在每个栈区只持续关注一个告警,就能提高可行动性和关联性。他解释道,Facebook 利用这一方法消除了 97% 的告警,从而减少了每天收到的噪音,也提高了总体运营效率。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

安全运维之道:发现、解决问题的有效闭环

2024-4-14 20:59:36

安全运维

稳定性建设 – 架构优化的关键策略

2025-2-11 17:15:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索