稳定性保障 – 故障应急体系构建及应用实践(1)

释放双眼,带上耳机,听听看~!

蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系,包括故障体系、应急体系、故障全生命周期及AI助力等方面,为保障线上系统稳定提供了全面的解决方案。

1. 蚂蚁故障体系

– 故障定义与等级:故障指服务中断、品质下降或用户体验受影响的情况,不包括用户方环境或自身操作问题。故障等级衡量影响度,数字越小级别越高,涵盖客诉量、资损金额等,由业务等相关方定义并定期更新。

– 故障序列与GOC故障点:故障序列分类故障,技术主要责任且有实际影响的计入故障Quota。GOC场景定义明确关键服务等异常影响,用于驱动业务稳定性建设。

– 故障处理流程与技术风险管理平台:处理流程包括异常发现至事后跟踪,涉及多角色协同。TRM平台涵盖风险项管理、故障应急协同等多模块,实现全流程管理与功能支持。

– 故障数据运营机制:通过指标驱动和文化运营,如奖惩、培训等,保障故障管理制度执行,提升整体稳定性。

2. 蚂蚁应急体系

– 应急技术演进:经历多个阶段,从依赖专家到构建统一应急体系,实现智能应急能力建设,包括值班长体系、跨系统联动等。

– 应急角色与值班长机制:角色包括全站和部门值班长等,负责指挥、协同等工作。值班长机制通过选拔、激励培养应急人才,提升应急能力。

– 应急流程与快恢架构:流程涵盖风险预警至应急处置,涉及多环节和技术手段。快恢架构明确各阶段目标和能力,通过多种方式实现快速恢复,保障系统稳定。

– 应急分析与止血方式:分析应急效果,关注发现、定位和止血等环节,SRE负责复盘并提出改进Action。止血方式多样,涉及多平台操作,根据故障情况选择合适方式。

3. 线上故障全生命周期:包括GOC故障定义、指标度量、故障发生处理、信息收集、复盘、Action制定与改进措施实施,通过全流程管理提升系统稳定性和应急能力。

4. AI助力未来展望:SRE – Agent通过技术架构创新,提供故障应急辅助排查等功能,有页面、构建和使用演示,提升应急效率和知识沉淀,未来有望在故障应急中发挥更大作用。

以下为报告节选内容

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

稳定性保障 – 故障应急体系构建及应用实践(1)

给TA打赏
共{{data.count}}人
人已打赏
安全运维

安全运维之道:发现、解决问题的有效闭环

2024-4-14 20:59:36

安全运维

稳定性建设 – 架构优化的关键策略

2025-2-11 17:15:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索