蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系,包括故障体系、应急体系、故障全生命周期及AI助力等方面,为保障线上系统稳定提供了全面的解决方案。
1. 蚂蚁故障体系
– 故障定义与等级:故障指服务中断、品质下降或用户体验受影响的情况,不包括用户方环境或自身操作问题。故障等级衡量影响度,数字越小级别越高,涵盖客诉量、资损金额等,由业务等相关方定义并定期更新。
– 故障序列与GOC故障点:故障序列分类故障,技术主要责任且有实际影响的计入故障Quota。GOC场景定义明确关键服务等异常影响,用于驱动业务稳定性建设。
– 故障处理流程与技术风险管理平台:处理流程包括异常发现至事后跟踪,涉及多角色协同。TRM平台涵盖风险项管理、故障应急协同等多模块,实现全流程管理与功能支持。
– 故障数据运营机制:通过指标驱动和文化运营,如奖惩、培训等,保障故障管理制度执行,提升整体稳定性。
2. 蚂蚁应急体系
– 应急技术演进:经历多个阶段,从依赖专家到构建统一应急体系,实现智能应急能力建设,包括值班长体系、跨系统联动等。
– 应急角色与值班长机制:角色包括全站和部门值班长等,负责指挥、协同等工作。值班长机制通过选拔、激励培养应急人才,提升应急能力。
– 应急流程与快恢架构:流程涵盖风险预警至应急处置,涉及多环节和技术手段。快恢架构明确各阶段目标和能力,通过多种方式实现快速恢复,保障系统稳定。
– 应急分析与止血方式:分析应急效果,关注发现、定位和止血等环节,SRE负责复盘并提出改进Action。止血方式多样,涉及多平台操作,根据故障情况选择合适方式。
3. 线上故障全生命周期:包括GOC故障定义、指标度量、故障发生处理、信息收集、复盘、Action制定与改进措施实施,通过全流程管理提升系统稳定性和应急能力。
4. AI助力未来展望:SRE – Agent通过技术架构创新,提供故障应急辅助排查等功能,有页面、构建和使用演示,提升应急效率和知识沉淀,未来有望在故障应急中发挥更大作用。
以下为报告节选内容