一. 故障等级的定义
可以参照互联网网络故障标准来定义,一般公司故障定级是分四级,比如:P1是最严重的故障,P4是最轻微的故障。
P1:服务或功能一段时间或者长时间不可用,造成公司资产损失,或者严重影响用户正常使用。
P2:服务或功能一段时间不可用,影响外部用户正常使用,并造成一定影响。
P3:服务或功能一段时间不可用,影响内部正常运营工作,外部用户无感知,或者影响轻微。
P4:短暂停服,内外用户都无明显感知,影响轻微。
高可用SLA说明:
二. 为什么会故障?故障导致的三大类原因:
1.变更(修改配置出问题,程序发布有BUG,重启应用);
2.用户行为(客户大促销,用户异常出发BUG,黑客攻击);
3.设备硬件故障(磁盘故障,网络线路故障,机房故障,自然灾害地震);
三. 怎么做避免故障?
1.故障前
操作规范,安全检测,监控,数据备份,故障回滚方案,架构高可用方案,故障切换方案,故障自愈方案;
2.故障中
(1)评估故障,是否执行回滚,是否执行切换方案等;
(2)重要操作三思而行;
(3)不要疲劳驾驶,喝酒不上机,上机不喝酒;
3.故障后
(1)检查是否全部业务都恢复正常;
(2)分析日志;
(3)复盘分析;
(4)总结方法避免类似故障;
如果大家还有其他好的建议和想法,欢迎留言!
欢迎加入运维交流QQ群:7652650(快捷运维)