0°

业务安全-故障的定义和避免

一. 故障等级的定义

可以参照互联网网络故障标准来定义,一般公司故障定级是分四级,比如:P1是最严重的故障,P4是最轻微的故障。

P1:服务或功能一段时间或者长时间不可用,造成公司资产损失,或者严重影响用户正常使用。

P2:服务或功能一段时间不可用,影响外部用户正常使用,并造成一定影响。

P3:服务或功能一段时间不可用,影响内部正常运营工作,外部用户无感知,或者影响轻微。

P4:短暂停服,内外用户都无明显感知,影响轻微。

高可用SLA说明:

二. 为什么会故障?故障导致的三大类原因:

1.变更(修改配置出问题,程序发布有BUG,重启应用);

2.用户行为(客户大促销,用户异常出发BUG,黑客攻击);

3.设备硬件故障(磁盘故障,网络线路故障,机房故障,自然灾害地震);

三. 怎么做避免故障?

1.故障前

操作规范,安全检测,监控,数据备份,故障回滚方案,架构高可用方案,故障切换方案,故障自愈方案;

2.故障中

(1)评估故障,是否执行回滚,是否执行切换方案等;

(2)重要操作三思而行;

(3)不要疲劳驾驶,喝酒不上机,上机不喝酒;

3.故障后

(1)检查是否全部业务都恢复正常;

(2)分析日志;

(3)复盘分析;

(4)总结方法避免类似故障;

 

如果大家还有其他好的建议和想法,欢迎留言!

欢迎加入运维交流QQ群:7652650(快捷运维)

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!