其实现在的计算机系统是一个极其复杂,而且依赖很多的分布式系统,出现事故是在所难免的,关键是如何对待事故。是把它视为人为错误(Human Error)导致,找到那个事故负责人,然后对他进行处罚,希望达到不再犯错的目的,还是接受事故是不可避免的事实,进而从各种系统架构设计上/流程设计和执行上进行容错性处理,把每次事故当作一次学习和改进的机会。这是一个传统IT公司和高绩效公司的关键区别之一,看看以下案例详细的复盘过程:
故障复盘 – 遇到P0级别故障如何做故障复盘?
释放双眼,带上耳机,听听看~!