你知道吗,由于软件故障(bug),美国经济每年在浪费生产力、返工和实际毁坏上损失了数十亿美元。本文列举了一些由软件 Bug 引发重大事故,其结果是大量金钱损失,甚至人员死亡。
1. 爱国者导弹
1991 年 2 月第一次海湾战争期间,部署在沙特宰赫兰的美国爱国者导弹系统未能成功追踪和拦截来袭的伊拉克飞毛腿导弹。结果飞毛腿导弹击中美国军营。
损失:28 名士兵死亡,100 多人受伤
故障原因:时间计算不精确以及计算机算术错误导致了系统故障。雷达在空中发现了导弹,但由于时钟误差没能精确跟踪,反导导弹因而没有发射拦截。
从技术角度来讲,这是一个小的截断误差。负责防卫该基地的爱国者反导弹系统每工作一个小时,系统内的时钟会有一个微小的毫秒级延迟,这就是这个失效悲剧的根源。在工作了100小时后,系统时间的延迟是三分之一秒。飞毛腿导弹空速达4.2马赫(每秒1.5公里),这个”微不足道的”0.33秒相当于大约 600 米的误差。
2. 癌症治疗与致死性放射治疗
1985 年到 1987 年期间,Therac-25 医疗放射治疗装置让成百上千的患者暴露在大量过量的辐射之中,少数患者接受了高达预期 100 倍的放射剂量。2000 年,巴拿马城也发生了同样的辐射剂量误差。
损失:10 余人死亡,20 人重伤
故障原因:基于输入数据的顺序,治疗计划软件计算出并提供双倍剂量的辐射。
3. 千禧危机
千年虫(千年问题)是计算机系统的编码问题,在从 1999年 12 月 31 号过渡到 2000 年 1 月 1 号时,这个错误将在计算机网络和软件中引发一场浩劫。
损失:5000 亿美元
故障原因:为了节省计算机存储空间,大多数传统软件使用两位数字来存储日期中的年份,例如,用“97”来代表 1997 年。这导致了 2000 年 1 月之后日期相关程序的错误操作。
4. 1987 年的华尔街崩盘
1987 年 10 月 19 日(也被称为黑色星期一),道琼斯工业平均指数(DJIA)下跌了 508 个点,损失了总价值的 22.61%,且标准普尔 500 指数下跌了 20.4%。这是华尔街一天之内见过的最大损失。
损失:一天 5000 亿美元
故障原因:问题出在交易程序和估价程序。在交易程序中,计算机基于外部输入执行快速股票交易,如相关证券的价格。该交易程序理应实施投资组合保险策略,并试图从事套利。
1987 年初,美国证券交易委员会针对内幕交易开始了一系列的调查。直到 10 月,投资者决定搬出华尔街。随着人们开始大规模外流,计算机交易程序出现了大量的销售订单至 DOT(订单转送及成交回报系统),于是系统超出负载、市场崩溃以及所有的投资者懵逼了。
5. 奔腾的长除法
1994 年,英特尔的奔腾微处理器芯片的浮点计算单元出现了一个 Bug。对于精确计算,处理器将返回不正确的十进制值。当时有大概 500 万个缺陷芯片在流通,英特尔最终决定为所有投诉的人更换芯片。
损失:4.75 亿美元 + 品牌名誉受损
故障原因:在奔腾浮点单元的分频器中有一个有缺陷的除法表,在约一千个条目中丢失了五条纪录。然而,这个错误在 90 亿随机浮点小数的除法中仅可能出现一次。例如,将 4195835.0 除以 3145727.0 得出 1.333739068902037589,而不是 1.333820449136241002,有 0.006% 的误差。
6. 阿丽亚娜 5 型运载火箭
1996 年,阿丽亚娜 5 型运载火箭首次飞行,搭载发射星群航天器,然而由于运载火箭无法到达指定轨道,任务以失败告终。
损失:3.7 亿美元
故障原因:阿丽亚娜5型运载火箭基于前一代4型火箭开发,在4型火箭系统中,对一个水平速率的测量值使用了16位的变量及内存,反复验证过,这一值不会超过16位的变量,而5型火箭的开发人员简单复制了这部分程序,而没有对新火箭进行数值的验证,结果发生了致命的数值溢出。飞行器在发射后 37 秒便从原始路径偏移,最终不得不启动了火箭自毁程序。
7. IRS:缺少欺诈检测系统
2006 年,美国国内税收系统(IRS)缺少自动还款欺诈检测系统,无法监测返还申报资金时的潜在欺诈案件。
损失:3 亿美元
故障原因:在 2005 年 1 月,计算机科学公司本应交付电子欺诈系统(EFDS)。然而在 2004 年 10 月,IRS 担心他们的 2100 万个系统将无法按时准备好,决定在 2005 年的归档阶段使用旧系统。
8. 哈特福德体育馆倒塌
1978 年 1 月 18 日,(美国康涅狄格州的)哈特福德市中心体育馆在近 5000 名观众离开后的几个小时内轰然倒塌。其钢网壳组成的屋顶在雪的重压下崩塌。
损失:7000 万美元 + 当地经济的 2000 万美元损失
故障原因:CAD 程序员假设屋顶支撑结构仅需要面临纯压缩,从而做出错误的设计。此外,计算机模型假设所有的顶部弦杆进行了横向支撑,但实际上只有内部框架符合标准。固定荷载被低估了超过 20%。当顶部其中一个支架被大雪意外压弯时,便引发了屋顶其他部分的连锁反应。
9. Mydoom 病毒(2004年)
Mydoom 是一种计算机病毒,于 2004 年 1 月 26 日首次出现。当时每十二封电子邮件中就有一封携带这种病毒。病毒出现第二天,SCO 组织悬赏 25 万美元,以奖励提供病毒作者信息的人。
损失:380 亿美元
故障原因:该病毒能够在操作系统中创建一个后门,让未经授权的用户访问您的个人数据。它可以欺骗邮件,使其源头很难被跟踪。
10. 水手一号探测器(1962年)
1962年,发射往金星的水手一号探测器在发射 293 秒后偏离了预定轨道。它的任务在 5 个星期后由成功发射的水手二号完成。
损失:1900 万美元
故障原因:两个故障:探测器制导天线的硬件故障,还有板载制导系统的软件故障。
一个程序员将某个公式转换成了计算机代码转错了,漏了一个下标。这个下标原本是半径 R 的第 N 次平滑时间导数值。由于缺少数据光滑化处理功能,制导系统把正常速度当成错误处理,并造成了修正不精确,最终探测器偏离航向的。
11. 英国护照系统(1999年)
英国护照办事处启用了一种新的计算机系统,而这种新系统无法及时向超过 50 万公民发放护照。后来办事处赔偿了数百万,员工也加班为在雨中排队等候护照的人们提供雨伞。
损失:1400 万美元
故障原因:与新系统同时发布的新法律要求所有 16 岁以下的儿童在出国旅行时都要拥有一个护照密码。这就导致了护照需求瞬间激增,从而致使新软件系统负载过重。
12. 被假释的罪犯
2011 年,由于计算机程序代码中的一个小错误,约有 450 名暴力罪犯从加利福尼亚州监狱被释放。
13. 一触即发的第三次世界大战
1983 年 9 月 26 日,苏联的核早期预警系统报告了来自美国发射的导弹。苏联的系统错误地接收到太阳光的反射并将其解读为导弹发射。
后来,导弹袭击警告被一名苏联防空部队的军官认定为假警报。这一决定阻止了一场核战争以及数以百万计人们的潜在死亡。
14. 黑暗降临(大面积停电事故)
2003 年,黑暗在美国的八个州蔓延开来,影响了 5000 万人。该问题的源头是一个竞争条件,这是一个单一操作中的两个独立线程使用同一个代码中元素的结果。
15. 洛杉矶国际机场的航班停飞
2007 年,美国边境和海关控制网络发送了大量错误数据。这导致洛杉矶整个机场关闭了 8 个小时,在问题解决之前,超过 17000 架飞机不能起飞。
16. Bug 葬送了日本 18 亿元的最新卫星
2016年2月17日,被日本寄予厚望的 X 射线天文卫星“瞳”成功发射升空,但仅仅一个月后,“瞳”与地面的通信出现严重故障,经地面光学望远镜测控发现其运行轨迹出现多块太空碎片。4月28日,日本宇宙航空研究开发机构(JAXA)正式宣布,无法恢复对X射线卫星“瞳”的操控。卫星的控制系统在发现飞行姿态失控时,采取了错误的调整,推进器点火时朝向了错误的反方向,导致自身旋转更加严重,最终彻底失控。事故原因经初步调查源自底层软件错误。