2015.5·27支付宝大规模宕机事故反思学习

释放双眼,带上耳机,听听看~!

事故背景
支付宝拥有超过4万亿年交易总额,是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。
2014年年11月,就有用户反映,支付宝钱包目前无法转账和提现,当用户使用这两项功能时会提示出现未知错误或创建交易失败,该问题在移动客户端以及电脑网页端均存在。

2015.5·27支付宝大规模宕机事故反思学习

事故经过
2015年5月27日下午4点半左右,陆续有多个地区网友反映,支付宝出现网络故障,账号无法登录或转账。打开余额宝后,不能显示余额,只能显示网络无法链接。
2015年5月27日下午5点,拥有将近3亿活跃用户的支付宝出现了大面积访问故障,全国多省市支付宝用户出现手机和电脑支付宝无法登陆、余额错误等问题。故障发生后,用户普遍担心账户资金安全问题,亦有用户反应出现账户余额不同步的现象。
2015年5月27日下午6点半左右,支付宝钱包进入界面之后,显示“网络繁忙,请稍后再试”的字样。
2015年5月27日20时10分,支付宝全面恢复正常。
事故原因
蚂蚁金服表示,出现这一问题的原因在于市政施工导致杭州市某地光缆被挖断,影响了支付宝一个主要机房的正常运转。
对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。
中国电信技术人士认为,出现这种问题的可能性是,支付宝多个数据中心之间的自动流量切换机制出现问题,只能人工介入。还可能是其他三种原因:一是很有可能是支付宝遭到了攻击;二是支付宝的路由配置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也出现过这个问题。号称最先进最安全的阿里云系统对自家业务并没支撑好。
某大型国企网络运维人员表示,从技术角度看,支付宝此次事故可能是内部应用模块出了问题,未经严格验证的应用被统一升级后,被意外触发到未知状态,导致出现此类问题。
事故处理
支付宝官方第一时间回应称,这是因光纤被挖断导致大规模故障。
支付宝的官方微博表示:“由于杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商蜀黍正在抢修。支付宝攻城狮正在紧急将用户请求切换至其他机房,受影响的用户正在逐步恢复。您的资金安全并不会因此受到任何影响。如果出现交易信息不同步的情况,在修复后会恢复同步。请大家放心。”
2015年5月28日凌晨,支付宝官方发布声明,对支付宝因光纤被挖断而断网事件道歉。支付宝表示,光缆被挖断可能并不能完全杜绝,但对于支付宝而言,会继续推进技术的升级改造,继续完善异地多活的系统架构。未来,即使再次出现光缆被挖断等意外情况,进行异地切换时,也尽量做到让用户最小感知甚至无感知。 [3]
事故影响
由于支付宝的在金融领域的系统重要性程度,以及其独特的基于云计算的IT技术架构,此次故障受到各方关注。
支付宝底层的基础云平台技术,不仅支撑着支付宝,也是浙江网商银行的基础,未来还计划输出给其他金融机构。因此,系统的安全保障能力更需高标准、严要求。
对于此次事故带来的具体损失额度,蚂蚁金服表示,暂时无法统计。
各方评价
质疑焦点有二:一是恢复时间竟然长达两个小时;二是究竟是出于资金安全考虑而主动放缓速度还是支付宝应急预案出现漏洞。
一位资深的业内专家表示,此次故障事件,给了支付宝反思,但新兴事物就是在这种经验的积累中不断成长,公众和媒体对此也应有一定的宽容度。这就像跳水,起跳不错,空中动作也还行,但入水压水花不够好,未来还有改进空间。

互联网不及挖掘机?
“再牛的互联网公司,也干不过挖掘机。”虽然只是一句玩笑话,却形象地道出了互联网公司 的“七寸”,而这仅仅是从移动支付应用的硬件基础上来说。移动支付的安全既包括网络硬件设备的安全稳定,也包括对软件漏洞的防护、应用场景的使用流程等。安全需要产业链联手共筑防线。

数据架构存在问题?
卡巴斯基相关负责人:
支付宝事件按官方的说法是光纤被挖断,是一个意外,但对这种关键性应用需要几个小时才能恢复,说明支付宝方面的数据中心架构存在问题,一个真正的“异地双活”架构只会让很少的用户受到影响,而且整个业务恢复的时间一般按分钟计算,不会以小时计算。”

随着这几年互联网、移动互联网的发展,我们每个人都实实在在的感受到了方便快捷的互联网的服务,但是这两天的事情告诉我们,在方便背后是黑色危机。
一、离不开的互联网生活
5月27日,一些收入入账,信用卡还款的日子,查看下支付宝的账单,看看水、煤、电缴费,看看信用卡还款情况,看看理财账户的收益,支付宝都是方便快捷的方式。
而在数千里之外的一次施工,就可以让一切中断。你的隐私暂且不说,支付宝余额、余额宝的理财都是真金白银。网络出点问题也好,阿里的服务器有点麻烦也罢,你的钱就会成为一笔糊涂账,这是很可怕的。
同样,现在很多人都依靠携程预订行程。尤其在携程投资易到用车以后,出行从订机票、出发车辆送机场,到落地对方城市车辆接到酒店,再到酒店住宿,返程机票,车辆接送,几乎走了一条龙的服务。
因为携程可以提供全程各种消费的打包发票,很多商旅出行都喜欢使用携程的服务来解决。然而携程出现问题,很多预订了行程的客人就会出现各种问题,因为网络或者服务器的问题,机票没出,车辆没订,酒店没订,或者时间拖延,出行者就会遇到大麻烦。
我们的生活已经与互联网,移动互联网紧紧联系在了一起,互联网就像空气一样必不可少。具有行业主导地位的互联网公司对于个人的重要性不亚于银行、电信这些关系到国计民生的国企。他们出点问题,就会是社会性的大问题。
二、被忽视的社会责任
其实,银行与互联网公司有点像,同样是信息化服务,同样关系到社会每一个人的重要信息。但是银行是有内部网络的。
通常金融机构都使用电信提供的专线服务,而且有足够的备份线路,与大家所使用的互联网互相隔绝。银行的业务网络也不与互联网联通。
在数据备份方面,金融机构有严格的制度,有应对各种灾难的异地备份预案,对于安全有非常高的警惕性。
而互联网企业没有国企的强势地位,它的平台是建立在电信运营商提供的商业网络上,接入互联网,更多的考虑商业运营。
当一个企业大到一定程度的时候,实际这个企业已经不仅仅代表股东或者与员工的利益了,而是代表全社会的利益,它的安全问题也就成为了全社会的问题。而社会并没有帮助这些企业承担起社会责任。
我们知道,航空公司是有严格的行业标准的,因为飞机出点问题就是百十人的性命问题。虽然航空公司商业运营,但是有各种机构对其进行管理监督检查,保证航空公司能够承担起他的社会责任。
而互联网企业发展到现在,实际上也承担了沉重的社会责任,如果阿里出问题,全体阿里顾客的个人账户成为一笔糊涂账,所引发的后果,不是阿里公司或者马云所能承担的,这就需要政府、行业帮助阿里这类企业建立足够强大的风险防范和灾难应对体系,保护全社会的利益。
没有这种体制,互联网行业中的所有人就都处于黑色的危机之中,也许现在看起来一切都很正常很方便,但是一旦出现问题,整个社会都会付出代价。
三、有备才能无患
其实,国家对银行、证券、保险等金融部门的信息安全工作早就有指导。2007年,保密局、国家密码管理局、国务院信息化办公室对信息安全等级做了明确规定,规定了测评,监督的办法,要求对各种风险分级并做出预案。
这次携程的事情,传言很多,有的说是外来攻击,有的说是离职员工报复,但是无论哪一种,携程都没有针对攻击做好预案,即时切换备份。
如果是离职员工报复,那么说明携程的内部管理,权限划分是有严重问题的。单个员工掌握的权限不应该造成重大损失,更别说是离职员工了。
阿里的事情简单一些,就是外来线路被挖断,而这种灾难级别是很轻微的。这种风险都没有即时反应,如果遇到汶川这种灾难性事件,全国人民的支付宝恐怕就是一笔糊涂账了。
其实,涉及到实体经济,有一定地位的互联网公司,其信息安全应该参照金融企业管理,由国家机构直接干预,这样才能避免潜在的重大危机。
作为个人消费者,应该对互联网时代的信息安全危机有所警觉,不要把鸡蛋放到一个篮子里面,多准备一些途径,互联网途径暂时中断,有其他途径可用,这也算是一种个人的应急预案。

2015.5·27支付宝大规模宕机事故反思学习

不是第一次发作,其在几年前出现的营运事故再次被挖出。不管是支付宝前车之鉴,还是携程网之前的事故,都鲜明地指向了一个极为现实的问题,“互联网+安全”是时代基石

给TA打赏
共{{data.count}}人
人已打赏
安全运维

安全运维之道:发现、解决问题的有效闭环

2024-4-14 20:59:36

安全运维

稳定性建设 – 架构优化的关键策略

2025-2-11 17:15:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索