经验教训 – 2018.06.27 阿里云回应访问故障:运维操作失误导致 将敬畏每一行代码

释放双眼,带上耳机,听听看~!

  阿里云再次对6月27日下午发生的技术问题进行了回应和解释,称“运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能时出现问题,引发大量吐槽”。阿里云表示,“对于故障,没有借口。”

  6月27日下午,有网友反映,登陆阿里云控制台时出现异常,部分服务无法正常使用。随后阿里云在官网发布公告称,阿里云的部分产品及账号登陆出现访问异常,截至当天下午17:30大部分受影响的业务已经恢复正常。

  阿里云在最新的说明中介绍,故障发生在6月27日16:21左右至16:50,受影响的范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。

  经过技术复盘,故障发生的原因是,当天下午工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中未发生问题,上线到自动化运维系统后,触发了一个未知代码Bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。

  阿里云称,将认真复盘改进自动化运维技术和发布验证流程,“敬畏每一行代码”。

原因:故障原因称是工程师团队在上线一个自动化运维新功能,执行了一项变更验证操作,触发了未知代码的BUG,导致部分产品访问失效。
影响: 受影响的阿里云产品有阿里云官方控制台,MQ、NAS、OSS等产品功能。

经验教训:我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付

经验教训 – 2018.06.27 阿里云回应访问故障:运维操作失误导致 将敬畏每一行代码

“上云”常态化,事故痛点并不能为客户买单

在企业上云的热潮之下,此类事件时有发生。

近年来,云计算产业蓬勃发展,企业上云已成常态。而据美国市场研究机构Synergy Research Group的数据显示,2018年第一季度,阿里巴巴超越IBM成为全球第四大云基础设施及相关服务的提供商。

客观讲,云计算平台并不能做到绝对安全,尤其是这些大企业,一旦发生故障,影响的更是大批客户。从国外亚马逊、谷歌、微软、Salesforce等厂商时不时曝出的一系列宕机、云服务中断事件来看,每次事故的后果都比较严重。除此之外,云运维也是一项复杂的系统工程,需要选择一套好的运维工具来助力云运维更加高效轻松。

目前国内的公有云市场尚在启动阶段,随着更多云服务厂商的入局,云计算市场竞争将更加激烈,与此同时,企业上云步伐也在不断加快,对今天的云计算服务商提出了更高的要求。云服务厂商们需更多做好自身服务,从平台安全、稳定、服务和技术支持等方面为客户做好服务支持,赢得客户信赖。

另外,国内外已诞生了“云保险”业务,早在2013年6月,美国保险公司Liberty Mutual就开始对外提供云计算保险服务。国内方面,2016年9月,云保险2.0版本已发布。今年年初,山东省经信委、财政厅、保监局联合印发了《关于支持首版次高端软件加快推进软件产业创新发展的指导意见》(以下简称《意见》),标志着国内首个云服务保险财政补贴试点工作已正式开启。

在云安全风险方面,目前阿里云给出的政策是100倍故障赔偿。针对这一政策,不少网友在官微下面起哄。评论区里,AWS、亚马逊、中国电信、华为云、腾讯云等的广告也来了一波儿。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

安全运维之道:发现、解决问题的有效闭环

2024-4-14 20:59:36

安全运维

稳定性建设 – 架构优化的关键策略

2025-2-11 17:15:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索