-
混沌工程与SRE的结合(中国移动)
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混…- 2
- 0
-
盒马新零售运维保障解决方案
今天我带来的是“新零售运维保障解决方案”,内容包括三方面,新零售的现状以及它的挑战、运维保障体系以及未来的发展和方向。 1. 新零售的现状及运维挑战 大家有没有听过“盒区房”?现在新零售其中一个比较典型的业务就是盒马鲜生。 继我们曾经“学区房”的概念之后现在已经出现了“盒区房”的概念,即围绕着盒马鲜生 3 公里内的配送范围区域被称作“盒区房”。 现在像盒马鲜生这样的新零售模式越来越火,而早在 20…- 0
- 0
-
系统稳定性保障 – 学习了大厂混沌工程故障演练思路就更清晰
近几年大家对于生产服务的稳定性越来越重视,无论是在技术大会还是企业的技术规划中,混沌工程越来越多的被提及到。上周末看了2个大厂落地混沌工程的视频案例,让我对混沌工程有了一些新的理解。这篇文章总结了阿里和字节在落地混沌工程方面的一些技术实践,还有我的一些理解和思考。 一、为什么需要混沌工程? 其实落地混沌工程的原因很简单,业务和技术的复杂性提升带来的不可控风险和成本越来越高。这些复杂性主要体现在这几…- 0
- 0
-
系统稳定性保障 – 货拉拉微服务架构故障演练实践
文章目录 Toggle 一、背景二、体系全览三、工具体系故障演练平台架构故障演练能力全景控制爆炸半径演练自动化四、管理体系故障演练类型故障演练流程五、运营体系运营数据六、未来展望 一、背景 随着货拉拉微服务架构、容器化技术广泛使用,软件架构的复杂度在不断提升,由服务之间的依赖所带来的不确定性也呈指数级增长。在这样的依赖网中,任何一环出现非预期或者异常的变化,都可能对其他服务造成非常大的影响。因此,…- 1
- 0
-
故障治理 – 运行无间:阿里巴巴运维保障体系的一种最佳实践
阿里巴巴全球运行指挥中心,GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE,我们相当于阿里巴巴的SRE。 今天我的分享分为四个部分: 1、稳定性现状及挑战 2、运维…- 2
- 0
-
系统稳定性保障 – 云原生大潮下的混沌工程思考
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。 作者:智妍(郑妍)、浣碧(何颖) 文章目录 Toggle 什么是混沌工程,云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语 什么是混沌工程,云原生大潮下的混沌工程特点 通过使用云计算厂商如…- 1
- 0
-
经验教训 – 2021.07.13 B站宕机事故,我们是这样崩的
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 22:55 远程…- 1
- 0
-
可观测性(Observability) – 监控和可观测性区别
文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…- 1
- 0
-
监控中心 NOC 是什么 ?怎么来?
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。 它的名字有点儿高大上——Alibaba Global Operations Center,阿里巴巴全球运行指挥中心。 GOC从何而来? 要掰扯一下GOC的诞生历程,还得从“远古”的2012年说起。 在2012年及以前,阿…- 1
- 0
-
系统稳定性保障 – 1-3-5-10的应急响应中心专业治理宕机
背景 随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保系统100%的可用性,参考墨菲定律,会出错的事总会出错,故障在生产环境中不可避免。为了在故障发生时能够快速定界定位,采取有效措施止损,避免同根因故障重复发生,我们需要对故障全生命周期进行统一管理。 故障应急体系一般包括以下环节,故障预防、故障发现、故障定位、故障恢复、故障复盘及改进,其中故障预防阶段…- 1
- 0
-
经验教训 – B站崩,如何谋划稳定性保障SRE升级思路?比较全面优化思路
随着B站近几年的快速发展,业务规模越来越大,迭代速度越来越快,系统运行复杂度也越来越高。线上每天都会发生各种各样的故障,且发生的场景越来越刁钻。为了应对这种情况,保障业务在任何时刻都能将稳定性维持在一个高基线之上,B站专门成立了SRE体系团队,在提升业务稳定性领域进行了全方位、体系化的积极探索,从理论性支撑和能力化建设进行着手,从故障应急响应、事件运营、容灾演练、意识形态等多方面进行稳定性运营体系…- 3
- 0
-
故障复盘 – 复盘工具 时间线分析法复盘
时间线分析法是一种通过构建事件时间轴来回顾和分析过程的方法。复盘时,将关键事件、决策点、里程碑等标注在时间线上,直观呈现项目或活动的全过程。 文章目录 Toggle 案例1:大促活动期间服务器崩溃案例2:商品详情页加载缓慢案例3:订单配送延迟 案例1:大促活动期间服务器崩溃 时间线: 促销活动前两周,技术团队进行系统压力测试和优化。 活动前一天,服务器负载测试达标,系统上线。 活动开始后两小时,访…- 0
- 0
-
故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
故障时间:10月23日下午。 故障现象:语雀出现重大服务故障,持续 7 个多小时。 直接原因:数据存储运维团队在进行升级操作时,新的运维升级工具出现 bug。 具体细节:bug导致华东地区生产环境存储服务器被误下线,使语雀数据服务发生严重故障,造成大面积服务中断。 恢复过程: 因机器类别较老,无法直接操作上线,只能从备份系统中恢复存储数据。 数据恢复过程耗时较长,直到晚上 22 点,语雀的全部服务…- 2
- 0
-
故障复盘 – 复盘工具 Fishbone Diagram(鱼骨图法/因果分析图)
鱼骨图分析法,也称为因果图或Ishikawa图,是一种结构化的问题分析方法,用于识别问题的根本原因。它广泛应用于质量管理和其他领域,特别是在发现和解决问题的根本原因方面非常有效。鱼骨图通常包括以下几个方面:人(人员)、机(设备)、料(材料)、法(方法)、环(环境)。这些要素可以进一步细分为更小的部分,以揭示问题背后的复杂性。鱼骨图的绘制过程包括以下几个步骤:确定问题:选择要分析的问题,将其写…- 2
- 0
-
SRE实战手册 – 技能宝典
先聊一聊SRE的工作职责,聊一下我所理解的SRE的核心目标;初步看一下稳定性建设的工作范畴,看一看从宏观上如何划分我们的工作内容;然后我们由此进入今天的主题:故障管理,我将按照我的理解对故障管理进行拆解和分析;再后面,围绕故障管理,我们深入聊一下SRE的体系建设,如何通过体系建设来更好地做故障管理;最后我们再简单做下对未来的展望,共同畅想一下SRE工作的未来。 文章目录 Toggle 一、SRE的…- 2
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 1
- 0
-
故障复盘 – 哈啰出行高质量故障复盘法
一、故障和复盘真的都是坏事吗?提到复盘,大多数人第一时间想到的是线上出了故障,这下又要有人背锅了;或者是为那个可怜的兄弟暗暗担心;也或者是因为跟自己无关,所以松了一口气。那么故障和复盘真的都是坏事吗?我们该如何理解它呢?我从以下三点讲一下我对故障和复盘的理解。 1.1 正视故障发生的必然性 – 有好也有坏在聊复盘之前,先聊下我对线上故障的看法,…- 0
- 0
-
故障治理 – 全年配送0故障,盒马揭秘智能调度12个关键技术提高稳定性
文章目录 Toggle 一 、稳定大于一切二、智能调度链路分析三、稳定性因素分析和实践1、DB依赖2、HSF依赖3、HSF服务提供4、tair依赖5、Metaq依赖6、精卫依赖7、DTS依赖8、开关9、监控10、灰度11、测试12、应急响应四、总结 一 、稳定大于一切 盒马的线下作业稳定性要求极高,假如门店pos无法付款了,排起的支付长队伍能让人把门店闹翻,假如配送员无法揽收了,在家里预定的午餐材…- 1
- 0
-
故障治理 – 稳定性保障6步走:高可用系统大促作战指南!
一、前言 年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。 跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做? 除了口口相传的历史经验,我们还能做些什么?又有什么理论依据? 二、怎样的系统算是稳定? 首先回答另一个问题,怎样的系统算是稳定的? Google SRE中(SR…- 3
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 1
- 0
-
IT运维最佳实践 – 一线游戏运维心得(同行经验)
自2015年开始从事游戏行业一线运维工作,至今(2022)已经近7年。 网易游戏:2015.04 ~ 2021.04灵犀互娱:2021.04 至今 文章目录 Toggle 背景1、运维人员的定位运维叫什么?PE?SRE?什么是SRE?什么是可用率?可用率到底要达到几个9?不同人眼中的运维项目组对运维的核心诉求技术要专,还是广?运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地?忙不过…- 1
- 0
-
新型冠状病毒肺炎防控方案第七版发布 对流行病学特征、疫情处置等进行了修订
新华社北京9月15日电(记者王秉阳)国家卫健委15日在官网发布了《新型冠状病毒肺炎防控方案(第七版)》,对新冠肺炎病原学和流行病学特征、疫情监测、疫情处置等内容进行了修订。 病原学和流行病学特征方面,第七版防控方案强调主要传播途径仍为经呼吸道飞沫和密切接触传播,但是特定条件下接触病毒污染的物品和暴露于病毒污染的环境可造成接触传播或气溶胶传播。 疫情监测方面,方案提到完善聚集性疫情定义,…- 71
- 0
-
北斗正式开通!安全感直接上涨!
北斗正式开通!外交部:北斗已覆盖二百多个国家地区,服务中国更服务世界 7月31日,外交部发言人汪文斌主持例行记者会。 有记者问:今天上午,中国北斗三号全球卫星导航系统正式开通,有媒体认为这是北京增强对海外高科技影响力行动的部分,你对此怎么看? 汪文斌表示:今天是一个让中国人民深感骄傲和振奋的日子。习近平主席今天上午出席了北斗三号全球卫星导航系统的建成暨开通仪式,宣布这一中方自主建设、独立运行的全球…- 164
- 0
-
fastjson 发布关于“反序列化远程代码执行漏洞”的安全公告
文章转载开源中国 昨天我们报导了 fastjson 补曝出存在高危远程代码执行漏洞,今天 fastjson 官方发布了安全公告: https://github.com/alibaba/fastjson/wiki/security_update_20200601 以下为完整公告引用: 安全公告20200601 近日,阿里云应急响应中心监测到fastjson爆发新的反序列化远程代码执行漏洞,黑客利用漏…- 86
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!