-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 48
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 8
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 29
- 0
-
IT服务治理 – 阿里为什么能抗住90秒100亿?负载均衡架构实践
本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。 基本概念 在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个最基础的概念进行介绍。 1)什么是分布式? 系统中的多个模块在不同服务器上部署,即可称为分布式系统,如Tomcat和数据库分别部…- 2
- 0
-
实践案例 – 告警定级为告警治理核心,告警智能定级原理探索
很多大规模复杂在线服务系统,比如 Google、Amazon、Microsoft 和大型商业银行,包含数以千计的分布式组件,并同时支持大量用户使用。为了保障高质量服务和良好的用户体验,这些公司引入监控系统,智能收集服务组件的监控数据,比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据,确保在服务异常时产生告警。这也带来一个问题,大型服务系统通常会不间断地被捕捉到大量告…- 2
- 0
-
经验教训 – B站崩,如何谋划稳定性保障SRE升级思路?比较全面优化思路
随着B站近几年的快速发展,业务规模越来越大,迭代速度越来越快,系统运行复杂度也越来越高。线上每天都会发生各种各样的故障,且发生的场景越来越刁钻。为了应对这种情况,保障业务在任何时刻都能将稳定性维持在一个高基线之上,B站专门成立了SRE体系团队,在提升业务稳定性领域进行了全方位、体系化的积极探索,从理论性支撑和能力化建设进行着手,从故障应急响应、事件运营、容灾演练、意识形态等多方面进行稳定性运营体系…- 6
- 0
-
2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿近1亿)。24号收到了来自阿里云的一则赔偿短信(详见下文),赔偿对象为视频点播服务。 然而,尽管阿里云已经开始采取补偿行动,对于受到影响的用户而言,恢复信心可能需要更多时间。故障事件引起的不便和对服务可靠性的担忧,可能需要云服务商通过更强有力的行动和更有效的沟通,来重新赢得用户的信任和支持。 故障赔…- 11
- 0
-
故障复盘 – 故障复盘哪三大关键问题?
这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障复盘的三大关键问题: 怎么有效降低故障的影响? 事故处理的流程和原则有哪些? 相关管理制度怎么设置比较合理? 故障复盘的四大注意项: 1.事故复盘不是给人定责的,要有系统思维将优化项实际落地才能推动系统优化; 2.事故报告的重点应该是事故提升项,监控、定位、根因、架构四个部分都必须涉及; 3.事…- 3
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 2
- 0
-
经验教训 – 摘录多年运维监控报警优化经验总结文章
整个文章的关键在于ITIL的持续运营阶段 运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时发布下一代版本,而老系统还需要过渡很长时间,工作量直接翻倍,大家只能勉强应付一线运维工作,团队成员开始陆续离职,而新人又无法在短时间内上手,整体情况不断恶化,持续半年左右才缓过劲来。 下面两张截图是我挑选的两个团队一周报警数的对比图,前者的单日报警量最高是 …- 1
- 0
-
【运维工具】一文搞懂 Hadoop 生态系统的组件
Hadoop概述 Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。Hadoop是可扩展的,它可以方便地从单一服务器扩展到数千台服务器,每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性,软件库本身也提供数据保护,并可以在应用层做失败处理,从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。 图…- 4
- 0
-
PYTHON基础技能 – Python字典与集合的15个高级操作与优化建议
今天我们将一起探索Python中最强大且高效的两个数据结构——字典和集合,它们在数据处理中扮演着至关重要的角色。通过这15个高级操作和优化技巧,你们将学会如何像专家一样驾驭它们,让代码更加简洁高效。 文章目录 Toggle 1. 字典推导式(Dictionary Comprehensions)2. 合并字典(Using update())3. 集合的基本运算4. 字典的get()方法5. 集合推导…- 1
- 0
-
PYTHON基础技能 – 使用 Pandas 进行时间序列分析的 11 个关键点
今天我们来聊聊如何用 Pandas 库进行时间序列分析。Pandas 是 Python 中最强大的数据处理库之一,非常适合处理时间序列数据。这篇文章将带你逐步了解时间序列分析的基础知识,以及如何用 Pandas 实现。 文章目录 Toggle 1. 时间序列数据简介2. 设置日期为索引3. 数据重采样4. 插值方法5. 移动平均6. 季节性分解7. 时间序列滞后8. 自相关和偏自相关函数9. 差分…- 0
- 0
-
经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
Windows蓝屏致损150亿美元,受灾者仅获赔10美元引热议,程序员激辩用Rust能否改写史上最大IT故障结局? “就算是 Rust,也救不了这次 CrowdStrike 的中断事故。” 距离 Windows 大范围蓝屏事件,已经过去了 6 天。 这 6 天来,国内外技术网站仍对此事热议不断,“罪魁祸首” CrowdStrike 的名字被频繁提及,与之伴随的无一不是质疑和谴责: CrowdStr…- 1
- 0
-
系统稳定性保障 – 云原生大潮下的混沌工程思考
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。 作者:智妍(郑妍)、浣碧(何颖) 文章目录 Toggle 什么是混沌工程,云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语 什么是混沌工程,云原生大潮下的混沌工程特点 通过使用云计算厂商如…- 42
- 0
-
故障复盘 – 复盘工具 SCQA模型复盘法
SCQA模型法SCQA模型是源自芭芭拉·明托在《金字塔原理》中提出的一种结构化表达和分析问题的工具,它由四个元素组成: S(Situation): 情景 — 描述当前的背景、现状或已知的事实情况,通常是大家都熟悉的环境或事件。 C(Complication): 冲突或问题 — 描述当前情景中存在的问题、矛盾、挑战或困境,它是对现状的一种偏离或打破平衡的因素。 Q(Question): 提问 — 提…- 5
- 0
-
ITIL 实践经验 – 流程建设都是遵循由轻到重,不断结合业务需求与技术痛点持续运营优化
在 ITSM 领域,ITIL一直是事实上的标准。 从80年代中期 ITIL的诞生,到 v2、v3,以及现在的 ITIL 4,流程一直是”门面担当“。其中事件流程的“快”、问题流程的“究”、配置流程的“准”、变更流程的“控”等,这些定义明确的 ITIL流程,一直是ITSM领域的鲜明符号。 但随着ABC(AI、Bigdata、Cloud)等为典型的新技术的兴起和落地应用,越发强调轻量、敏捷,ITIL厚…- 2
- 0
-
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方说你的系统有问题,但你认为没问题,又无法自证? 这一切都源自于你的系统没有做好监控和告警: 没有监控或者没有一个好的监控,导致你无法快速判断系统是不是健康的;没有告警或者没有一个精准的告警,当系统出问题时不能及时通知到…- 20
- 0
-
经验教训 – 生产环境血的教训最佳实践
SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原则,有助于降低生产影响 教训2:变更实施 – 生产回滚异常要马上处理,保持服务器的生产服务状态 教训3:变更验证 – 灰度期间必须确认监控/告警后才能继续下一批,避免事件产生影响更大 教训4:变更验证 – 变更完成需从业务维度进行验收 教训5:…- 2
- 0
-
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据
文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站 数据准备 清洗的是一份亚马逊黑色星期五电商节的销售数据,数据保存在 Excel 文件中 数据解释 先来看一下表里面的前 10 行数据: 数据示例 以下是每个数据列的含义以及数据范…- 10
- 0
-
故障复盘 – 有效复盘常用五步法
这里跟大家分享极简复盘5步法。分别是1 回顾目标,2 评估结果,3 分析原因,4 总结经验,5 指导行动。 如果你没有复盘的习惯,那么在一开始建议降低复盘的要求门槛,这样你更容易开始。所以我把每个步骤最核心要素总结出来,你只需要按照这个关键点进行梳理复盘即可。 首先第1步:回顾目标,你需要把你的目标123写下来。 然后第二步:评估结果 你需要如实列出你每一项目标的完成情况,可以简单标记成完成或未完…- 2
- 0
-
故障复盘 – 3个核心5要素有效提高故障复盘质量
对于故障,复盘是一件非常重要的事情,因为我们的成长基本上就是从故障中总结各种经验教训,从而可以获得最大的提升。 在亚马逊和阿里,面对故障的复盘有不一样的流程,虽然在内容上差不多,但细节上有很多不同。亚马逊内部面对 S1 和 S2 的故障复盘,需要那个团队的经理写一个叫 COE(Correction of Errors)的文档。这个 COE 文档,基本上包括以下几方面的内容。 故障处理的整个过程。就…- 0
- 0
-
经验教训 – 故障处理,教你30秒把问题说清楚
故障处理可参考麦肯锡30秒电梯法则思路,快速把问题陈述。 文章目录 Toggle 一 了解30秒电梯法则目标对象方法 一 了解30秒电梯法则 谈到“30秒电梯法则”不得不谈到麦肯锡:麦肯锡作为世界上最著名,最成功的战略咨询公司,已有近百年的历史,他在全球40多个国家设有80多家分公司,被称为世界第一战略、组织机构和业绩改善方面的咨询公司以及真正的全球性公司。 “…- 4
- 0
-
【运维工具】Flink SQL 基础实践 – 深入分析 Flink SQL 工作机制
本文整理自 Flink Forward 2020 全球在线会议中文精华版,由 Apache Flink PMC 伍翀(云邪)分享,社区志愿者陈婧敏(清樾)整理。旨在帮助大家更好地理解 Flink SQL 引擎的工作原理。文章主要分为以下四部分: 1、Flink SQL Architecture 2、How Flink SQL Works? 3、Flink SQL Optimizations 4、S…- 0
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

















