全部标签

运维

2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 200
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 65
- 0
aqzt25年2月11日
系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 19
- 0
aqzt25年2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 99
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 22
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
故障发生最重要的是快速恢复故障

故障发生时在故障发生时，最重要的是快速恢复故障。而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中，一旦发生故障就会出现“多米诺骨牌效应”。也就是说，系统会随着一个故障开始一点一点地波及到其它系统，而且这个过程可能会很快。一旦很多系统都在报警，要想快速定位到故障源就不是一件简单的事了。在亚马逊内部，每个开发团队至少都会有一位 oncall 的工程师。在 oncall 的时候，工程师…
安全运维
- 18
- 0
aqzt24年12月21日
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理

是不是经常会遇到，有人在群里 @你，告诉你你的系统出故障了，你在犹豫是不是真的出故障的同时还得慌乱地去查找？老板问你系统现在到底健康与否，能不能快速给个判断，你却不敢断言？业务方说你的系统有问题，但你认为没问题，又无法自证？这一切都源自于你的系统没有做好监控和告警：没有监控或者没有一个好的监控，导致你无法快速判断系统是不是健康的；没有告警或者没有一个精准的告警，当系统出问题时不能及时通知到…
安全运维
- 24
- 0
aqzt24年12月21日
服务稳定性保障的五大误解

在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日，这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念，期望有一天大家沟通时不是鸡同鸭讲，各说各话。文章目录 Toggle 误解一：服务可用性误解二：故障误解三：根本原因误解四：根因定位误解五：业务监控总结误解一：服务可用性听过很多技术分享，看过很多平台的承诺，上来都是讲我们的服务稳定性99.9…
安全运维
- 8
- 0
aqzt24年12月21日
ITIL 最佳实践中常出现的五个误区，领悟后有效提高生产质量管控

ITIL作为一种IT运维战略及最佳实践的方法，不仅仅能为IT部门自身的运维效率带来价值，更重要的是基于ITIL运维的IT服务体系能让整个企业的员工对IT服务的满意度得到提升。但是，把ITIL想象成简单的工具实施是完全不足以达到ITIL运维体系所带来的效果。ITIL告诉大家对IT运维管理必须有一个深思熟虑的长久规划，尽可能的在实施过程中规避一些常见的误区，并且在整个过程中一定要不断地进行调整和改善…
安全运维
- 4
- 0
aqzt24年12月21日
故障治理 – 回顾近年数据中心十大灾难事件

数据中心的存在，就是为了保障计算的安全与可连续性。然而，仅仅最近三年中，数据中心发生了十余件故障乃至灾难。详见：《盘点：近年数据中心十大灾难事件》数据中心系统庞杂，运维安全本就不易，近年来的极端气候、技术发展等因素，也为数据中心高可靠性带来了新挑战，我们应该如何预防与应对？数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现，电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…
安全运维
- 31
- 0
aqzt24年12月21日
经验教训 – 狡兔务必三窟：阿里云香港可用区C宕机血的教训与反思

自12月18日阿里云香港可用区C因为机房水冷机组出现故障，导致一次阿里云历史上最长的宕机后，官方终于在圣诞节那天，出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》，称得上是实事求是面对问题了。我从业十五年，参与建设过4000个节点的私有云，也搞过机房装修和上架，还有一点运维经验，算是有相关经验，跟大家讨论一下以后自家单位的容灾应该怎么做吧。大家先看这次阿里云…
安全运维
- 18
- 0
aqzt24年12月21日
系统稳定性保障 – 美团AIOps在事件管理的硬核实践

文中所提及的事件并不仅限于故障，还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景在《AIOps在…
安全运维
- 19
- 0
aqzt24年12月21日
最佳实践 – 运维服务器故障排查与定位常用命令

整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障，最小化的减少故障给业务带来的影响。文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…
安全运维
- 85
- 0
aqzt24年12月21日
实践案例 – 告警治理腾讯业务监控的修炼之路

概述本文作为监控告警产品专题系列第一篇文章，涉及的主要内容为监控产品设计的相关基础知识，算是整个系列文章的一个索引。主要内容有： • 关于监控告警的一些概念• 立体化监控体系的阐述老鸟们可以关注后续的文章（文末有三期内容预告，关键词：IAAS, CMDB, 组件监控）业务运维 vs 产品经理以前做 QQ 业务运维的时候，有一类平台是自己天天会用，那这类平台是什么呢？就是监控告警平台，每…
安全运维
- 18
- 0
aqzt24年12月21日
SRE实战手册 – 技能宝典

先聊一聊SRE的工作职责，聊一下我所理解的SRE的核心目标；初步看一下稳定性建设的工作范畴，看一看从宏观上如何划分我们的工作内容；然后我们由此进入今天的主题：故障管理，我将按照我的理解对故障管理进行拆解和分析；再后面，围绕故障管理，我们深入聊一下SRE的体系建设，如何通过体系建设来更好地做故障管理；最后我们再简单做下对未来的展望，共同畅想一下SRE工作的未来。文章目录 Toggle 一、SRE的…
安全运维
- 33
- 0
aqzt24年12月21日
实践案例 – 预案管理故障预案6板斧

故障处理trouble shooting是每个SRE要做的日常，特别是处在快速成长期的大型互联网系统，模块多、变更多、访问量大、用户环境复杂，不就是这坏就是那坏，SRE就像一个医师，需要在故障时协同研发动各种手术去修复系统，常用的修复的方法一般会提前梳理准备好，我们称作预案。经过无数次的故障处理，发觉是有一些不变的套路的，每次故障处理基本都是围绕这几个套路在做排列组合，其中最常用的6个，我把他总…
安全运维
- 11
- 0
aqzt24年12月21日
经验教训 – 摘录多年运维监控报警优化经验总结文章

整个文章的关键在于ITIL的持续运营阶段运维工程师面试者第一个问题是：需要值班吗？笔者自己也曾经历过月入十万的时期，在那个时候，数个系统同时发布下一代版本，而老系统还需要过渡很长时间，工作量直接翻倍，大家只能勉强应付一线运维工作，团队成员开始陆续离职，而新人又无法在短时间内上手，整体情况不断恶化，持续半年左右才缓过劲来。下面两张截图是我挑选的两个团队一周报警数的对比图，前者的单日报警量最高是 …
安全运维
- 7
- 0
aqzt24年12月21日
故障治理 – 线上故障分析与故障治理指引

文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么？-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …
安全运维
- 47
- 0
aqzt24年12月21日
系统稳定性保障 – 相关能力成熟度模型介绍

保障系统稳定性是现代软件开发中最具挑战性的问题之一，也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行，是我国信息通信行业高质量发展的基石，也是我国数字经济快速发展的必要条件。因此，针对系统稳定安全运行的技术研究和实践推广具有重要意义。中国信通院自2020年起开始研究稳定性保障工作，建设了“系统稳定性保障系列标准”，并基于此标准体系支持了工信部稳定运行政策文…
安全运维
- 90
- 0
aqzt24年12月21日
IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验

大伟，携程软件技术专家，关注企业级监控、日志、可观测性领域。监控领域有三大块，分别是 Metrics，Tracing，Logging。这三者作为 IT 可观测性数据的三剑客，基本可以满足各类监控、告警、分析、问题排查等需求。 Logs：我们对于 Logs 是更加宽泛的定义，即记录事物变化的载体，包括常见的访问日志、交易日志、内核日志等文本型以及 GPS、音视频等泛型数据。日志在调用链场景结构化后…
安全运维
- 5
- 0
aqzt24年12月21日