全部标签

运维

故障治理 – 回顾近年数据中心十大灾难事件

数据中心的存在，就是为了保障计算的安全与可连续性。然而，仅仅最近三年中，数据中心发生了十余件故障乃至灾难。详见：《盘点：近年数据中心十大灾难事件》数据中心系统庞杂，运维安全本就不易，近年来的极端气候、技术发展等因素，也为数据中心高可靠性带来了新挑战，我们应该如何预防与应对？数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现，电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…
安全运维
- 24
- 0
aqzt24年12月21日
经验教训 – 狡兔务必三窟：阿里云香港可用区C宕机血的教训与反思

自12月18日阿里云香港可用区C因为机房水冷机组出现故障，导致一次阿里云历史上最长的宕机后，官方终于在圣诞节那天，出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》，称得上是实事求是面对问题了。我从业十五年，参与建设过4000个节点的私有云，也搞过机房装修和上架，还有一点运维经验，算是有相关经验，跟大家讨论一下以后自家单位的容灾应该怎么做吧。大家先看这次阿里云…
安全运维
- 11
- 0
aqzt24年12月21日
系统稳定性保障 – 美团AIOps在事件管理的硬核实践

文中所提及的事件并不仅限于故障，还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景在《AIOps在…
安全运维
- 14
- 0
aqzt24年12月21日
最佳实践 – 运维服务器故障排查与定位常用命令

整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障，最小化的减少故障给业务带来的影响。文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…
安全运维
- 80
- 0
aqzt24年12月21日
实践案例 – 告警治理腾讯业务监控的修炼之路

概述本文作为监控告警产品专题系列第一篇文章，涉及的主要内容为监控产品设计的相关基础知识，算是整个系列文章的一个索引。主要内容有： • 关于监控告警的一些概念• 立体化监控体系的阐述老鸟们可以关注后续的文章（文末有三期内容预告，关键词：IAAS, CMDB, 组件监控）业务运维 vs 产品经理以前做 QQ 业务运维的时候，有一类平台是自己天天会用，那这类平台是什么呢？就是监控告警平台，每…
安全运维
- 15
- 0
aqzt24年12月21日
SRE实战手册 – 技能宝典

先聊一聊SRE的工作职责，聊一下我所理解的SRE的核心目标；初步看一下稳定性建设的工作范畴，看一看从宏观上如何划分我们的工作内容；然后我们由此进入今天的主题：故障管理，我将按照我的理解对故障管理进行拆解和分析；再后面，围绕故障管理，我们深入聊一下SRE的体系建设，如何通过体系建设来更好地做故障管理；最后我们再简单做下对未来的展望，共同畅想一下SRE工作的未来。文章目录 Toggle 一、SRE的…
安全运维
- 24
- 0
aqzt24年12月21日
实践案例 – 预案管理故障预案6板斧

故障处理trouble shooting是每个SRE要做的日常，特别是处在快速成长期的大型互联网系统，模块多、变更多、访问量大、用户环境复杂，不就是这坏就是那坏，SRE就像一个医师，需要在故障时协同研发动各种手术去修复系统，常用的修复的方法一般会提前梳理准备好，我们称作预案。经过无数次的故障处理，发觉是有一些不变的套路的，每次故障处理基本都是围绕这几个套路在做排列组合，其中最常用的6个，我把他总…
安全运维
- 9
- 0
aqzt24年12月21日
经验教训 – 摘录多年运维监控报警优化经验总结文章

整个文章的关键在于ITIL的持续运营阶段运维工程师面试者第一个问题是：需要值班吗？笔者自己也曾经历过月入十万的时期，在那个时候，数个系统同时发布下一代版本，而老系统还需要过渡很长时间，工作量直接翻倍，大家只能勉强应付一线运维工作，团队成员开始陆续离职，而新人又无法在短时间内上手，整体情况不断恶化，持续半年左右才缓过劲来。下面两张截图是我挑选的两个团队一周报警数的对比图，前者的单日报警量最高是 …
安全运维
- 4
- 0
aqzt24年12月21日
故障治理 – 线上故障分析与故障治理指引

文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么？-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …
安全运维
- 35
- 0
aqzt24年12月21日
系统稳定性保障 – 相关能力成熟度模型介绍

保障系统稳定性是现代软件开发中最具挑战性的问题之一，也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行，是我国信息通信行业高质量发展的基石，也是我国数字经济快速发展的必要条件。因此，针对系统稳定安全运行的技术研究和实践推广具有重要意义。中国信通院自2020年起开始研究稳定性保障工作，建设了“系统稳定性保障系列标准”，并基于此标准体系支持了工信部稳定运行政策文…
安全运维
- 76
- 0
aqzt24年12月21日
IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验

大伟，携程软件技术专家，关注企业级监控、日志、可观测性领域。监控领域有三大块，分别是 Metrics，Tracing，Logging。这三者作为 IT 可观测性数据的三剑客，基本可以满足各类监控、告警、分析、问题排查等需求。 Logs：我们对于 Logs 是更加宽泛的定义，即记录事物变化的载体，包括常见的访问日志、交易日志、内核日志等文本型以及 GPS、音视频等泛型数据。日志在调用链场景结构化后…
安全运维
- 3
- 0
aqzt24年12月21日
实践案例 – 苏宁 AI 监控运维保障建设实践

文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景建设背景近些年，苏宁一直基于云技术对外提供服务、产品、内容…
安全运维
- 82
- 0
aqzt24年12月21日
故障复盘 – 4个重要运作机制

故障复盘的重要性无需多说，每一次故障都是宝贵的学习机会，本人接手故障复盘工作已经半年有余，从一开始的手足无措，慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验，并结合工作经历总结而来，仅供参考。文章目录 Toggle 一、故障复盘目的二、故障复盘原则三、故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …
安全运维
- 79
- 0
aqzt24年12月21日
监控工具 – 阿里全链路监控系统鹰眼（监控神器）

最新一代的阿里全链路监控系统鹰眼 3.0，同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪；技术层面，鹰眼 3.0 日均处理万亿级别的分布式调用链数据，针对海量实时监控的痛点，对底层的流计算、多维时序指标与事件存储体系等进行了大量优化，同时引入了时序检测、根因分析、业务链路特征等技术，将问题发现与定位由被动转为主动。注：本文整理自阿里巴巴技术专家周小帆在 ArchSummit…
安全运维
- 84
- 0
aqzt24年12月21日
故障治理 – 优酷双11猫晚技术质量保障

阿里QA导读：大家还记得天猫双11狂欢夜（猫晚）吗？小编依然还会经常听到真实力老酷guy腾格尔老师钢铁硬核版的《丑八怪》。与往年猫晚相比，今年是最“国际化”的一届，整场晚会通过优酷进行了全球直播覆盖，在这样的双11猫晚的特殊场景下，如何完成质量保障工作，让全球直播也能“如丝般顺滑”，让不同地域、不同设备的用户都能享受极致的体验？本文为阿里文娱测试开发专家宫浩在【阿里文娱2019双11猫晚技术…
安全运维
- 11
- 0
aqzt24年12月21日
经验教训 – 2018.06.27 阿里云回应访问故障：运维操作失误导致将敬畏每一行代码

　　阿里云再次对6月27日下午发生的技术问题进行了回应和解释，称“运维上的一个操作失误，导致一些客户访问阿里云官网控制台和使用部分产品功能时出现问题，引发大量吐槽”。阿里云表示，“对于故障，没有借口。” 　　6月27日下午，有网友反映，登陆阿里云控制台时出现异常，部分服务无法正常使用。随后阿里云在官网发布公告称，阿里云的部分产品及账号登陆出现访问异常，截至当天下午17:30大部分受影响的业务已经恢…
安全运维
- 6
- 0
aqzt24年12月21日
系统稳定性保障 – 云原生大潮下的混沌工程思考

简介：生产环境的突袭演练是我们迈出的艰难但有力的一步，锻炼了研发运维人员的应急响应能力，在真实用户场景下锤炼系统，推进了产品的轮班制度，提升了云原生底座的稳定性和竞争力。作者：智妍（郑妍）、浣碧（何颖）文章目录 Toggle 什么是混沌工程，云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语什么是混沌工程，云原生大潮下的混沌工程特点通过使用云计算厂商如…
安全运维
- 90
- 0
aqzt24年12月21日
IT服务治理 – 阿里为什么能抗住90秒100亿？负载均衡架构实践

本文以淘宝作为例子，介绍从一百个并发到千万级并发情况下服务端的架构的演进过程，同时列举出每个演进阶段会遇到的相关技术，让大家对架构的演进有一个整体的认知，文章最后汇总了一些架构设计的原则。基本概念在介绍架构之前，为了避免部分读者对架构设计中的一些概念不了解，下面对几个最基础的概念进行介绍。 1）什么是分布式？系统中的多个模块在不同服务器上部署，即可称为分布式系统，如Tomcat和数据库分别部…
安全运维
- 2
- 0
aqzt24年12月21日
实践案例 – 美团点评实时计算平台的 Flink 监控与告警实践

文章目录 Toggle 为什么我们关注指标监控指标：衡量和描述对象的方式监控：对指标进行监测和控制1. 监控报警的链路1.1 监控报警链路1.2 指标展示：Grafana2. 常用的监控项2.1 常用的指标■ 系统指标■ 自定义指标2.2 如何确定哪些指标需要关注？3. 指标的聚合方式4. 指标监控的应用4.1 作业异常报警4.2 指标大盘4.3 自动化运维Q&A 为什么我们关注指标监控 …
安全运维
- 10
- 0
aqzt24年12月21日
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因

11月29日，滴滴出行再就27日夜间系统故障致歉，提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果：起因是底层系统软件发生故障，并非网传的“遭受攻击”。同时，滴滴表示，当前所有服务已全部恢复，后续将深入开展技术风险隐患排查和升级工作，全面保障服务稳定性，尽最大努力避免类似事故再发生。滴滴拥有庞大的业务线，其底层系统由复杂的软硬件构成，其中包括服务器、网络设备、数据库等等重要组成部…
安全运维
- 6
- 0
aqzt24年12月21日
实践案例 – 故障治理阿里电商故障治理和故障演练实践

大家好，今天来的人不少，可见对于故障耿耿于怀的人，不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知，故障治理本身就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的全部岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要还是回归故障发生的本质，故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…
安全运维
- 5
- 0
aqzt24年12月21日
故障治理 – 全年配送0故障，盒马揭秘智能调度12个关键技术提高稳定性

文章目录 Toggle 一、稳定大于一切二、智能调度链路分析三、稳定性因素分析和实践1、DB依赖2、HSF依赖3、HSF服务提供4、tair依赖5、Metaq依赖6、精卫依赖7、DTS依赖8、开关9、监控10、灰度11、测试12、应急响应四、总结一、稳定大于一切盒马的线下作业稳定性要求极高，假如门店pos无法付款了，排起的支付长队伍能让人把门店闹翻，假如配送员无法揽收了，在家里预定的午餐材…
安全运维
- 8
- 0
aqzt24年12月21日
[运维工具]每秒几十亿实时处理，阿里巴巴超大规模 Flink 集群运维揭秘

今天主要讲三块：第一，阿里 Flink 发展的历史背景，怎么来的，现状规模到底什么样第二，阿里 Flink 运维管控平台第三，阿里 Flink 平台运维技术解决方案文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案一、阿里 Flink 集群运维挑战首先说一下流计算，批计算就是数据集是有限的，每次的计算都可以拿到一样的结果，在…
安全运维
- 7
- 0
aqzt24年12月21日
可观测性(Observability) – 监控和可观测性区别

文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…
安全运维
- 15
- 0
aqzt24年12月21日