全部标签

分布式

系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 17
- 0
aqzt25年2月11日
系统稳定性建设（6） – 研发路上对稳定性治理的一些总结与思考

我是在 2014 年入职饿了么，从前端和 PHP 一直做到后端架构和团队，从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队；2018 年从业务研发团队抽身，6 个人组起一个小组投身机器学习，试图结合实际的业务场景通过技术改造业务；2019 年回归到平台（中台）研发，负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 88
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 21
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
稳定性建设 – 高可用容灾架构思路

大型分布式系统稳定性建设的重要性与方法。首先，强调了高可用容灾架构的建设，遵循面向故障设计、墨菲定律和自动化原则。接着，介绍了依赖的视角，指出高可用架构中不应存在强依赖。然后，讲解了并发、吞吐和延迟的概念，引入了SRE、DIO和AI OPE的概念。接着，强调了AI的开放思想，指出稳定性保障的对象是用户视角下的功能范畴。最后，提出了五个等级的容灾能力，强调了事前预防的重要性。此外，视频还详细讲解了事…
安全运维
- 13
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 8
- 0
aqzt25年2月11日
IT服务治理 – SRE工具链建设思路与实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 56
- 0
aqzt24年12月21日
运维工具 – 阿里超大规模 Flink 集群运维实践（实时监控必备工具之一）

一、演进历史和运维挑战阿里的实时计算经历了近 10 年的快速发展，总体来说可以分成三大时代： 1.0 时代：2013 年到 2017 年，三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代：2017 年集团合并了三大实时计算引擎，Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎，实现了大一统。在接下来的 4 年里，集团所有实时计算业…
安全运维
- 13
- 0
aqzt24年12月21日
经验教训 – 2020.02.23 微盟花23亿买下一个惨痛教训

　　2月23日晚7点左右，微盟多个小程序显示出现未知错误，多次刷新仍未恢复正常。　　基于微盟的商家小程序也都随之宕机，一度无法打开。从23日晚间起，宕机超过24小时，线上生意基本停摆的商家不在少数。　　对此，官方一开始回应称设备物理故障，正在紧急抢修和修复。　　2月25日，微盟集团(2013.HK)发布关于系统故障的公告，称SaaS(软件即服务)业务数据遭到员工人为破坏，并表示已向上海警方报…
安全运维
- 4
- 0
aqzt24年12月21日
可观测性（Observability）- 事件日志

日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能，然而也很少人会把日志作为多么关键功能来看待。日志就像阳光与空气，无可或缺却不太被重视。程序员们会说日志简单，其实这是在说“打印日志”这个操作简单，打印日志的目的是为了日后从中得到有价值的信息，而今天只要稍微复杂点的系统，尤其是复杂的分布式系统，就很难只依靠 tail、grep、awk 来从日志中挖掘信息了，往往还要有…
安全运维
- 21
- 0
aqzt24年12月21日
IT服务治理 – 唯品会实现电商平台从业务到架构的治理体系

文章目录 Toggle VIP不同阶段发展历程的商业模式演进唯品会系统架构演变历程电商运营平台关键设计架构设计和治理 VIP不同阶段发展历程的商业模式演进唯品会在2008年12月创立，一直到2012年，唯品会在做的主要事件就是尾货的抛售，做线上的outlets商家。这种商业模式就是帮别人消化库存，但是这个库存消化完了，现在特卖，公司的重点在发生变化。目前电商被分为了分成了两类，一是平台级公司，包…
安全运维
- 14
- 0
aqzt24年12月21日
实践案例 – 预案管理故障预案6板斧

故障处理trouble shooting是每个SRE要做的日常，特别是处在快速成长期的大型互联网系统，模块多、变更多、访问量大、用户环境复杂，不就是这坏就是那坏，SRE就像一个医师，需要在故障时协同研发动各种手术去修复系统，常用的修复的方法一般会提前梳理准备好，我们称作预案。经过无数次的故障处理，发觉是有一些不变的套路的，每次故障处理基本都是围绕这几个套路在做排列组合，其中最常用的6个，我把他总…
安全运维
- 10
- 0
aqzt24年12月21日
经验教训 – 狡兔务必三窟：阿里云香港可用区C宕机血的教训与反思

自12月18日阿里云香港可用区C因为机房水冷机组出现故障，导致一次阿里云历史上最长的宕机后，官方终于在圣诞节那天，出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》，称得上是实事求是面对问题了。我从业十五年，参与建设过4000个节点的私有云，也搞过机房装修和上架，还有一点运维经验，算是有相关经验，跟大家讨论一下以后自家单位的容灾应该怎么做吧。大家先看这次阿里云…
安全运维
- 17
- 0
aqzt24年12月21日
可观测性(Observability) – 三要素日志、追踪、度量

随着分布式架构渐成主流，可观测性（Observability）一词也日益频繁地被人提起。最初，它与可控制性（Controllability）一起，是由匈牙利数学家 Rudolf E. Kálmán 针对线性动态控制系统提出的一组对偶属性，原本的含义是“可以由其外部输出推断其内部状态的程度”。在学术界，虽然“可观测性”这个名词是近几年才从控制理论中借用的舶来概念，不过其内容实际在计算机科学中已有多…
安全运维
- 9
- 0
aqzt24年12月21日
运维工具 – 唯品会王玉：老司机教你如何调教Presto和ClickHouse，应对业务难题！

导读：大家好，我是来自唯品会实时平台 OLAP 团队的王玉，主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu，这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作，并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。本文主要介绍唯品会 OLAP 的演进，包括 Presto 智能化和容器化实践，以及 Clickhouse 在实验平台海量数据存储和计…
安全运维
- 16
- 0
aqzt24年12月21日
监控工具 – 阿里全链路监控系统鹰眼（监控神器）

最新一代的阿里全链路监控系统鹰眼 3.0，同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪；技术层面，鹰眼 3.0 日均处理万亿级别的分布式调用链数据，针对海量实时监控的痛点，对底层的流计算、多维时序指标与事件存储体系等进行了大量优化，同时引入了时序检测、根因分析、业务链路特征等技术，将问题发现与定位由被动转为主动。注：本文整理自阿里巴巴技术专家周小帆在 ArchSummit…
安全运维
- 95
- 0
aqzt24年12月21日
故障治理 – 线上故障分析与故障治理指引

文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么？-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …
安全运维
- 46
- 0
aqzt24年12月21日
故障复盘 – 复盘工具多视角复盘法

这种方法鼓励团队成员从多个角度（如管理者、执行者、客户、竞争对手等视角）去审视同一个事件。管理者视角：关注总体战略执行、资源配置、团队协调等方面的得失。执行者视角：聚焦具体操作层面的问题，改进工作流程和技术能力。客户视角：深入了解客户需求和体验，优化产品和服务。竞争对手视角：借鉴对手的优点，规避缺点，寻求竞争优势。文章目录 Toggle 案例1：用户购物车功能异常案例2：退款流程繁琐，用…
安全运维
- 7
- 0
aqzt24年12月21日
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践

文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统（ATTA）04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…
安全运维
- 92
- 0
aqzt24年12月21日
实践案例 – 故障治理阿里电商故障治理和故障演练实践

大家好，今天来的人不少，可见对于故障耿耿于怀的人，不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知，故障治理本身就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的全部岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要还是回归故障发生的本质，故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…
安全运维
- 10
- 0
aqzt24年12月21日
[运维工具]每秒几十亿实时处理，阿里巴巴超大规模 Flink 集群运维揭秘

今天主要讲三块：第一，阿里 Flink 发展的历史背景，怎么来的，现状规模到底什么样第二，阿里 Flink 运维管控平台第三，阿里 Flink 平台运维技术解决方案文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案一、阿里 Flink 集群运维挑战首先说一下流计算，批计算就是数据集是有限的，每次的计算都可以拿到一样的结果，在…
安全运维
- 10
- 0
aqzt24年12月21日