-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 3
- 0
-
系统稳定性建设(4) – 稳定性设计原则:简单、冗余、标准化、健壮
作者介绍 淇公 ,蚂蚁金服技术专家。热爱 java 和一些函数式语言,长期关注系统稳定性领域 文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束 一、差旅随想 因为 base 在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样精密复杂的机器的那帮人真的是了不起,他们是怎样保证这…- 1
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 2
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 1
- 0
-
稳定性建设 – 治理思路
文章目录 Toggle 一、背景二、目标三、治理3.1 变更规范治理3.2 监控埋点治理3.3 服务流量治理3.4 服务容错治理3.5 服务依赖治理四、故障应急流程 一、背景 伴随公司和业务的快速发展,服务稳定性也越来越重要,特别是对于基础架构或者重要的业务团队,我们的任何服务出现问题,都可能影响到依赖我们的服务,所以我们应该以更高的稳定性要求作为我们的目标。 业务发展看似并不一定需要稳定性建设,…- 1
- 0
-
2024年 互联网故障盘点,我们能从故障中学到什么?
2024年已过,让我们来盘点今年出现的故障。回顾这一年,我们经历了各种挑战和困难,但也从中学到了许多宝贵的经验。 在面对不确定性时,我们学会了更多灵活地调整策略,每一次解决问题的过程,都是对能力的一次历练。虽然路途不易,所幸我们在变化中成长,塑造更强大的自己,也对未来充满了信心和期待。 2024年发生的宕机事件 谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、…- 3
- 0
-
系统稳定性建设(11) – 系统总出故障怎么办?稳定性建设是什么?
大家好,我是树哥。 说到系统稳定性,不知道大家会想起什么?我想大多数人会觉得这个词挺虚的,不知道系统稳定性指的是什么。 一年前的我看到这个词,也是类似于这样的感受,大概只知道要消除单点、做好监控报警,但却并没有一个体系化的方法论。 经过一段时间的摸索,我对系统稳定性有了较为体系化的认识,于是迫不及待地希望和大家一起分享。所以今天,就让我跟大家简单聊聊系统稳定性建设这个话题吧! 文章目录 Toggl…- 6
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 9
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 8
- 0
-
稳定性建设 – 架构优化的关键策略
SRE实战中稳定性保障与架构优化的关键策略。讲师首先分析了SRE当前遇到的困境,提出了三个核心策略:采集更丰富的数据、积累更丰富的经验以及从劣化场景中逐步消灭风险。 接着,讲师介绍了经验库的概念,它是一种用来积累和产品化经验的模块,具有查打一体的特点,能够实时诊断性能容量问题。通过数据、基因库和量化策略,识别并解决技术风险。 案例中,优化部署架构,使用70%的硬件支撑高流量,消除高峰时段超时。另一…- 4
- 0
-
系统稳定性建设(16) – 稳定架构设计思路
系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。 监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。 容错机制:建立完善的异常处理和容错机制,及时检测并隔…- 0
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 2
- 0
-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 2
- 0
-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 2
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 21
- 0
-
2015.05.28 事件回顾,深入解析和反思携程宕机事件
携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈网友的看法 携程微博:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面…- 3
- 0
-
经验教训 – 2021.07.13 B站宕机事故,我们是这样崩的
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 22:55 远程…- 1
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 2
- 0
-
经验教训 – 摘录多年运维监控报警优化经验总结文章
整个文章的关键在于ITIL的持续运营阶段 运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时发布下一代版本,而老系统还需要过渡很长时间,工作量直接翻倍,大家只能勉强应付一线运维工作,团队成员开始陆续离职,而新人又无法在短时间内上手,整体情况不断恶化,持续半年左右才缓过劲来。 下面两张截图是我挑选的两个团队一周报警数的对比图,前者的单日报警量最高是 …- 1
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践(2)
一、前言 之前在《云原生背景下的运维价值思考与实践(上)》 里,重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,D…- 2
- 0
-
大规模运行 Apache Airflow 的经验和教训
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已经在生产中运行了两年多的 Airflow,用于各种工作流,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时,我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…- 1
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 32
- 0
-
经验教训 – 2022.08.02 微博为何总是宕机
8月3日早晨,“微博崩了”话题登上热搜榜,话题阅读量高达4.7亿,讨论量也达到了4.1万。不少网友表示虽然平时天天骂微博,但真和微博失联了几个小时,感觉和世界脱节了一样。没想到这年头竟然能在微博热搜上看到 “微博崩了”这个词条。 微博回应宕机原因 据@微博客服 消息,8月2日晚22时06分起,由于自动扩容系统故障,导致北京永丰等地机房的宽带容量超限,影响了部分省份移动端用户访问,期间PC端用户可正…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!