全部标签

流量

系统稳定性建设（11） – 系统总出故障怎么办？稳定性建设是什么？

大家好，我是树哥。说到系统稳定性，不知道大家会想起什么？我想大多数人会觉得这个词挺虚的，不知道系统稳定性指的是什么。一年前的我看到这个词，也是类似于这样的感受，大概只知道要消除单点、做好监控报警，但却并没有一个体系化的方法论。经过一段时间的摸索，我对系统稳定性有了较为体系化的认识，于是迫不及待地希望和大家一起分享。所以今天，就让我跟大家简单聊聊系统稳定性建设这个话题吧！文章目录 Toggl…
安全运维
- 17
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 51
- 0
aqzt25年2月11日
系统稳定性建设（7） – 稳定性建设实践总结

2020 年，注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划，同时也催生了一些在线业务办理能力的应用诉求，作为技术同学，需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份，正好梳理总结下自己的系统稳定性建设经验和思考。文章目录 Toggle 开篇一、系统稳定性建设是指什么？二、为什么需要系统稳定性建设？三、系统稳定性建设为什么难？3.1 面对的挑战比较大3.2 系…
安全运维
- 20
- 0
aqzt25年2月11日
稳定性建设 – 架构优化的关键策略

SRE实战中稳定性保障与架构优化的关键策略。讲师首先分析了SRE当前遇到的困境，提出了三个核心策略：采集更丰富的数据、积累更丰富的经验以及从劣化场景中逐步消灭风险。接着，讲师介绍了经验库的概念，它是一种用来积累和产品化经验的模块，具有查打一体的特点，能够实时诊断性能容量问题。通过数据、基因库和量化策略，识别并解决技术风险。案例中，优化部署架构，使用70%的硬件支撑高流量，消除高峰时段超时。另一…
安全运维
- 14
- 0
aqzt25年2月11日
系统稳定性建设（16） – 稳定架构设计思路

系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。容错机制:建立完善的异常处理和容错机制,及时检测并隔…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 13
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 14
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 15
- 0
aqzt25年2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 85
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 80
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 4
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 15
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
稳定性建设 – 治理思路

文章目录 Toggle 一、背景二、目标三、治理3.1 变更规范治理3.2 监控埋点治理3.3 服务流量治理3.4 服务容错治理3.5 服务依赖治理四、故障应急流程一、背景伴随公司和业务的快速发展，服务稳定性也越来越重要，特别是对于基础架构或者重要的业务团队，我们的任何服务出现问题，都可能影响到依赖我们的服务，所以我们应该以更高的稳定性要求作为我们的目标。业务发展看似并不一定需要稳定性建设，…
安全运维
- 5
- 0
aqzt25年2月11日
2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 92
- 0
aqzt25年2月11日
安全运维体系建设

安全运维体系建设是一个综合性的过程，涉及多个方面，包括安全体系、业务稳定性、规范标准体系、运维知识体系、运维能力体系、监控体系、资源成本体系、效能体系以及团队建设等。以下是对这些方面的详细阐述：
安全资讯
- 4.2k
- 0
网络收集25年1月9日
IT服务治理 – SRE工具链建设思路与实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 50
- 0
aqzt24年12月21日
经验教训 – 2020.10.16 微盟宕机8天，赔偿1.5亿！电商技术专家，总结6条经验

微盟经历了8天的至暗时刻，数据修复工作终于有了进展，并于3月1日对外发布公告：截止到3月1日晚8点，在腾讯云团队协助下，经过7*24小时的努力，我们数据已经全面找回，由于此次数据量规模非常大，为了保证数据一致性和线上体验，我们将于3月2日凌晨2点进行系统上线演练，将于3月3日上午9点数据恢复正式上线。此次事故给商家经营造成了严重的影响，公司管理层对此深感自责和愧疚，我们准备了1.5亿元人民币赔…
安全运维
- 2
- 0
aqzt24年12月21日
故障复盘 – 故障复盘哪三大关键问题？

这是很多企业/团队都要面对的问题，有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点：故障复盘的三大关键问题：怎么有效降低故障的影响？事故处理的流程和原则有哪些？相关管理制度怎么设置比较合理？故障复盘的四大注意项： 1.事故复盘不是给人定责的，要有系统思维将优化项实际落地才能推动系统优化； 2.事故报告的重点应该是事故提升项，监控、定位、根因、架构四个部分都必须涉及； 3.事…
安全运维
- 4
- 0
aqzt24年12月21日
【运维工具】flink sql 实践思路案例

文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT：实时 & 离线公共画像维表？概念区别离线公共画像维表实时公共画像维表WHY：为什么建设实时公共画像维表？直播间画像维表主播 & 观众用户画像维表HOW + WHO：怎样建设？用什么建设？直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…
安全运维
- 5
- 0
aqzt24年12月21日
经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验

腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事，因为阿里云双十一大故障的官方故障复盘至今仍然是拖欠着的。公有云厂商想要真正成为 —— 提供水与电的公共基础设施，那就需要承担起责任，接受公众监督 —— 云厂商有义务披露自己故障原因，并提出切实的可靠性改进方案与措施。那么我们就来看一看这份复盘报告，看看里面有哪些信息，以及可以从中学到什么教训。事实是什么？原因是什么？影响…
安全运维
- 15
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 5Why法

发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问，发现解决问题的线索，寻找发明思路，进行设计构思，从而搞出新的发明项目，这就叫做5W2H法。（1）WHAT——是什么，目的是什么，做什么工作。（2）WHY——为什么要做，可不可以不做，有没有替代方案。（3）WHO——谁，由谁来做。（4）WHEN——何时，什么时间做，什么时机最适宜。（5）WHERE——何处，在哪里做。（6）HOW ——怎…
安全运维
- 10
- 0
aqzt24年12月21日
运维工具 – 唯品会王玉：老司机教你如何调教Presto和ClickHouse，应对业务难题！

导读：大家好，我是来自唯品会实时平台 OLAP 团队的王玉，主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu，这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作，并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。本文主要介绍唯品会 OLAP 的演进，包括 Presto 智能化和容器化实践，以及 Clickhouse 在实验平台海量数据存储和计…
安全运维
- 12
- 0
aqzt24年12月21日
故障复盘 – 语雀 P0 事故报告，军规红线9个字总结

故障时间：10月23日下午。故障现象：语雀出现重大服务故障，持续 7 个多小时。直接原因：数据存储运维团队在进行升级操作时，新的运维升级工具出现 bug。具体细节：bug导致华东地区生产环境存储服务器被误下线，使语雀数据服务发生严重故障，造成大面积服务中断。恢复过程：因机器类别较老，无法直接操作上线，只能从备份系统中恢复存储数据。数据恢复过程耗时较长，直到晚上 22 点，语雀的全部服务…
安全运维
- 90
- 0
aqzt24年12月21日