全部标签

流量

稳定性建设 – 治理思路

文章目录 Toggle 一、背景二、目标三、治理3.1 变更规范治理3.2 监控埋点治理3.3 服务流量治理3.4 服务容错治理3.5 服务依赖治理四、故障应急流程一、背景伴随公司和业务的快速发展，服务稳定性也越来越重要，特别是对于基础架构或者重要的业务团队，我们的任何服务出现问题，都可能影响到依赖我们的服务，所以我们应该以更高的稳定性要求作为我们的目标。业务发展看似并不一定需要稳定性建设，…
安全运维
- 10
- 0
aqzt25年2月11日
2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 156
- 0
aqzt25年2月11日
系统稳定性建设（11） – 系统总出故障怎么办？稳定性建设是什么？

大家好，我是树哥。说到系统稳定性，不知道大家会想起什么？我想大多数人会觉得这个词挺虚的，不知道系统稳定性指的是什么。一年前的我看到这个词，也是类似于这样的感受，大概只知道要消除单点、做好监控报警，但却并没有一个体系化的方法论。经过一段时间的摸索，我对系统稳定性有了较为体系化的认识，于是迫不及待地希望和大家一起分享。所以今天，就让我跟大家简单聊聊系统稳定性建设这个话题吧！文章目录 Toggl…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 61
- 0
aqzt25年2月11日
系统稳定性建设（7） – 稳定性建设实践总结

2020 年，注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划，同时也催生了一些在线业务办理能力的应用诉求，作为技术同学，需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份，正好梳理总结下自己的系统稳定性建设经验和思考。文章目录 Toggle 开篇一、系统稳定性建设是指什么？二、为什么需要系统稳定性建设？三、系统稳定性建设为什么难？3.1 面对的挑战比较大3.2 系…
安全运维
- 23
- 0
aqzt25年2月11日
稳定性建设 – 架构优化的关键策略

SRE实战中稳定性保障与架构优化的关键策略。讲师首先分析了SRE当前遇到的困境，提出了三个核心策略：采集更丰富的数据、积累更丰富的经验以及从劣化场景中逐步消灭风险。接着，讲师介绍了经验库的概念，它是一种用来积累和产品化经验的模块，具有查打一体的特点，能够实时诊断性能容量问题。通过数据、基因库和量化策略，识别并解决技术风险。案例中，优化部署架构，使用70%的硬件支撑高流量，消除高峰时段超时。另一…
安全运维
- 20
- 0
aqzt25年2月11日
系统稳定性建设（16） – 稳定架构设计思路

系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。容错机制:建立完善的异常处理和容错机制,及时检测并隔…
安全运维
- 12
- 0
aqzt25年2月11日
系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 17
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 96
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 88
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 21
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
安全运维体系建设

安全运维体系建设是一个综合性的过程，涉及多个方面，包括安全体系、业务稳定性、规范标准体系、运维知识体系、运维能力体系、监控体系、资源成本体系、效能体系以及团队建设等。以下是对这些方面的详细阐述：
安全资讯
- 4.2k
- 0
网络收集25年1月9日
IT服务治理 – 唯品会大数据建设思路与实践

诸超 | 唯品会云计算总监文章目录 Toggle 唯品会大数据整体规划数据平台的建设大数据对于技术运营大数据在唯品会特卖模式的业务价值唯品会大数据整体规划大数据无非是数据的收集、计算和存储。整个数据的实时接入，包括各种各样的log，我们的系统把这些东西离线、实时地收集进来。如何规划系统的资源，才能做到高效的调度和利用？这是一大改变期，有了这样一个平台以后，如何做各个数据的分析和计算？不能只…
安全运维
- 11
- 0
aqzt24年12月21日
实践案例 – vivo监控系统这样演进才稳妥

一、业务背景当今时代处在信息大爆发的时代，信息借助互联网的潮流在全球自由的流动，产生了各式各样的平台系统和软件系统，越来越多的业务也会导致系统的复杂性。当核心业务出现了问题影响用户体验，开发人员没有及时发现，发现问题时已经为时已晚，又或者当服务器的CPU持续增高，磁盘空间被打满等，需要运维人员及时发现并处理，这就需要一套有效的监控系统对其进行监控和预警。如何对这些业务和服务器进行监控和维护是…
安全运维
- 10
- 0
aqzt24年12月21日
故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘

复盘，原本是围棋中的一个术语。指下完棋后，重新在棋盘上走一遍，看看棋子下得好的地方和不好之处，哪些地方可以有不同甚至是更好的下棋方法等。这种重复棋局且带有思考的过程，就称为复盘或复局。图源：https://www.piqsels.com 这样做的目的不仅可以找出双方攻守的漏洞，还可以让各自加深印象、总结经验、提高棋艺水平。放在IT人的工作当中，亦是如此。 “在故障中成长，在复盘中强大”，IT…
安全运维
- 14
- 0
aqzt24年12月21日
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理

服务端作为顺风车技术部内最大的工程团队，随着人员的扩张和迭代，流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率，另一方面，我们也希望在一次次的实战中不断的总结，探索出适用于我们团队的最佳实践。基于此，我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范，包括研发流程、稳定性、性能成本等多个方面。本文给出其中稳定性相关的规范，这些规范都是顺风车成立五…
安全运维
- 14
- 0
aqzt24年12月21日
稳定性保障 – 故障应急体系构建及应用实践（2）

本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践，包括业务SRE的定义、应急管理、大促稳定性保障等方面，具体内容如下： 1. 业务SRE定义 – SRE概念：SRE是结合软件工程和IT运维原则，通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色，业务SRE则专注于特定业务系统的可靠性和效率。 – 工作内容：确保业务系统稳定可用，优化性能提升用户体验，定…
安全运维
- 19
- 0
aqzt24年12月21日
系统稳定性保障 – 混沌工程 – 持续保障系统稳定性和高可用：腾讯游戏混沌工程实践

最近一两年，我们可以发现混沌工程这个技术变得十分火热，大家都知道它变成了一个新的风口。常说做事情要顺势而为，我们希望能够抓住这个机会，所以我最近一年的工作主要是将混沌工程这一技术在腾讯游戏落地。文章目录 Toggle 一、什么是混沌工程1、混沌工程的定义2、混沌工程的作用1）故障预防2）故障发现3）故障响应4）故障定位5）故障恢复6）复盘改进二、混沌工程平台建设1、流程设计1）实验前2）实验中3…
安全运维
- 11
- 0
aqzt24年12月21日
经验教训 – 凡是跟金额相关必要从业务角度进行监控，拼XX回应BUG事件回顾

2019-1-20 凌晨一点多，拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料，他作为拼多多的一个程序员，将一个100元的无门槛测试券，设置成了自动上线，并在凌晨一点多上线。这些100元无门槛优惠券，拼多多网站页面告知，可以全场通用（特殊商品除外）。凌晨三点多，已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券，经过一些用户以及不排除大职业“羊毛党”发…
安全运维
- 13
- 0
aqzt24年12月21日
经验教训 – B站崩，如何谋划稳定性保障SRE升级思路？比较全面优化思路

随着B站近几年的快速发展，业务规模越来越大，迭代速度越来越快，系统运行复杂度也越来越高。线上每天都会发生各种各样的故障，且发生的场景越来越刁钻。为了应对这种情况，保障业务在任何时刻都能将稳定性维持在一个高基线之上，B站专门成立了SRE体系团队，在提升业务稳定性领域进行了全方位、体系化的积极探索，从理论性支撑和能力化建设进行着手，从故障应急响应、事件运营、容灾演练、意识形态等多方面进行稳定性运营体系…
安全运维
- 13
- 0
aqzt24年12月21日