全部标签

负载均衡

系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 8
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 9
- 0
aqzt25年2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 57
- 0
aqzt25年2月11日
2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 68
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 4
- 0
aqzt25年2月11日
经验教训 – 从10次宕机事件中，我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”

今年的灾难事件有几点是比较深刻体会：第 1 课：循环依赖会破坏你的运维工具流程工具与生产工具是结合一起，出问题往往是最不起眼功能环节，就是一棵螺丝钉第 2 课：愚蠢的自动化强依赖于流程工具与自动化工具，应急时缺少了走火通道第 3 课：现在是 2023年，数据库仍然很棘手灾难恢复后最耗时就是数据关系重建，数据完整性、一致性处理第 4 课：分阶段慢慢部署变更需要遵循最小灰度原则第 5 课：为…
安全运维
- 3
- 0
aqzt24年12月21日
IT 故障治理 – 运维救火必备：问题排查与系统优化手册（结合教训现身说法）

软件工程领域存在一个共识：维护代码所花费的时间要远多于写代码。而整个代码维护过程中，最惊心动魄与扣人心弦的部分，莫过于问题排查（Trouble-shooting）了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们，大大小小的问题排查线上救火早已成为家常便饭，一不小心可能就吃成了自助餐 —— 竖着进躺着出，吃不了也兜不住。本文分享作者在服务端问题排查方面的一些经验，…
安全运维
- 3
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践（2）

一、前言之前在《云原生背景下的运维价值思考与实践(上)》里，重点介绍了云原生背景下运维转型的思考，围绕着整个 DevOps 交付链，贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段，通过我们的构建服务稳定性保障实践，利用 SRE 的思想与方法，不断去冲刺稳定性的终极目标：“提升 MTBF（平均故障时间间隔）、降低 MTTR（故障平均修复时间）”，很多小伙伴会有疑问，D…
安全运维
- 17
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 11
- 0
aqzt24年12月21日
数据治理 – XX业务数据分析体系的架构与实践

导读：讲述在业务快速迭代发展过程中，为了让大数据更好地赋能业务，高效的为用户提供有业务价值的数据产品和服务，百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程，包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。全文9911字，预计阅读时间24分钟。文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…
安全运维
- 2
- 0
aqzt24年12月21日
CMDB是配置管理库它应该长得怎么样？数据资产体系如何建设？

一、认识数据资产二、数据治理-方法论三、CMDB平台建设四、B站SRE资产平台建设之路一、认识数据资产 1. 数据资产——企业IT价值如图所示，未进行数据资产化建设时，数据可能呈现离散状态，数据生产和消费不统一，容易出现数据孤岛或零利益的情况。建设数据资产化后，我们整合不同渠道数据，构造统一的数据源，或数据采集、存储、分析的流程链路，进而统一对应的数据结构、数据关系和消费出口。运营数…
安全运维
- 50
- 0
aqzt24年12月21日
SRE 到底是什么

SRE 到底是什么？这是一个最早由 Google 提出的概念，我的理解是，用软件解决运维问题。标准化，自动化，可扩展，高可用是主要的工作内容。这个岗位被提出的时候，想解决的问题是打破开发人员想要快速迭代，与运维人员想要保持稳定，拒绝频繁更新之间的矛盾。 SRE 目前对于招聘来说还是比较困难。一方面，这个岗位需要一定的经验，而应届生一般来说不会有运维复杂软件的经历；另一方面就是很多人依然以为这就是“…
安全运维
- 1
- 0
aqzt24年12月21日
系统稳定性保障 – 大厂故障演练思考

引言阿里巴巴经过多年的技术演进，系统工具和架构已经高度垂直化，服务器规模也达到了比较大的体量。当服务规模大于10000台时，小概率的硬件故障每天都会发生。这时如果需要人的干预，系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计，对下游组件零信任，确保在故障发生时可以快速的发现和处理。不过这些措施在故障发生时是否真的有效？恢复故障的工具是否实现了容灾？处理问题的人是否熟练？沟通机制是否疏漏？…
安全运维
- 2
- 0
aqzt24年12月21日
IT服务治理 – 阿里为什么能抗住90秒100亿？负载均衡架构实践

本文以淘宝作为例子，介绍从一百个并发到千万级并发情况下服务端的架构的演进过程，同时列举出每个演进阶段会遇到的相关技术，让大家对架构的演进有一个整体的认知，文章最后汇总了一些架构设计的原则。基本概念在介绍架构之前，为了避免部分读者对架构设计中的一些概念不了解，下面对几个最基础的概念进行介绍。 1）什么是分布式？系统中的多个模块在不同服务器上部署，即可称为分布式系统，如Tomcat和数据库分别部…
安全运维
- 2
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 5Why法

发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问，发现解决问题的线索，寻找发明思路，进行设计构思，从而搞出新的发明项目，这就叫做5W2H法。（1）WHAT——是什么，目的是什么，做什么工作。（2）WHY——为什么要做，可不可以不做，有没有替代方案。（3）WHO——谁，由谁来做。（4）WHEN——何时，什么时间做，什么时机最适宜。（5）WHERE——何处，在哪里做。（6）HOW ——怎…
安全运维
- 5
- 0
aqzt24年12月21日
IT服务治理 – SRE工具链建设思路与实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 34
- 0
aqzt24年12月21日
故障复盘 – 复盘工具六顶思考帽复盘法

六顶思考帽不是思考者的类型。每个思考者都应该会用所有的帽子。白色思考帽：资料与信息获得客观信息和认识，保证思维尊重事实。红色思考帽：直觉与感情决策时恰当的情感、直觉和预感黄色思考帽：积极与乐观进行统一的、逻辑的、深刻的负面论证。黑色思考帽：逻辑与批判进行统一的、逻辑的、不断的正面探索。绿色思考帽：创新与冒险不断实施出新奇的探索，寻求新的方法。蓝色的思考帽：系统与控…
安全运维
- 3
- 0
aqzt24年12月21日
运维工具 – 唯品会王玉：老司机教你如何调教Presto和ClickHouse，应对业务难题！

导读：大家好，我是来自唯品会实时平台 OLAP 团队的王玉，主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu，这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作，并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。本文主要介绍唯品会 OLAP 的演进，包括 Presto 智能化和容器化实践，以及 Clickhouse 在实验平台海量数据存储和计…
安全运维
- 11
- 0
aqzt24年12月21日
IT服务治理 – 唯品会基于 Clickhouse 存储日志的实践

1、背景唯品会日志系统dragonfly 1.0是基于EFK构建，于2014年服务至今已长达7年，支持物理机日志采集，容器日志采集，特殊分类日志综合采集等，大大方便了全公司日志的存储和查询。随着公司的业务发展，日志应用场景逐渐遇到了一些瓶颈，主要表现在应用数量和打印的日志越来越多，开发需要打印更多日志，定位业务问题，做出运营数据分析；另外外部攻击问题和审计要求，需要更多安全相关的日志数据要上报…
安全运维
- 4
- 0
aqzt24年12月21日
IT服务管理:故障治理 – 运维故障排查处理思路

在讲解事件、故障处理思路前，先讲一个故障场景（以呼叫中心系统作为一例子）：业务人员反映呼叫中心系统运行缓慢，部份电话在自助语言环节系统处理超时，话务转人工座席，人工座席出现爆线情况。运维人员开始忙活了，查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去，但是原因还未定位。经理过来了解情况：“系统恢复了吗？”、“故障影响是什么？”、…
安全运维
- 36
- 0
aqzt24年12月21日
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践

文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…
安全运维
- 9
- 0
aqzt24年12月21日
实践案例 – 告警治理 – 腾讯亿万量级告警是如何做到全、准、快的？

文章目录 Toggle 自我介绍监控的意义监控的手段监控的本质监控系统的目标——全、快、准全链路监控监控的速度统一上报协议准：智能监控海量监控的困扰ROOT智能监控系统降维策略时间相关性分析权重面积分析质量体系：生态构建天网体系天网：质量体系Q&AQ1：主动、被动、旁路，这三种在整个告警量的范围内，比例分别是怎样的？这三路产生的效果分别怎样？Q2：请教一下，报警之后就可以做自愈吗？Q3：有…
安全运维
- 4
- 0
aqzt24年12月21日
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库，宕机10小时

微软 Azure DevOps 是一套应用程序生命周期服务，提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而，就在 5 月 24 日，这个服务在巴西南部区域发生了长达 10 小时的宕机，影响了数千名客户。事后调查发现，竟然是因为一个简单的拼写错误，导致了 17 个生产数据库被误删。事件背景起源于，Azure DevOps 工程师有时需要对生产数据库的快照进行保存，以调查报告的问…
安全运维
- 3
- 0
aqzt24年12月21日
实践案例 – 故障治理阿里电商故障治理和故障演练实践

大家好，今天来的人不少，可见对于故障耿耿于怀的人，不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知，故障治理本身就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的全部岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要还是回归故障发生的本质，故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…
安全运维
- 2
- 0
aqzt24年12月21日