-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 2
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 22
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 4
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 2
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 1
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 1
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 6
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 7
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 9
- 0
-
运维工具 – Flink 运行架构学习
文章目录 Toggle 一、Flink运行时各个组件介绍作业管理器(JobManager)资源管理器(ResourceManager)任务管理器(TaskManager)分发器(Dispatcher)二、Flink任务提交的流程一般的交互协作图:具体到Yarn上的交互图三、Flink任务调度原理更具体实践 。。。1.数据流图(Dataflow Graph)2. 并行度3. 算子链4. 作业图与执行…- 1
- 0
-
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践
文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…- 5
- 0
-
最佳实践 – 技术如何从小白到管理,怎么支撑业务快速发展?
一、背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队,快速拿出成果,支撑业务的快速发展。 二、痛点 从小团队人员快速扩张,团队文化稀释,人员效能下降,目标逐渐弱化。 各自团队管理方式及标准不统一,人员管理及协同逐渐混乱。 组织扩大后,难以有效关注个人,无法准确评判个人的成长,贡献等。 三、目标 通…- 2
- 0
-
故障复盘 – 故障复盘哪三大关键问题?
这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障复盘的三大关键问题: 怎么有效降低故障的影响? 事故处理的流程和原则有哪些? 相关管理制度怎么设置比较合理? 故障复盘的四大注意项: 1.事故复盘不是给人定责的,要有系统思维将优化项实际落地才能推动系统优化; 2.事故报告的重点应该是事故提升项,监控、定位、根因、架构四个部分都必须涉及; 3.事…- 1
- 0
-
【运维工具】Flink SQL 实践9 window tvf tumble window 的奇思妙解
Flink 1.13 是一个社区大版本,解决的 issue 在 1000 个以上,通过上图我们可以看到,解决的问题大部分是关于 Table/SQL 模块,一共 400 多个 issue 占了总体的 37% 左右。这些 issue 主要围绕了 5 个 FLIP 展开,在本文中我们也会根据这 5 个方面进行介绍,它们分别是: img 下面我们对这些 FLIP 进行详细解读。 文章目录 Toggle 二…- 10
- 0
-
经验教训 – 2012.08.01 兵败DevOps!一个Bug损失4.6亿美金,不得不看的惨痛教训!
缺乏最佳实践的 DevOps,会给你的企业带来缓慢的发布周期,甚至是灾难性的错误。本文向你介绍一些能够充分使用 DevOps 的小技巧。 本文会分享一些有趣的 DevOps 原则,并通过应用展示它们给高效的项目交付与转化所带来的好处。 这里所提及的概念都源于 John Willis,他有着丰富的 IT 管理经验,同时也是 DevOps 运动的最初倡导者。 当一个组织考虑去实践 DevOps 的时候…- 0
- 0
-
PYTHON基础技能 – 用foreach风格遍历的8个高效Python技巧
今天,我们要一起探索那些让遍历数据变得既高效又优雅的秘密武器。想象一下,像高手一样滑动你的指尖,数据就乖乖排队展示,这就是Python的魔力!下面,让我们用foreach的思维方式,深入Python的五个神奇技巧,让你的代码不仅跑得快,还要美如画。 文章目录 Toggle 1. 列表推导式:简洁之美2. 生成器表达式:内存友好大使3. enumerate:编号神器4. zip:并行漫步5. ite…- 1
- 0
-
PYTHON基础技能 – Python增强办公效率的11个实用代码段
文章目录 Toggle 引言1. 快速生成批量文件夹2. 批量重命名文件3. Excel 数据处理4. PDF 文档合并5. 文本内容替换6. 发送邮件自动化7. 数据可视化8. Excel 数据批量处理9. 自动化生成报告10. 文件压缩与解压11. 实战案例:自动化数据处理与报告生成总结 引言 在日常工作中,许多任务可以通过编程自动化来提高效率。本文将介绍一些实用的 Python 脚本,用于批…- 0
- 0
-
系统稳定性保障 – 微服务架构下如何做好故障演练
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有效反应,系统的可用性将极大地降低。 文章目录 Toggle 什么是故障演练为什么需要故障演练故障演练的目标故障演练的基本流程云原生、微服务架构场景下故障模拟的挑战云原生、微服务场景下的故障演练工具如何进行故障演练演练前 | 确认演练对象与目标演练前 | 准备演练环境演练前 | 制定故障应对策略演练前…- 3
- 0
-
2023已过,如何通过复盘获得提升?复盘六大工具
带领团队把任务完成,并不是完结,还缺少一个容易被忽略的环节——复盘总结。复盘是来自围棋领域的一个术语,是指一盘棋结束后,棋手复原整个棋局的全过程,反思自己和对方下棋的思路,思考下次对弈的策略。这种方法同样适用于管理,例如联想集团很早就已把复盘作为一个重要的管理方法论,强调及时对工作进行总结,从而做出优化和改进。 管理者带领团队进行的复盘可以分为两类: 一类是仪式感比较强的专项复盘,例如战…- 1
- 0
-
运维工具 – 唯品会Dragonfly日志系统的Elasticsearch实践
文章目录 Toggle 开篇-唯品会日志系统初探Elasticsearch简介硬件配置日志索引管理1. 索引预创建2. 替补索引3. Force Merge4. 冷热分离5. 日志归档日志写入降级策略结语 开篇-唯品会日志系统初探 唯品会日志系统,承接了公司上千个应用的日志,提供了日志快速查询、统计、告警等基础服务,是保障公司技术体系正常运行必不可缺的重要系统之一。日均接入应用日志600亿条,压缩…- 4
- 0
-
经验教训 – 2020.11.25 亚马逊云服务事故
source: https://www.reportdoor.com/aws-outage-has-taken-down-a-big-chunk-of-the-internet/ 今天,我们以亚马逊去年的一个事故报告(AWS PES#11201)为例子,聊一聊如何从事故报告中学习。 文章目录 Toggle 读前须知亚马逊云服务事故报告的简要介绍 读前须知 从外部的官方报告中学习,我们需要…- 1
- 0
-
大模型,方向比速度更重要
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,是因为有人需要鞋,而不是因为鞋匠需要钱。” 国产大模型,再添新劲旅。9月7日,在腾讯一年一度的全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯将迈入“全面拥抱大模型”时代。同时,其自主研发的通用大模型——混元也正式对外发布,揭开了外界猜测已久的腾讯大模型面纱。坦白…- 2
- 0
-
排查 K8S 问题的经验和技巧
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。 排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中,可以通过学习和实践来积累经验,并结合官方文档和社区资源进行学习和交流。同时,也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!