-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 9
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 73
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 58
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 9
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 7
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 6
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 16
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 5
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 19
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 41
- 0
-
运维工具 – 唯品会Dragonfly日志系统的Elasticsearch实践
文章目录 Toggle 开篇-唯品会日志系统初探Elasticsearch简介硬件配置日志索引管理1. 索引预创建2. 替补索引3. Force Merge4. 冷热分离5. 日志归档日志写入降级策略结语 开篇-唯品会日志系统初探 唯品会日志系统,承接了公司上千个应用的日志,提供了日志快速查询、统计、告警等基础服务,是保障公司技术体系正常运行必不可缺的重要系统之一。日均接入应用日志600亿条,压缩…- 62
- 0
-
经验教训 – 2020.11.25 亚马逊云服务事故
source: https://www.reportdoor.com/aws-outage-has-taken-down-a-big-chunk-of-the-internet/ 今天,我们以亚马逊去年的一个事故报告(AWS PES#11201)为例子,聊一聊如何从事故报告中学习。 文章目录 Toggle 读前须知亚马逊云服务事故报告的简要介绍 读前须知 从外部的官方报告中学习,我们需要…- 2
- 0
-
大模型,方向比速度更重要
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,是因为有人需要鞋,而不是因为鞋匠需要钱。” 国产大模型,再添新劲旅。9月7日,在腾讯一年一度的全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯将迈入“全面拥抱大模型”时代。同时,其自主研发的通用大模型——混元也正式对外发布,揭开了外界猜测已久的腾讯大模型面纱。坦白…- 3
- 0
-
排查 K8S 问题的经验和技巧
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。 排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中,可以通过学习和实践来积累经验,并结合官方文档和社区资源进行学习和交流。同时,也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…- 3
- 0
-
ITIL工具 – 中小企业最流行的 8 款轻量级在线 BUG 管理工具
文章目录 Toggle 1、Excel2、PingCode3、Worktile4、Bugzilla5、禅道6、Jira7、ClickUp8、Zoho bug Tracker 1、Excel 过去很多年,国内好一点的团队会用 excel 或者 word 文档来记录和管理缺陷问题。当然,现在依然有团队还在使用这些工具进行 bug 管理。用 excel 或者 word 文档来进行管理的优点是:上手容易,…- 5
- 0
-
IT服务治理 之 发布管理 – 对于研发自测上线项目,测试同学可以做点啥?
在软件研发过程中,不可避免的存在由研发自测后上线的项目。在这种完全由研发同学独立完成开发、测试、发布上线的项目,测试同学可以提前为研发同学做点啥? 我们算法测试团队,提出了四步曲的设想。 第一步:定标准 定标准,即明确可研发自测上线的范围。业界对研发自测的标准非常多,我们建议遵循以下三个维度来制定: 1. 影响面 对核心链路有影响,则测试介入 对公司核心业务有影响,则测试介入 2. 复杂度 涉及复…- 51
- 0
-
CMDB是配置管理库它应该长得怎么样?数据资产体系如何建设?
一、认识数据资产 二、数据治理-方法论 三、CMDB平台建设 四、B站SRE资产平台建设之路 一、认识数据资产 1. 数据资产——企业IT价值 如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。 建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。 运营数…- 52
- 0
-
PYTHON基础技能 – 一键掌握:Python函数声明与调用的20个最佳实践
今天我们要一起探索的是Python世界中的一块基石——函数!想象一下,像魔术师一样,轻轻一挥手,复杂的任务就被封装成简洁的命令,这就是函数的魅力。下面,让我们用最接地气的方式,揭开它的神秘面纱,掌握那些让代码飞起来的20个小技巧。 文章目录 Toggle 1. 基础中的基础:Hello, Function!2. 参数传递:位置VS关键字3. *args 和 **kwargs:无限参数的秘密4. 返…- 2
- 0
-
系统稳定性保障 – 相关能力成熟度模型介绍
保障系统稳定性是现代软件开发中最具挑战性的问题之一,也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行,是我国信息通信行业高质量发展的基石,也是我国数字经济快速发展的必要条件。因此,针对系统稳定安全运行的技术研究和实践推广具有重要意义。 中国信通院自2020年起开始研究稳定性保障工作,建设了“系统稳定性保障系列标准”,并基于此标准体系支持了工信部稳定运行政策文…- 67
- 0
-
入门同学对ITIL管理十大误解
一、ITIL是国外的管理最佳实践不适合中国国情ITIL是IT服务管理领域的最佳实践,是一种IT部门进行日常工作管理的方法论,既然他是一种管理方法就没有地域国情的限制,只要IT部门有管理的动作都可以参考ITIL的相关流程。产生这以误解多半是因为没有领会ITIL对IT管理的精髓,而是停留在简单的流程层面。同样说ITIL 只适合与大型IT组织或公司,适合于管理比较成熟的机构,也是类似的误解,ITIL是I…- 3
- 0
-
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”
雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可能出错的地方就一定会出错。 “24年了,终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具,用来请求 Web 服…- 3
- 0
-
经验教训 – 2021.07.13 B站宕机事故,我们是这样崩的
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 22:55 远程…- 12
- 0
-
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据
文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站 数据准备 清洗的是一份亚马逊黑色星期五电商节的销售数据,数据保存在 Excel 文件中 数据解释 先来看一下表里面的前 10 行数据: 数据示例 以下是每个数据列的含义以及数据范…- 10
- 0
-
故障复盘 – 哈啰出行高质量故障复盘法
一、故障和复盘真的都是坏事吗?提到复盘,大多数人第一时间想到的是线上出了故障,这下又要有人背锅了;或者是为那个可怜的兄弟暗暗担心;也或者是因为跟自己无关,所以松了一口气。那么故障和复盘真的都是坏事吗?我们该如何理解它呢?我从以下三点讲一下我对故障和复盘的理解。 1.1 正视故障发生的必然性 – 有好也有坏在聊复盘之前,先聊下我对线上故障的看法,…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
















