-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 5
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 41
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 22
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 8
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 4
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 5
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 17
- 0
-
稳定性建设 – 高可用容灾架构思路
大型分布式系统稳定性建设的重要性与方法。首先,强调了高可用容灾架构的建设,遵循面向故障设计、墨菲定律和自动化原则。接着,介绍了依赖的视角,指出高可用架构中不应存在强依赖。然后,讲解了并发、吞吐和延迟的概念,引入了SRE、DIO和AI OPE的概念。接着,强调了AI的开放思想,指出稳定性保障的对象是用户视角下的功能范畴。最后,提出了五个等级的容灾能力,强调了事前预防的重要性。此外,视频还详细讲解了事…- 2
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 17
- 0
-
系统稳定性建设(16) – 稳定架构设计思路
系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。 监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。 容错机制:建立完善的异常处理和容错机制,及时检测并隔…- 1
- 0
-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 6
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 25
- 0
-
SRE实战手册 – 技能宝典
先聊一聊SRE的工作职责,聊一下我所理解的SRE的核心目标;初步看一下稳定性建设的工作范畴,看一看从宏观上如何划分我们的工作内容;然后我们由此进入今天的主题:故障管理,我将按照我的理解对故障管理进行拆解和分析;再后面,围绕故障管理,我们深入聊一下SRE的体系建设,如何通过体系建设来更好地做故障管理;最后我们再简单做下对未来的展望,共同畅想一下SRE工作的未来。 文章目录 Toggle 一、SRE的…- 9
- 0
-
故障复盘 – 故障复盘哪三大关键问题?
这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障复盘的三大关键问题: 怎么有效降低故障的影响? 事故处理的流程和原则有哪些? 相关管理制度怎么设置比较合理? 故障复盘的四大注意项: 1.事故复盘不是给人定责的,要有系统思维将优化项实际落地才能推动系统优化; 2.事故报告的重点应该是事故提升项,监控、定位、根因、架构四个部分都必须涉及; 3.事…- 2
- 0
-
【运维工具】flink sql 实践思路案例
文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT:实时 & 离线公共画像维表?概念区别离线公共画像维表实时公共画像维表WHY:为什么建设实时公共画像维表?直播间画像维表主播 & 观众用户画像维表HOW + WHO:怎样建设?用什么建设?直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…- 2
- 0
-
CMDB是配置管理库它应该长得怎么样?数据资产体系如何建设?
一、认识数据资产 二、数据治理-方法论 三、CMDB平台建设 四、B站SRE资产平台建设之路 一、认识数据资产 1. 数据资产——企业IT价值 如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。 建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。 运营数…- 28
- 0
-
经验教训 – 24年史上最大规模宕机事件的10个重要教训
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了一场全球危机,导致全球安装有Windows系统计算机出现大规模的蓝屏死机(blue screen of death,即BSOD),结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃,直接影响了数百万用户,成为历史上最大的 IT 故障。初步统计,宕机事件给财富 500 强企业造成高达 54 亿美元的损…- 2
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 7
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 32
- 0
-
运维稳定性 – 虎牙APM可观测平台建设实践
随着虎牙业务量的大规模增长,分布式应用服务架构日益复杂,排障定位变得越来越困难,原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台,结合虎牙直播业务特性,也紧靠业界标准做了高度自研扩展,帮助研发和运维提高工作效率,保障线上应用服务稳定运行。 本次分享将通过以下几个部分来介绍整体思路和实践过程: 分享概要 一、项目背景 – 从当时痛点来思考关键切入点 二、方案实践 …- 1
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 42
- 0
-
混沌工程与SRE的结合(中国移动)
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混…- 2
- 0
-
系统稳定性保障 – 哪儿网故障演练实践经验
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的开发。今天的分享主要分为以下三个部分: 一、背景&价值 如图所示,左边是近期发生的一件影响较大的事故:Facebook服务宕机。持续时长约7小时,造成了次日超过60亿美金的市值下跌,损失数额巨大。右边所展示的则是我们公司中某个业务线的服务调用关系。可以看到,整个链路非常复杂,如果其中某个链路…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!