-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 1
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 6
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 4
- 0
-
系统稳定性建设(11) – 系统总出故障怎么办?稳定性建设是什么?
大家好,我是树哥。 说到系统稳定性,不知道大家会想起什么?我想大多数人会觉得这个词挺虚的,不知道系统稳定性指的是什么。 一年前的我看到这个词,也是类似于这样的感受,大概只知道要消除单点、做好监控报警,但却并没有一个体系化的方法论。 经过一段时间的摸索,我对系统稳定性有了较为体系化的认识,于是迫不及待地希望和大家一起分享。所以今天,就让我跟大家简单聊聊系统稳定性建设这个话题吧! 文章目录 Toggl…- 6
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 6
- 0
-
系统稳定性保障 – 微服务架构下如何做好故障演练
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有效反应,系统的可用性将极大地降低。 文章目录 Toggle 什么是故障演练为什么需要故障演练故障演练的目标故障演练的基本流程云原生、微服务架构场景下故障模拟的挑战云原生、微服务场景下的故障演练工具如何进行故障演练演练前 | 确认演练对象与目标演练前 | 准备演练环境演练前 | 制定故障应对策略演练前…- 3
- 0
-
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。 同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。 滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部…- 1
- 0
-
系统稳定性保障 – 相关能力成熟度模型介绍
保障系统稳定性是现代软件开发中最具挑战性的问题之一,也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行,是我国信息通信行业高质量发展的基石,也是我国数字经济快速发展的必要条件。因此,针对系统稳定安全运行的技术研究和实践推广具有重要意义。 中国信通院自2020年起开始研究稳定性保障工作,建设了“系统稳定性保障系列标准”,并基于此标准体系支持了工信部稳定运行政策文…- 1
- 0
-
经验教训 – Google 20年的11条运维经验教训
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠…- 1
- 0
-
故障复盘 – 复盘工具 Fishbone Diagram(鱼骨图法/因果分析图)
鱼骨图分析法,也称为因果图或Ishikawa图,是一种结构化的问题分析方法,用于识别问题的根本原因。它广泛应用于质量管理和其他领域,特别是在发现和解决问题的根本原因方面非常有效。鱼骨图通常包括以下几个方面:人(人员)、机(设备)、料(材料)、法(方法)、环(环境)。这些要素可以进一步细分为更小的部分,以揭示问题背后的复杂性。鱼骨图的绘制过程包括以下几个步骤:确定问题:选择要分析的问题,将其写…- 8
- 0
-
故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘
复盘,原本是围棋中的一个术语。 指下完棋后,重新在棋盘上走一遍,看看棋子下得好的地方和不好之处,哪些地方可以有不同甚至是更好的下棋方法等。这种重复棋局且带有思考的过程,就称为复盘或复局。 图源:https://www.piqsels.com 这样做的目的不仅可以找出双方攻守的漏洞,还可以让各自加深印象、总结经验、提高棋艺水平。 放在IT人的工作当中,亦是如此。 “在故障中成长,在复盘中强大”,IT…- 4
- 0
-
故障复盘 – 故障复盘哪三大关键问题?
这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障复盘的三大关键问题: 怎么有效降低故障的影响? 事故处理的流程和原则有哪些? 相关管理制度怎么设置比较合理? 故障复盘的四大注意项: 1.事故复盘不是给人定责的,要有系统思维将优化项实际落地才能推动系统优化; 2.事故报告的重点应该是事故提升项,监控、定位、根因、架构四个部分都必须涉及; 3.事…- 1
- 0
-
Flink SQL – 在快手的扩展和实践
Flink SQL 在快手 功能扩展 性能优化 稳定性提升 未来展望 FFA 2021 直播回放 & 演讲 PDF 下载 文章目录 Toggle 一、Flink SQL 在快手二、功能扩展2.1 Group Window Aggregate 扩展2.1.1 支持多维分析2.1.2 引入高阶窗口函数2.2 Window Table-valued Function 扩展2.2.1 丰富 Win…- 2
- 0
-
运维生产故障有哪些?运维常见问题最佳实践
运维生产故障是指在运维过程中出现的各种问题和故障,可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类,下面是一些常见的运维生产故障分类和其常见类型: 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括:– 服务器故障:例如硬盘故障、内存故障等。– 网络设备故障:例如…- 2
- 0
-
经验教训 – 网络安全十四条经验教训
2022年,是网络安全市场高速发展的一年,同时也是企业评估安全项目投资有效性,校准和优化安全防御战略和预算的关键时间节点。面对快速迭代的网络威胁,每位CISO都有自己的方法和视角来总结和反思即将过去的2022年,此类经验总结可为未来的战略规划提供宝贵的知识,正如Veracode首席信息安全官Sohail Iqbal所言:“如果企业不打算吸取这些教训并完善其安全实践,那么将面对更加严格的安全审计和第…- 2
- 0
-
故障治理 – 稳定性保障6步走:高可用系统大促作战指南!
一、前言 年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。 跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做? 除了口口相传的历史经验,我们还能做些什么?又有什么理论依据? 二、怎样的系统算是稳定? 首先回答另一个问题,怎样的系统算是稳定的? Google SRE中(SR…- 4
- 0
-
2015.5·27支付宝大规模宕机事故反思学习
事故背景支付宝拥有超过4万亿年交易总额,是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。2014年年11月,就有用户反映,支付宝钱包目前无法转账和提现,当用户使用这两项功能时会提示出现未知错误或创建交易失败,该问题在移动客户端以及电脑网页端均存在。 事故经过2015年5月27日下午4点半左右,陆续有多个地区网友反映,支付宝出现网络故障,账号无法登录或转账。打开余额宝后,不能显示余额…- 5
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 1
- 0
-
2015.05.28 事件回顾,深入解析和反思携程宕机事件
携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈网友的看法 携程微博:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面…- 3
- 0
-
经验教训 – 网络安全经验经验,帮你降低损失风险
对于很多首席信息安全官来说,即将到来的2023年是一个很好的时机,可以反思他们在2022年里学到的经验和教训,以及如何将它们应用到未来。 动荡的2022年即将结束,在这一年,埃隆·马斯克收购了Twitter,俄乌冲突,许多员工重返办公室。人们还看到,一些安全主管因隐瞒数据泄露而被判入狱。 这些事件以及更多事件改变了业务格局,迫使首席信息安全官在不确定领域前行。Trustwave公司的首席信息官Ko…- 2
- 0
-
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”
雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可能出错的地方就一定会出错。 “24年了,终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具,用来请求 Web 服…- 2
- 0
-
IT运维最佳实践 – 一线游戏运维心得(同行经验)
自2015年开始从事游戏行业一线运维工作,至今(2022)已经近7年。 网易游戏:2015.04 ~ 2021.04灵犀互娱:2021.04 至今 文章目录 Toggle 背景1、运维人员的定位运维叫什么?PE?SRE?什么是SRE?什么是可用率?可用率到底要达到几个9?不同人眼中的运维项目组对运维的核心诉求技术要专,还是广?运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地?忙不过…- 1
- 0
-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
-
经验教训 – 2020.02.23 微盟花23亿买下一个惨痛教训
2月23日晚7点左右,微盟多个小程序显示出现未知错误,多次刷新仍未恢复正常。 基于微盟的商家小程序也都随之宕机,一度无法打开。从23日晚间起,宕机超过24小时,线上生意基本停摆的商家不在少数。 对此,官方一开始回应称设备物理故障,正在紧急抢修和修复。 2月25日,微盟集团(2013.HK)发布关于系统故障的公告,称SaaS(软件即服务)业务数据遭到员工人为破坏,并表示已向上海警方报…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!