-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 17
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 16
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 5
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 3
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 40
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 2
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 4
- 0
-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 0
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 5
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 2
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 11
- 0
-
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方说你的系统有问题,但你认为没问题,又无法自证? 这一切都源自于你的系统没有做好监控和告警: 没有监控或者没有一个好的监控,导致你无法快速判断系统是不是健康的;没有告警或者没有一个精准的告警,当系统出问题时不能及时通知到…- 13
- 0
-
监控工具 – 阿里全链路监控系统鹰眼 (监控神器)
最新一代的阿里全链路监控系统鹰眼 3.0,同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,鹰眼 3.0 日均处理万亿级别的分布式调用链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。 注:本文整理自阿里巴巴技术专家周小帆在 ArchSummit…- 48
- 0
-
IT数字化转型 – 华为数字化转型的目标、蓝图和愿景
摘录于“华为数据之道” 一、华为数字化转型愿景 2016年下半年,华为数字化转型规划团队历时3个月,从“5看”方法入手,瞄准公司业务战略,对其进行解读,从中识别出了公司对数字化转型的诉求(见图1)。 图1:业务战略解读及对数字化转型的诉求 数字化转型愿景需与业务战略匹配。比如,规划团队针对“收入增加一倍,人员不显著增长”的目标,明确地将支撑公司业务增长、提升业务效率的要点体现在愿景中。再比如,“多…- 1
- 0
-
【运维工具】Flink SQL 事件时间下数据乱序丢数踩坑
本文分为以下几个部分: 「1.本次踩坑的应用场景」 「2.应用场景中发生的丢数故障分析」 「3.待修复的故障点」 「4.丢数故障解决方案及原理」 「5.总结」 文章目录 Toggle 应用场景丢数故障分析待修复的故障点解决方案以及原理丢数故障解决方案解决方案原理输入数据样例输出数据样例总结学习资料flink 应用场景 应用场景如下: 「flink 任务 A」 以「处理时间」语义做过滤产出…- 2
- 0
-
IT运维管理(活着)与IT运营管理(活得好)定义与区别
最近在一个项目中,用户提出“IT运维管理”感觉范围太窄了,我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢?好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。 文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…- 3
- 0
-
系统稳定性保障 – 1-3-5-10的应急响应中心专业治理宕机
背景 随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保系统100%的可用性,参考墨菲定律,会出错的事总会出错,故障在生产环境中不可避免。为了在故障发生时能够快速定界定位,采取有效措施止损,避免同根因故障重复发生,我们需要对故障全生命周期进行统一管理。 故障应急体系一般包括以下环节,故障预防、故障发现、故障定位、故障恢复、故障复盘及改进,其中故障预防阶段…- 2
- 0
-
实践案例 – 苏宁 AI 监控运维保障建设实践
文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景 建设背景 近些年,苏宁一直基于云技术对外提供服务、产品、内容…- 30
- 0
-
实践案例 – 故障治理 阿里电商故障治理和故障演练实践
大家好,今天来的人不少,可见对于故障耿耿于怀的人,不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知,故障治理本身就是一个比较大的话题,几乎涉及到运维、研发、故障运行管理的全部岗位,奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪,相信45分钟绝对连开头都没讲完。今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…- 1
- 0
-
经验教训 – 网络安全十四条经验教训
2022年,是网络安全市场高速发展的一年,同时也是企业评估安全项目投资有效性,校准和优化安全防御战略和预算的关键时间节点。面对快速迭代的网络威胁,每位CISO都有自己的方法和视角来总结和反思即将过去的2022年,此类经验总结可为未来的战略规划提供宝贵的知识,正如Veracode首席信息安全官Sohail Iqbal所言:“如果企业不打算吸取这些教训并完善其安全实践,那么将面对更加严格的安全审计和第…- 2
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 42
- 0
-
稳定性保障 – 故障应急体系构建及应用实践(2)
本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践,包括业务SRE的定义、应急管理、大促稳定性保障等方面,具体内容如下: 1. 业务SRE定义 – SRE概念:SRE是结合软件工程和IT运维原则,通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色,业务SRE则专注于特定业务系统的可靠性和效率。 – 工作内容:确保业务系统稳定可用,优化性能提升用户体验,定…- 1
- 0
-
故障复盘 – 复盘工具 PREP模型复盘法
文章目录 Toggle PREP模型定义与特征使用PREP复盘法的电商平台问题复盘案例案例1:订单支付失败率高案例2:退货率居高不下案例3:客户投诉处理效率低 PREP模型定义与特征 PREP模型是一种结构化沟通和表述工具,也被广泛应用于问题复盘和决策分析中。PREP代表四个关键步骤: P(Point): 表达观点或问题的核心点,明确你要讨论的主题或需要解决的问题是什么。 R(Reaso…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!