-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 11
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 17
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 16
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 5
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 3
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 39
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 2
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 4
- 0
-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 0
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 5
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 2
- 0
-
运维工具 – 快手基于 Flink 构建实时数仓场景化实践(监控实施思路)
本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快手基于 Flink 构建实时数仓场景化实践》,内容包括: 快手实时计算场景快手实时数仓架构及保障措施快手场景问题及解决方案未来规划 GitHub 地址https://github.com/apache/flink欢迎大家给 Flink 点赞送 star~ 文章目录 Toggle 一、快手实时计算场景…- 2
- 0
-
运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业…- 4
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 2
- 0
-
【运维工具】 Flink SQL 使用 union 代替 join、cogroup 经验
文章目录 Toggle 需求场景分析需求场景source 输入以及特点sink 输出以及特点source、sink 样例数据实现方案cogroup上述实现可能会存在的问题点逆推链路union总结 需求场景分析 需求场景 需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至…- 0
- 0
-
混沌工程与SRE的结合(中国移动)
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混…- 2
- 0
-
可观测性(Observability)- 事件日志
日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能,然而也很少人会把日志作为多么关键功能来看待。日志就像阳光与空气,无可或缺却不太被重视。程序员们会说日志简单,其实这是在说“打印日志”这个操作简单,打印日志的目的是为了日后从中得到有价值的信息,而今天只要稍微复杂点的系统,尤其是复杂的分布式系统,就很难只依靠 tail、grep、awk 来从日志中挖掘信息了,往往还要有…- 3
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 24
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 2
- 0
-
IT服务管理 – ITIL培训- ITIL是什么?为什么要学习ITIL
IT管理 层次与定位 面向服务管理: 我们的解决方案 IT服务管理 ITSM 核心思想 IT服务管理范围 像制造产品一样生产服务 如何实现IT服务管理 IT流程模型 IT发展趋势 ITIL目标 为什么学习ITIL? ITIL可以解决以下痛点 ITIL 应用范围 https://www.doc88.com/p-307881566406.html?s=rel&id=6 https://www.…- 0
- 0
-
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理
服务端作为顺风车技术部内最大的工程团队,随着人员的扩张和迭代,流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率,另一方面,我们也希望在一次次的实战中不断的总结,探索出适用于我们团队的最佳实践。 基于此,我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范,包括研发流程、稳定性、性能成本等多个方面。 本文给出其中稳定性相关的规范,这些规范都是顺风车成立五…- 5
- 0
-
【运维工具】Flink SQL 实践6 flink sql 约会 calcite
文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥?3.2.flink sql 为什么选择 calcite?4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…- 5
- 0
-
可观测性(Observability) – 三要素日志、追踪、度量
随着分布式架构渐成主流,可观测性(Observability)一词也日益频繁地被人提起。最初,它与可控制性(Controllability)一起,是由匈牙利数学家 Rudolf E. Kálmán 针对线性动态控制系统提出的一组对偶属性,原本的含义是“可以由其外部输出推断其内部状态的程度”。 在学术界,虽然“可观测性”这个名词是近几年才从控制理论中借用的舶来概念,不过其内容实际在计算机科学中已有多…- 4
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!