-
故障治理 – 线上故障分析与故障治理指引
文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么?-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …- 21
- 0
-
【运维工具】Flink SQL 实践6 flink sql 约会 calcite
文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥?3.2.flink sql 为什么选择 calcite?4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…- 5
- 0
-
PYTHON基础技能 – 使用Python进行异常处理的11个最佳实践
异常处理是编程中不可或缺的一部分,它能够帮助开发者优雅地处理程序运行过程中可能出现的各种错误,从而避免程序崩溃。Python 提供了丰富的异常处理机制,使得开发者可以更灵活地应对不同的异常情况。本文将详细介绍 Python 中异常处理的基本概念与高级用法,包括如何使用 try-except 结构、捕获特定异常、使用 finally 释放资源、抛出自定义异常、同时捕获多种异常、使用 else 块、使…- 1
- 0
-
数字化运营基础技能 – KMeans聚类分析实践案例
K均值聚类既然是聚类嘛,那肯定就用最经典也比较简单的K均值聚类方法。 K-Means算法是一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中。 也是一种聚类分析(cluster analysis)的算法,其主要是来计算数据聚集的算法,主要通过不断地取离聚类中心点最近均值的算法。 原理就不多说了,反正也都是用sklearn的包实现。 导入库 import matplotlib.pypl…- 2
- 0
-
故障复盘 – 复盘工具 5Why法
文章目录 Toggle 5Why法案例1:生产设备突然停机案例2:网络服务器宕机案例3:APP闪退问题 5Why法 5Why法是一种深度追问、寻找问题根本原因的分析方法,通过连续问五个“为什么”,逐步揭示问题的本质。以下是三个应用5Why法进行故障复盘的案例: 案例1:生产设备突然停机 What(什么):生产设备突然停机,无法正常运转。 Why1(为什么):因为电机过热导致自动保护开关跳闸。 Wh…- 11
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 77
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 54
- 0
-
思维认知 – SRE 生产安全意识 之 海恩法则
Heinrich’s Law 被一些BBS领域的专家称为 Behavior-based safety 理论的基石。 海恩法则(hain’s law),是德国飞机涡轮机的发明者帕布斯·海恩提出的一个在航空界关于飞行安全的法则。 1931年,Heinrich 在他的著作《Industrial Accident Prevention, A Scientific Approach》(论科学方法…- 13
- 0
-
阿里云的史诗级故障,缓解了程序员的精神内耗?
在大部分人的认知中,服务器宕机,产品“崩了”这种事故,往往是因为流量太大,短期内访问量达到峰值。 比如微博上明星突然官宣、双十一付尾款的关键时间点…… 双十一当晚,大家还在调侃着“今年服务器没崩溃,纯粹是因为流量比往年惨淡”的时候。没想到第二天,阿里系产品突然接连因“崩了”挂上热搜。 淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克等多个阿里系App出现无法访问或服务异常的情况,简直让人瞠…- 5
- 0
-
实践案例 – 故障治理 阿里电商故障治理和故障演练实践
大家好,今天来的人不少,可见对于故障耿耿于怀的人,不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知,故障治理本身就是一个比较大的话题,几乎涉及到运维、研发、故障运行管理的全部岗位,奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪,相信45分钟绝对连开头都没讲完。今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…- 2
- 0
-
Flink SQL 抖音实时数仓保障及治理实践与优化
文章目录 Toggle 一、实时数仓场景介绍二、实时数仓场景初探三、典型场景实践四、未来规划 一、实时数仓场景介绍 为了数据湖更好的落地,我们在落地之前与业务做了一些深入的沟通,并根据不同业务的特点主要分为了三个场景: 1)场景一典型的业务主要是短视频和直播,它的数据量级一般都比较大,例如大流量的日志数据,其计算周期一般是自然的天、小时或者分钟级别的,实时性的要求一般是五分钟内,主要诉求是批流的复…- 42
- 0
-
【运维工具】Flink SQL 实践10 用 cumulate window 计算累计指标
文章目录 Toggle 1.序篇2.应用场景介绍3.预期的效果4.解决方案介绍4.1.flink 1.13 之前4.2.flink 1.13 及之后4.3.cumulate window 原理解析4.4.cumulate window 怎么解决 tumble window + early-fire 的问题5.总结 1.序篇 源码公众号后台回复1.13.2 cumulate window 的奇妙解析…- 1
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 88
- 0
-
[运维工具]每秒几十亿实时处理,阿里巴巴超大规模 Flink 集群运维揭秘
今天主要讲三块: 第一,阿里 Flink 发展的历史背景,怎么来的,现状规模到底什么样第二,阿里 Flink 运维管控平台第三,阿里 Flink 平台运维技术解决方案 文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案 一、阿里 Flink 集群运维挑战 首先说一下流计算,批计算就是数据集是有限的,每次的计算都可以拿到一样的结果,在…- 3
- 0
-
IT运维管理(活着)与IT运营管理(活得好)定义与区别
最近在一个项目中,用户提出“IT运维管理”感觉范围太窄了,我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢?好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。 文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…- 4
- 0
-
PYTHON基础技能 – Python的10个文件对比与合并高效策略
在日常编程或数据分析工作中,经常需要处理多个文件的对比与合并任务。Python因其强大的文件处理能力和丰富的库支持,成为了处理这类任务的理想选择。下面,我们将逐步探索10种高效的文件对比与合并策略,每一步都配有详细的代码示例和解释。 文章目录 Toggle 1. 基础文件读写2. 文件内容对比3. 基于行的合并4. 去重合并5. CSV文件合并6. 按列合并CSV7. 大文件高效对比8. 文本文件…- 2
- 0
-
系统稳定性保障 – 大厂故障演练思考
引言阿里巴巴经过多年的技术演进,系统工具和架构已经高度垂直化,服务器规模也达到了比较大的体量。当服务规模大于10000台时,小概率的硬件故障每天都会发生。这时如果需要人的干预,系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。 不过这些措施在故障发生时是否真的有效?恢复故障的工具是否实现了容灾?处理问题的人是否熟练?沟通机制是否疏漏?…- 1
- 0
-
故障复盘 – 复盘工具 PREP模型复盘法
文章目录 Toggle PREP模型定义与特征使用PREP复盘法的电商平台问题复盘案例案例1:订单支付失败率高案例2:退货率居高不下案例3:客户投诉处理效率低 PREP模型定义与特征 PREP模型是一种结构化沟通和表述工具,也被广泛应用于问题复盘和决策分析中。PREP代表四个关键步骤: P(Point): 表达观点或问题的核心点,明确你要讨论的主题或需要解决的问题是什么。 R(Reaso…- 4
- 0
-
运维工具 – 异常数据分析 Prophet时序预测实践
研判银行间资金利率走势,对于分析债券市场而言非常重要。Facebook在2017年开源了一个时间序列预测的算法,叫做fbprophet,其功能包括: 为预测设置上下限;设置趋势断点;处理季节性和节假日效应;允许乘法形式的季节性;区间预测;处理异常值;处理非日度数据;模型检测。 我们认为,可以用这个算法,来为银行间资金利率,做出一个基础性的预测。初步探索如下: 文章目录 Toggle 一、安装二、数…- 2
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 19
- 0
-
监控中心 NOC 是什么 ?怎么来?
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。 它的名字有点儿高大上——Alibaba Global Operations Center,阿里巴巴全球运行指挥中心。 GOC从何而来? 要掰扯一下GOC的诞生历程,还得从“远古”的2012年说起。 在2012年及以前,阿…- 12
- 0
-
大模型,方向比速度更重要
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,是因为有人需要鞋,而不是因为鞋匠需要钱。” 国产大模型,再添新劲旅。9月7日,在腾讯一年一度的全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯将迈入“全面拥抱大模型”时代。同时,其自主研发的通用大模型——混元也正式对外发布,揭开了外界猜测已久的腾讯大模型面纱。坦白…- 3
- 0
-
故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘
复盘,原本是围棋中的一个术语。 指下完棋后,重新在棋盘上走一遍,看看棋子下得好的地方和不好之处,哪些地方可以有不同甚至是更好的下棋方法等。这种重复棋局且带有思考的过程,就称为复盘或复局。 图源:https://www.piqsels.com 这样做的目的不仅可以找出双方攻守的漏洞,还可以让各自加深印象、总结经验、提高棋艺水平。 放在IT人的工作当中,亦是如此。 “在故障中成长,在复盘中强大”,IT…- 8
- 0
-
ITIL 服务管理框架,实践成功案例
1. IBM:IBM采用了ITIL框架来改进其IT服务管理流程,提高了服务交付效率和客户满意度。2. 英国政府:英国政府采用ITIL框架来统一和标准化其IT服务管理实践,提高了服务质量和效率。3. 西门子:西门子使用ITIL框架来优化其IT服务管理流程,提高了服务响应时间和问题解决能力。4. 谷歌:谷歌采用ITIL框架来管理其全球范围内的IT服务,确保高可用性和稳定性。5. 微软:微软使用ITIL…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!






















