-
2023.11.12 阿里云的史诗级故障,故障原因曝光
2023年11月12日,双十一刚过,一大片阿里的产品都挂了,来了一波“史诗级”大翻车。 阿里云断网并不少见,但这种全面崩溃在历史上还是第一次,全国所有数据中心全军覆没,阿里所有产品全军覆没! 阿里云官方的通知是: “2023年11月12日17:44起,阿里云产品控制台访问及API调用出现异常……20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。” 在出问题的这接近两个多小时时…- 15
- 0
-
PYTHON 日常数据分析 – excel实战
excel 文件合并实战 import os,zipfile import pandas as pd zip_files = ['sales_data.zip','traffic_data.zip'] for file in zip_files: fz = zipfile.ZipFile(file) fz.extractall() def read…- 1
- 0
-
监控工具 – 阿里全链路监控系统鹰眼 (监控神器)
最新一代的阿里全链路监控系统鹰眼 3.0,同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,鹰眼 3.0 日均处理万亿级别的分布式调用链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。 注:本文整理自阿里巴巴技术专家周小帆在 ArchSummit…- 62
- 0
-
Flink SQL – 在快手的扩展和实践
Flink SQL 在快手 功能扩展 性能优化 稳定性提升 未来展望 FFA 2021 直播回放 & 演讲 PDF 下载 文章目录 Toggle 一、Flink SQL 在快手二、功能扩展2.1 Group Window Aggregate 扩展2.1.1 支持多维分析2.1.2 引入高阶窗口函数2.2 Window Table-valued Function 扩展2.2.1 丰富 Win…- 4
- 0
-
故障治理 – 了解华为的流程管理系统
前言: 任正非先生一直强调客户、流程与绩效是企业管理中最重要的三件事。事实上,华为导入咨询公司的一个重点就是“流程管理”。在过去的近20年中,华为通过以业务为导向的流程管理体系,大大提升了整体运营效率,取得了举世瞩目的成绩! 华为公司提倡流程化的企业管理方式,任何业务活动都有明确的结构化流程来指导,流程建设把所有人从海量的、低价值的、简单重复的工作中解放出来。 首先,大家要明白流程是通过一系列可重…- 3
- 0
-
-
【运维工具】Flink SQL 实践8 flink sql tumble window 的奇妙解析之路
文章目录 Toggle 1.序篇-本文结构2.目标篇-本文能帮助大家了解 flink sql tumble window 什么?2.1.回顾上节的 flink sql 适用场景的结论3.概念篇-先聊聊常见的窗口聚合3.1.窗口竟然拖慢数据产出?3.2.常用的窗口4.实战篇-简单的 tumble window 案例和运行原理4.1.先看一个 datastream 窗口案例4.2.flink sql …- 7
- 0
-
【运维工具】 – Top 12 IT服务管理(ITSM)工具
IT服务管理已发展成为维持企业运转的关键功能。下述平台可以帮助您跟踪和完善服务工作流程。 很久以前,运行一个IT服务台只需要几台备用台式机、一条电话线和一种糟糕的幽默感。现在,信息化成为企业的支柱,这份工作也随着责任的增加而发展变化。如果持续停电导致部分业务关闭,许多企业将遭受重大打击。当计算机负责处理每个工作流程的每一步时,没有计算机也就意味着无法完成任何工作。这也使得IT服务台成为维持企业运转…- 14
- 0
-
经验教训 – 运维工程师 不得不看的日常经验2,帮你远离故障
确保变更可以回滚佛说:“每次创伤都是一次成熟”。这是运维人员的真实写照。从某种意义上讲,运维是一份不断犯错、不断积累经验的工作。以前没有经历的东西,总是不定期的给你痛击。所以请保护好变更的现场,使得变更有回头的机会。 小心破坏性的操作什么是破坏性的操作?比如:对 Oracle 而言,有truncate table_name,delete table_name,drop table_name。这些语…- 1
- 0
-
经验教训 – 2018.06.27 阿里云回应访问故障:运维操作失误导致 将敬畏每一行代码
阿里云再次对6月27日下午发生的技术问题进行了回应和解释,称“运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能时出现问题,引发大量吐槽”。阿里云表示,“对于故障,没有借口。” 6月27日下午,有网友反映,登陆阿里云控制台时出现异常,部分服务无法正常使用。随后阿里云在官网发布公告称,阿里云的部分产品及账号登陆出现访问异常,截至当天下午17:30大部分受影响的业务已经恢…- 4
- 0
-
PYTHON基础技能 – 12个find()函数在Python中的创意实践
文章目录 Toggle 1. 基础探秘:找呀找,找到第一个!2. 不见不散:找不到也得说一声3. 多次邂逅:第一次不够,再来一次!4. 范围游戏:限定区域,精准打击5. 空白不是障碍:忽略前后空白6. 字符串中的数字侦探7. 切片小技巧:动态查找8. 分隔符的盛宴:找分隔符的间隔9. 替换前的侦查:统计出现次数10. 链接的智慧:多个条件串联查找11. 特殊字符也爱找:转义字符的使用12. 省略号…- 0
- 0
-
IT运维管理(活着)与IT运营管理(活得好)定义与区别
最近在一个项目中,用户提出“IT运维管理”感觉范围太窄了,我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢?好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。 文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…- 4
- 0
-
PYTHON基础技能 – Python高手不可不知的12个文件处理窍门
文章目录 Toggle 引言1. 打开文件的基础方法2. 使用 with 语句自动管理文件3. 逐行读取文件4. 写入文件5. 追加内容到文件6. 读取二进制文件7. 使用 os 模块检查文件是否存在8. 重命名文件9. 删除文件10. 列出目录下的所有文件11. 处理 CSV 文件读取 CSV 文件写入 CSV 文件12. 使用 pandas 处理 CSV 文件读取 CSV 文件写入 CSV 文…- 1
- 0
-
数字化运营基础技能 – SQL 数据分析常用语句
01 基础查询 02 字符串\数字\日期时间 03 聚合数据查询 04 子查询 05 联接\组合查询 06 高级查询 07 更新数据 SQL函数大全,分类清晰,绝对值得收藏,想不起来用什么函数看它就没错了! 不多废话,直接上干货。 1、聚合函数 2、数字函数 3、字符串函数 4、日期函数 5、转换函数 6、系统函数 7、条件函数 8、加密函数 根据我的理解,SQL函数可以划分成上述的8个类别,接下…- 1
- 0
-
系统稳定性保障 – 相关能力成熟度模型介绍
保障系统稳定性是现代软件开发中最具挑战性的问题之一,也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行,是我国信息通信行业高质量发展的基石,也是我国数字经济快速发展的必要条件。因此,针对系统稳定安全运行的技术研究和实践推广具有重要意义。 中国信通院自2020年起开始研究稳定性保障工作,建设了“系统稳定性保障系列标准”,并基于此标准体系支持了工信部稳定运行政策文…- 41
- 0
-
故障复盘 – 复盘工具 德尔菲法(Delphi Method)复盘法
文章目录 Toggle 德尔菲法(Delphi Method)模型定义与特征使用德尔菲复盘法的问题复盘案例案例1:用户体验优化案例2:产品推荐算法优化案例3:物流配送问题 德尔菲法(Delphi Method)模型定义与特征 德尔菲法是一种基于专家匿名调查和反馈的决策支持技术,由一组专家通过多轮匿名沟通,逐步收敛对某一问题的理解和预测,最终达成较为一致的意见。其主要特征包括: 匿名性:专家们互不知…- 0
- 0
-
实践经验 – 琼尼 / 拉姆斯22条原则
设计原则是从大量设计实践中总结出来的相同规律,这些相同的规律来自于设计的实践,同时也是衡量设计的基本准则。设计前辈们将这些设计规律进行整合,传播最广的是麦德华·考夫曼·琼尼提出的“关于设计的12条原则”和当代设计大师迪特·拉姆斯提出的“好的设计有10个原则”。 无论是设计还是产品开发核心都是为了解决实际需要出发 琼尼12条原则 Qiongni 12tiao yuanze 拉姆斯10条原则 Lamu…- 0
- 0
-
IT服务治理 – 腾讯运维的 AI 实践思路指引
讲师简介 张戎 机器学习研究员社交网络运营部 我是一个做机器学习的人,目前接触运维的时间并不长,大约半年左右。 主要做社交网络的运维、监控和异常检测方面的工作。本文将按照下面四大块内容分享。 1. 时间序列异常检测 监控领域做运维,最基础的是时间序列的异常检测。如果是基于机器学习的智能运维,主要分三个场景: 第一步是发现问题,如果我们无法发现问题就无法定位问题、甚至解决问题。 既然提到发现问题,最…- 2
- 0
-
经验教训 – 2020.11.25 亚马逊云服务事故
source: https://www.reportdoor.com/aws-outage-has-taken-down-a-big-chunk-of-the-internet/ 今天,我们以亚马逊去年的一个事故报告(AWS PES#11201)为例子,聊一聊如何从事故报告中学习。 文章目录 Toggle 读前须知亚马逊云服务事故报告的简要介绍 读前须知 从外部的官方报告中学习,我们需要…- 2
- 0
-
经验教训 – 生产环境血的教训最佳实践
SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原则,有助于降低生产影响 教训2:变更实施 – 生产回滚异常要马上处理,保持服务器的生产服务状态 教训3:变更验证 – 灰度期间必须确认监控/告警后才能继续下一批,避免事件产生影响更大 教训4:变更验证 – 变更完成需从业务维度进行验收 教训5:…- 2
- 0
-
最佳实践 – 技术如何从小白到管理,怎么支撑业务快速发展?
一、背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队,快速拿出成果,支撑业务的快速发展。 二、痛点 从小团队人员快速扩张,团队文化稀释,人员效能下降,目标逐渐弱化。 各自团队管理方式及标准不统一,人员管理及协同逐渐混乱。 组织扩大后,难以有效关注个人,无法准确评判个人的成长,贡献等。 三、目标 通…- 2
- 0
-
运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业…- 10
- 0
-
实践案例 – 故障治理 阿里电商故障治理和故障演练实践
大家好,今天来的人不少,可见对于故障耿耿于怀的人,不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知,故障治理本身就是一个比较大的话题,几乎涉及到运维、研发、故障运行管理的全部岗位,奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪,相信45分钟绝对连开头都没讲完。今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



















