-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 24
- 0
-
2024年 互联网故障盘点,我们能从故障中学到什么?
2024年已过,让我们来盘点今年出现的故障。回顾这一年,我们经历了各种挑战和困难,但也从中学到了许多宝贵的经验。 在面对不确定性时,我们学会了更多灵活地调整策略,每一次解决问题的过程,都是对能力的一次历练。虽然路途不易,所幸我们在变化中成长,塑造更强大的自己,也对未来充满了信心和期待。 2024年发生的宕机事件 谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、…- 36
- 0
-
系统稳定性建设(4) – 稳定性设计原则:简单、冗余、标准化、健壮
作者介绍 淇公 ,蚂蚁金服技术专家。热爱 java 和一些函数式语言,长期关注系统稳定性领域 文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束 一、差旅随想 因为 base 在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样精密复杂的机器的那帮人真的是了不起,他们是怎样保证这…- 3
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 7
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 8
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 2
- 0
-
稳定性建设 – 高可用容灾架构思路
大型分布式系统稳定性建设的重要性与方法。首先,强调了高可用容灾架构的建设,遵循面向故障设计、墨菲定律和自动化原则。接着,介绍了依赖的视角,指出高可用架构中不应存在强依赖。然后,讲解了并发、吞吐和延迟的概念,引入了SRE、DIO和AI OPE的概念。接着,强调了AI的开放思想,指出稳定性保障的对象是用户视角下的功能范畴。最后,提出了五个等级的容灾能力,强调了事前预防的重要性。此外,视频还详细讲解了事…- 2
- 0
-
ITIL是什么?itil 是运维管理最佳实践, 是IT界的MBA
ITIL是什么?IT界的MBA ITIL到底是什么呢?为什么需要它呢?适合哪些人呢?…… 01被称为IT界MBA的ITIL到底是什么?ITIL最早是英国商务部开发的一套面向信息技术日常运维管理的最佳实践,在2000年时ITIL官方在全球大力推广,最终ITIL在运维管理领域一枝独秀,成为全球公认的运维管理最佳实践。 服务战略的原则第一句话:但凡看到有人提价值创造,我脑子里没有别的,就只有这句话。“客…- 1
- 0
-
运维工具 – i基于Centos7+Apache2.4+Mysql5.7+PHP7.3环境安装itop3
https://sourceforge.net/projects/itop/files/itop/3.0.1/ 文章目录 Toggle Centos7安装itop3.o1.关闭防火墙与SELinux2.安装php7.3卸载之前的php安装扩展源“安装php7.3启动php3.安装apache启动httpd4.安装mysql5.7安装扩展源安装mysql查看mysql默认password…- 2
- 0
-
IT服务治理 – SRE工具链建设思路与实践
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据应用技术)。曾荣获:华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作:《python自动化运维:技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…- 23
- 0
-
实践案例 – 苏宁 AI 监控运维保障建设实践
文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景 建设背景 近些年,苏宁一直基于云技术对外提供服务、产品、内容…- 37
- 0
-
实践案例 – vivo监控系统这样演进才稳妥
一、业务背景 当今时代处在信息大爆发的时代,信息借助互联网的潮流在全球自由的流动,产生了各式各样的平台系统和软件系统,越来越多的业务也会导致系统的复杂性。 当核心业务出现了问题影响用户体验,开发人员没有及时发现,发现问题时已经为时已晚,又或者当服务器的CPU持续增高,磁盘空间被打满等,需要运维人员及时发现并处理,这就需要一套有效的监控系统对其进行监控和预警。 如何对这些业务和服务器进行监控和维护是…- 5
- 0
-
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而,就在 5 月 24 日,这个服务在巴西南部区域发生了长达 10 小时的宕机,影响了数千名客户。事后调查发现,竟然是因为一个简单的拼写错误,导致了 17 个生产数据库被误删。 事件背景起源于,Azure DevOps 工程师有时需要对生产数据库的快照进行保存,以调查报告的问…- 2
- 0
-
Python 日常数据分析 – EXCEL实战- 批量拆分列
from pathlib import Path import xlwings as xw import pandas as pd src_folder = Path('文件夹') file_list = list(src_folder.glob('*.xlsx')) app = xw.App(visible=False, add_book=False) f…- 0
- 0
-
人工智能 – 摘录互联网TOP10好用AI办公软件盘点
当今社会,人工智能技术的快速发展正在改变着我们的生活方式。在办公场景中,人工智能技术也被广泛应用。越来越多的AI办公软件涌现出来,为我们提供了更加高效便捷的工作方式。从智能办公到自动化流程,这些AI办公软件正在以惊人的速度改变着我们的办公方式。 在本文中,我们将盘点多款AI办公软件,探索它们的特点和优势,带你领略AI办公的魅力。 本文提及的 AI办公软件列表:ChatGPT、boardmix AI…- 11
- 0
-
Flink SQL – 字节跳动Flink实践与优化
本文由 Apache Flink Committer,字节跳动架构研发工程师李本超分享,以四个章节来介绍 Flink 在字节的应用实战。 内容如下: 整体介绍 实践优化 流批一体 未来规划 一、整体介绍 文章目录 Toggle 2018 年 12 月 Blink 宣布开源,经历了约一年的时间 Flink 1.9 于 2019 年 8 月 22 发布。在 Flink 1.9 发布之前字节跳动内部基于…- 37
- 0
-
Flink SQL – 如何写出简单高效的 Flink SQL实战
一、Flink SQL InsightFlink 作为流批一体计算引擎,给大家提供了统一的 API,统一的算子描述,以及统一的调度。但 Flink 算子的底层仍有一些细微的差别。对于一个批算子而言,它的输入是一个有限数据集。批算子会基于完整数据集进行计算,计算过程中如果内存装不下,数据会 Spill 到磁盘。对于流算子而言,它的输入是一个无限数据集。与批算子不同,流算子不能在收集到所有输入数据之后…- 1
- 0
-
IT服务管理 – ITIL培训- 变更管理规范与原则
70%+生产故障都来源于变更、发布,生产环境离不开它,效率与质量如何平衡就需要流程与工具相结合进行严格管控;有效的业务监控与业务验收能降低60%+故障 变更管理活动 变更管理活动 – 记录变更单 变更管理活动 – 处理人接收 变更管理活动 – 变更定义风险等级 变更管理活动 – 变更审核 变更管理活动 – 变更通知 变更管理活动 R…- 1
- 0
-
【运维工具】Flink SQL 实践10 用 cumulate window 计算累计指标
文章目录 Toggle 1.序篇2.应用场景介绍3.预期的效果4.解决方案介绍4.1.flink 1.13 之前4.2.flink 1.13 及之后4.3.cumulate window 原理解析4.4.cumulate window 怎么解决 tumble window + early-fire 的问题5.总结 1.序篇 源码公众号后台回复1.13.2 cumulate window 的奇妙解析…- 0
- 0
-
【运维工具】Flink SQL 实践5 自定义 protobuf format
文章目录 Toggle 1.序篇-本文结构2.背景篇-为啥需要 protobuf format3.目标篇-protobuf format 预期效果4.难点剖析篇-目前有哪些实现5.实现篇-实现的过程5.1.flink format 工作原理5.2.flink protobuf format 实现6.总结与展望篇6.1.总结6.2.展望 1.序篇-本文结构 protobuf 作为目前各大公…- 0
- 0
-
故障治理 – 稳定性保障6步走:高可用系统大促作战指南!
一、前言 年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。 跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做? 除了口口相传的历史经验,我们还能做些什么?又有什么理论依据? 二、怎样的系统算是稳定? 首先回答另一个问题,怎样的系统算是稳定的? Google SRE中(SR…- 6
- 0
-
经验教训 – 2020.02.23 微盟花23亿买下一个惨痛教训
2月23日晚7点左右,微盟多个小程序显示出现未知错误,多次刷新仍未恢复正常。 基于微盟的商家小程序也都随之宕机,一度无法打开。从23日晚间起,宕机超过24小时,线上生意基本停摆的商家不在少数。 对此,官方一开始回应称设备物理故障,正在紧急抢修和修复。 2月25日,微盟集团(2013.HK)发布关于系统故障的公告,称SaaS(软件即服务)业务数据遭到员工人为破坏,并表示已向上海警方报…- 2
- 0
-
PYTHON基础技能 – 一文搞懂Python局部变量与全局变量的12大陷阱
今天我们要来聊聊一个让人又爱又恨的话题——局部变量与全局变量的八大迷雾。在Python的世界里,变量就像是你的小宠物,有时候它们乖乖听话,但一不小心就给你挖了个大坑!别担心,今天我们就一起把这些陷阱挖出来,填平它,让你的编程之路畅通无阻! 文章目录 Toggle 1. 基础篇:什么是局部和全局变量?2. 修改全局变量的第一坑:你以为你能改?3. 正确修改全局变量:要用global关键字!4. 局部…- 1
- 0
-
PYTHON基础技能 – Python提升工作效率的7个实用秘籍
文章目录 Toggle 秘籍一:自动化文件操作秘籍二:高效的数据处理秘籍三:文本处理利器 —— 正则表达式秘籍四:自动化Excel操作秘籍五:Web自动化爬虫秘籍六:自动化邮件发送 秘籍一:自动化文件操作 处理大量的文件时,手动操作不仅耗时还容易出错。Python可以帮你自动完成这些任务。 示例:批量重命名文件 import osdef rename_files(directo…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


















