-
系统稳定性建设(4) – 稳定性设计原则:简单、冗余、标准化、健壮
作者介绍 淇公 ,蚂蚁金服技术专家。热爱 java 和一些函数式语言,长期关注系统稳定性领域 文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束 一、差旅随想 因为 base 在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样精密复杂的机器的那帮人真的是了不起,他们是怎样保证这…- 3
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 7
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 8
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 2
- 0
-
稳定性建设 – 高可用容灾架构思路
大型分布式系统稳定性建设的重要性与方法。首先,强调了高可用容灾架构的建设,遵循面向故障设计、墨菲定律和自动化原则。接着,介绍了依赖的视角,指出高可用架构中不应存在强依赖。然后,讲解了并发、吞吐和延迟的概念,引入了SRE、DIO和AI OPE的概念。接着,强调了AI的开放思想,指出稳定性保障的对象是用户视角下的功能范畴。最后,提出了五个等级的容灾能力,强调了事前预防的重要性。此外,视频还详细讲解了事…- 2
- 0
-
系统稳定性建设(2) – 架构治理思路
一、稳定性建设是什么什么是稳定性?引用百度百科的解释是:系统稳定性是指系统要素在外界影响下表现出的某种稳定状态。简单理解,系统稳定性本质上是系统的确定性应答。从另一个角度解释,系统稳定性建设就是如何保障系统能够满足 SLA 所要求的服务等级协议。二、稳定性建设调研调研总结: 核心思路:按照时间顺序,围绕事前降低事故风险、事中提升发现能力、事后强化应急能力。核心手段:核心场景梳理。梳理核心场景强弱依…- 6
- 0
-
系统稳定性建设(11) – 系统总出故障怎么办?稳定性建设是什么?
大家好,我是树哥。 说到系统稳定性,不知道大家会想起什么?我想大多数人会觉得这个词挺虚的,不知道系统稳定性指的是什么。 一年前的我看到这个词,也是类似于这样的感受,大概只知道要消除单点、做好监控报警,但却并没有一个体系化的方法论。 经过一段时间的摸索,我对系统稳定性有了较为体系化的认识,于是迫不及待地希望和大家一起分享。所以今天,就让我跟大家简单聊聊系统稳定性建设这个话题吧! 文章目录 Toggl…- 6
- 0
-
中国数据智能产业研究
技能收集: 毕业设计 基于网络爬虫的新闻采集和订阅系统的设计与实现 https://github.com/BillBillBillBill/NewsCrawler 基于LSTM网络与自注意力机制对中文评论进行细粒度情感分析 https://github.com/viewlei/fsauor2018 基于Python的南京二手房数据采集及可视化分析 https://github.com/zqm23…- 7
- 0
-
IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验
大伟,携程软件技术专家,关注企业级监控、日志、可观测性领域。 监控领域有三大块,分别是 Metrics,Tracing,Logging。这三者作为 IT 可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。 Logs:我们对于 Logs 是更加宽泛的定义,即记录事物变化的载体,包括常见的访问日志、交易日志、内核日志等文本型以及 GPS、音视频等泛型数据。日志在调用链场景结构化后…- 2
- 0
-
IT服务治理 – 唯品会实现电商平台从业务到架构的治理体系
文章目录 Toggle VIP不同阶段发展历程的商业模式演进唯品会系统架构演变历程电商运营平台关键设计架构设计和治理 VIP不同阶段发展历程的商业模式演进 唯品会在2008年12月创立,一直到2012年,唯品会在做的主要事件就是尾货的抛售,做线上的outlets商家。这种商业模式就是帮别人消化库存,但是这个库存消化完了,现在特卖,公司的重点在发生变化。目前电商被分为了分成了两类,一是平台级公司,包…- 6
- 0
-
实践案例 – 美团点评实时计算平台的 Flink 监控与告警实践
文章目录 Toggle 为什么我们关注指标监控指标:衡量和描述对象的方式监控:对指标进行监测和控制1. 监控报警的链路1.1 监控报警链路1.2 指标展示:Grafana2. 常用的监控项2.1 常用的指标■ 系统指标■ 自定义指标2.2 如何确定哪些指标需要关注?3. 指标的聚合方式4. 指标监控的应用4.1 作业异常报警4.2 指标大盘4.3 自动化运维Q&A 为什么我们关注指标监控 …- 2
- 0
-
思维认知 – SRE 生产安全意识 之 海恩法则
Heinrich’s Law 被一些BBS领域的专家称为 Behavior-based safety 理论的基石。 海恩法则(hain’s law),是德国飞机涡轮机的发明者帕布斯·海恩提出的一个在航空界关于飞行安全的法则。 1931年,Heinrich 在他的著作《Industrial Accident Prevention, A Scientific Approach》(论科学方法…- 4
- 0
-
经验教训 – Google 20年的11条运维经验教训
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠…- 2
- 0
-
Python 日常数据分析 – EXCEL实战- 一个工作表合并为多个
from pathlib import Path import xlwings as xw src_file = Path('文件.xlsx') des_folder = Path('目录') if not des_folder.exists(): des_folder.mkdir(parents=True) app = xw.App(visible=Fal…- 0
- 0
-
Flink SQL – 问题剖析及解决实践
文章目录 Toggle 1.简介2.Flink基本概念2.1 流(Stream)2.2 状态(State)2.3 时间语义(Time)2.4 Watermark2.5 API层3.Flink实时计算常见问题分析3.1 数据乱序问题分析3.2 Flink大状态场景及问题分析3.3 数据倾斜问题4.实时计算常见问题的解决方案4.1 数据乱序场景的处理4.2.1 DataStream API处理乱序4.…- 7
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 2
- 0
-
IT数字化转型 – 华为数字化转型的目标、蓝图和愿景
摘录于“华为数据之道” 一、华为数字化转型愿景 2016年下半年,华为数字化转型规划团队历时3个月,从“5看”方法入手,瞄准公司业务战略,对其进行解读,从中识别出了公司对数字化转型的诉求(见图1)。 图1:业务战略解读及对数字化转型的诉求 数字化转型愿景需与业务战略匹配。比如,规划团队针对“收入增加一倍,人员不显著增长”的目标,明确地将支撑公司业务增长、提升业务效率的要点体现在愿景中。再比如,“多…- 1
- 0
-
【运维工具】Flink SQL 实践9 window tvf tumble window 的奇思妙解
Flink 1.13 是一个社区大版本,解决的 issue 在 1000 个以上,通过上图我们可以看到,解决的问题大部分是关于 Table/SQL 模块,一共 400 多个 issue 占了总体的 37% 左右。这些 issue 主要围绕了 5 个 FLIP 展开,在本文中我们也会根据这 5 个方面进行介绍,它们分别是: img 下面我们对这些 FLIP 进行详细解读。 文章目录 Toggle 二…- 12
- 0
-
【运维工具】Flink SQL 实践2 – 自定义 redis 数据维表
文章目录 Toggle 1.Flink sql redis2.背景篇-为啥需要 redis 维表2.1.啥是维表?事实表?2.2.为啥需要 redis 维表?3.目标篇-做 redis 维表预期效果是什么4.难点剖析篇-目前有哪些实现5.维表实现篇-维表实现的过程5.1.flink 维表原理5.2.flink 维表实现方案5.2.1.复用 bahir connector5.2.2.复用 forma…- 2
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 49
- 0
-
经验教训 – 狡兔务必三窟:阿里云香港可用区C宕机血的教训与反思
自12月18日阿里云香港可用区C因为机房水冷机组出现故障,导致一次阿里云历史上最长的宕机后,官方终于在圣诞节那天,出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》,称得上是实事求是面对问题了。 我从业十五年,参与建设过4000个节点的私有云,也搞过机房装修和上架,还有一点运维经验,算是有相关经验,跟大家讨论一下以后自家单位的容灾应该怎么做吧。 大家先看这次阿里云…- 7
- 0
-
PYTHON基础技能 – Python异常捕获全解析:从try-except到finally的22个关键要点
今天,我们就来聊聊Python中的“安全网”——异常处理机制,让你的代码健壮得像超人一样! 文章目录 Toggle 1. 异常处理:编程的必备生存技能2. 多重捕获:一网打尽各种错误3. 捕获所有异常:使用Exception作为通配符4. finally:无论风雨,最后的温柔5. 没有异常的except:小心陷阱!6. 自定义异常:让错误个性化7. with语句与上下文管理器:优雅的资源管理8. …- 0
- 0
-
PYTHON基础技能 – Python集合应用:10+个集合操作的实用案例
集合(Set)在Python中是一个无序且不重复元素的序列,它非常适合用于数据去重和集合运算。今天,我们将通过10个实用案例,一步步探索集合的奥秘,让Python编程更加得心应手。 文章目录 Toggle 案例1:创建集合和基本操作案例2:集合的并集案例3:交集案例4:差集案例5:对称差集案例6:集合的子集和超集案例7:集合推导式案例8:集合与字符串案例9:集合与迭代案例10:实际场景应用:数据清…- 0
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!