全部标签

阿里云

系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 21
- 0
aqzt25年2月11日
2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 156
- 0
aqzt25年2月11日
2024年复盘-互联网十大故障分析回顾

故障回顾随着2024年的圆满结束，今天，我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例，总结经验教训，并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障故障描述：1月11日晚，多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜，今天凌晨0时许…
安全运维
- 22
- 0
aqzt25年2月11日
2015.5·27支付宝大规模宕机事故反思学习

事故背景支付宝拥有超过4万亿年交易总额，是中国第一大第三方交易平台，约占中国整体社会消费金额的六分之一。2014年年11月，就有用户反映，支付宝钱包目前无法转账和提现，当用户使用这两项功能时会提示出现未知错误或创建交易失败，该问题在移动客户端以及电脑网页端均存在。事故经过2015年5月27日下午4点半左右，陆续有多个地区网友反映，支付宝出现网络故障，账号无法登录或转账。打开余额宝后，不能显示余额…
安全运维
- 13
- 0
aqzt24年12月21日
flinkSQL实践 – 如何实时统计最近 15 秒的商品销售额

想要了解如何使用 Flink 实时统计最近 15 秒的商品销售额吗？本实验将以阿里云实时计算 Flink 版为基础，使用 Flink 自带的 MySQL Connector 连接 RDS 云数据库实例，并以实时商品销售数据统计的例子，引导开发者上手 Connector 的数据捕获、数据写入等功能。完成本次实验后，您将掌握的知识有：使用 Flink 实时计算平台创建并提交作业的方法；编写基于 …
安全运维
- 12
- 0
aqzt24年12月21日
系统稳定性保障 – 云原生大潮下的混沌工程思考

简介：生产环境的突袭演练是我们迈出的艰难但有力的一步，锻炼了研发运维人员的应急响应能力，在真实用户场景下锤炼系统，推进了产品的轮班制度，提升了云原生底座的稳定性和竞争力。作者：智妍（郑妍）、浣碧（何颖）文章目录 Toggle 什么是混沌工程，云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语什么是混沌工程，云原生大潮下的混沌工程特点通过使用云计算厂商如…
安全运维
- 97
- 0
aqzt24年12月21日
故障治理 – 运行无间：阿里巴巴运维保障体系的一种最佳实践

阿里巴巴全球运行指挥中心，GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE，我们相当于阿里巴巴的SRE。今天我的分享分为四个部分： 1、稳定性现状及挑战 2、运维…
安全运维
- 91
- 0
aqzt24年12月21日
经验教训 – 3.29 #微信QQ出现功能异常#，冲上热搜，妥妥的第一

包括微信语音、账号登录、朋友圈，以及微信支付，都无法正常使用。有网友表示，电脑版微信大概是在早上10:00左右恢复登录，和小雷登录的时间相吻合。据腾讯的最新财报显示，微信及WECHAT月活数高达13.1亿，如此大用户量的产品出现故障无疑对大众生活工作带来了不少的影响。不过有一说一，大厂们服务器故障，似乎每年都得上演那么几次。轻微一些的，有像B站前阵子那样，视频短暂崩溃了半小时。严重点的，…
安全运维
- 16
- 0
aqzt24年12月21日
可观测性（Observability）- 事件日志

日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能，然而也很少人会把日志作为多么关键功能来看待。日志就像阳光与空气，无可或缺却不太被重视。程序员们会说日志简单，其实这是在说“打印日志”这个操作简单，打印日志的目的是为了日后从中得到有价值的信息，而今天只要稍微复杂点的系统，尤其是复杂的分布式系统，就很难只依靠 tail、grep、awk 来从日志中挖掘信息了，往往还要有…
安全运维
- 21
- 0
aqzt24年12月21日
经验教训 – 2022.08.02 微博为何总是宕机

8月3日早晨，“微博崩了”话题登上热搜榜，话题阅读量高达4.7亿，讨论量也达到了4.1万。不少网友表示虽然平时天天骂微博，但真和微博失联了几个小时，感觉和世界脱节了一样。没想到这年头竟然能在微博热搜上看到 “微博崩了”这个词条。微博回应宕机原因据@微博客服消息，8月2日晚22时06分起，由于自动扩容系统故障，导致北京永丰等地机房的宽带容量超限，影响了部分省份移动端用户访问，期间PC端用户可正…
安全运维
- 18
- 0
aqzt24年12月21日
【运维工具】Flink SQL 实践2 – 自定义 redis 数据维表

文章目录 Toggle 1.Flink sql redis2.背景篇-为啥需要 redis 维表2.1.啥是维表？事实表？2.2.为啥需要 redis 维表？3.目标篇-做 redis 维表预期效果是什么4.难点剖析篇-目前有哪些实现5.维表实现篇-维表实现的过程5.1.flink 维表原理5.2.flink 维表实现方案5.2.1.复用 bahir connector5.2.2.复用 forma…
安全运维
- 14
- 0
aqzt24年12月21日
系统稳定性保障 – 事件激励与约束故障分计算思路

“阿里稳定分”不是一个官方术语，但我们可以基于阿里云对服务稳定性的重视和实践，构想一个类似的评估体系。阿里云对于服务稳定性的评估通常会涉及多个维度，包括但不限于可用性、性能、容灾能力、故障恢复速度、监控与预警能力等。以下是一个基于这些维度的“阿里稳定分”评估标准和计算的构想，以及一个实践案例的详细说明。文章目录 Toggle 评估标准计算方法实践案例计算“阿里稳定分”注意事项故障评估框架计算公式…
安全运维
- 24
- 0
aqzt24年12月21日
思维认知 – 对于管理语言，很重要的一点是：便于理解，不容易产生歧义

张一鸣在字节跳动九周年年会上，引述了员工的一段报告来讽刺一些人不讲人话：底层逻辑是打通信息屏障，创建行业新生态。顶层设计是聚焦用户感知赛道，通过差异化和颗粒度达到引爆点。交付价值是在垂直领域采用复用打法达成持久收益。抽离透传归因分析作为抓手为产品赋能，体验度量作为闭环的评判标准。亮点是载体，优势是链路。思考整个生命周期，完善逻辑考虑资源倾斜。方法论是组合拳达到平台化标准。是不是每个字都认识，但…
安全运维
- 12
- 0
aqzt24年12月21日
【运维工具】Flink SQL 实践3 – 自定义 redis 数据汇表

本文主要介绍了 flink sql redis 数据汇表的实现过程。如果想在本地测试下：在公众号后台回复 flink sql 知其所以然（三）| sql 自定义 redis 数据汇表获取源码（源码基于 1.13.1 实现） flink sql 知其所以然（三）| sql 自定义 redis 数据汇表获取源码（源码基于 1.13.1 实现） flink sql 知其所以然（三）| sql 自定义…
安全运维
- 11
- 0
aqzt24年12月21日
2023.12.3 腾讯视频崩了,会员没了?

“看到一半说会员没了，我昨天刚充的会员……” 12月3日晚，“腾讯视频崩了”和“腾讯会员没了”两个话题热搜爆了！有不少网友发微博称腾讯视频的会员突然没有了，想观看会员频道影片也无法观看。还有网友表示，腾讯视频崩了，会员都没了，网名也变成腾讯网友了。相关话题登上热搜后，引发了不少网友吐槽。“还以为我手机出问题了，又是重新登陆又是清理垃圾又是重启手机的，结果问题在腾讯这儿…
安全运维
- 83
- 0
aqzt24年12月21日
故障治理 – 从行业巨头重大事故，炼成系统稳定性治理最全方略(系统稳定性保障)

系统的稳定性，主要决定于整体的系统架构设计，然而也不可忽略编程的细节，正所谓“千里之堤，溃于蚁穴”，一旦考虑不周，看似无关紧要的代码片段可能会带来整体软件系统的崩溃。稳定性的工作，一般都是水下的工作。就像冰山，真正强大的系统下，要有更加强大的底层支撑，水面下的问题才是真正需要解决的问题。当然不一样的工作内容，水下的工作是不同的，对于盖楼来说，可能就是地基的深度。对于我们写业务逻辑来说，水下的工作…
安全运维
- 126
- 0
aqzt24年12月21日
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因

11月29日，滴滴出行再就27日夜间系统故障致歉，提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果：起因是底层系统软件发生故障，并非网传的“遭受攻击”。同时，滴滴表示，当前所有服务已全部恢复，后续将深入开展技术风险隐患排查和升级工作，全面保障服务稳定性，尽最大努力避免类似事故再发生。滴滴拥有庞大的业务线，其底层系统由复杂的软硬件构成，其中包括服务器、网络设备、数据库等等重要组成部…
安全运维
- 8
- 0
aqzt24年12月21日
【运维工具】一文搞懂 Hadoop 生态系统的组件

Hadoop概述 Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop是可扩展的，它可以方便地从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性，软件库本身也提供数据保护，并可以在应用层做失败处理，从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。图…
安全运维
- 8
- 0
aqzt24年12月21日
2023.11.27滴滴系统崩了 P0级故障？

昨天（11月26日）晚上，不少用户向潮新闻记者帮反映“滴滴系统崩了，还车还不了。” 今天（11月27日）早上，滴滴发布最新通告，致歉的同时表示，系统已修复。原文如下：经技术团队连夜修复，滴滴网约车等服务已恢复，用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中，所有可开锁或未关锁的青桔车辆均可免费骑行，希望能为缓解早高峰压力努力多做一点点。 11月27日晚间因系统故障导致App服务异常…
安全运维
- 38
- 0
aqzt24年12月21日
IT 故障治理 – 运维救火必备：问题排查与系统优化手册（结合教训现身说法）

软件工程领域存在一个共识：维护代码所花费的时间要远多于写代码。而整个代码维护过程中，最惊心动魄与扣人心弦的部分，莫过于问题排查（Trouble-shooting）了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们，大大小小的问题排查线上救火早已成为家常便饭，一不小心可能就吃成了自助餐 —— 竖着进躺着出，吃不了也兜不住。本文分享作者在服务端问题排查方面的一些经验，…
安全运维
- 6
- 0
aqzt24年12月21日
2023.11.12 阿里云的史诗级故障，故障原因曝光

2023年11月12日，双十一刚过，一大片阿里的产品都挂了，来了一波“史诗级”大翻车。阿里云断网并不少见，但这种全面崩溃在历史上还是第一次，全国所有数据中心全军覆没，阿里所有产品全军覆没！阿里云官方的通知是： “2023年11月12日17:44起，阿里云产品控制台访问及API调用出现异常……20:12 北京、杭州等地域消息队列MQ已完成重启，其余地域逐步恢复中。” 在出问题的这接近两个多小时时…
安全运维
- 27
- 0
aqzt24年12月21日
经验教训 – 2015.09.20 从Amazon最新云停机事故中学到的三个教训（亚马逊云宕机事件）

Amazon刚刚经历的云服务停机事故引发业界对云技术的又一番争论。就在上周日上午时段，Amazon Web Services数据中心遭遇一起相当严重的意外事故。美国东部时间清晨六点，该公司负责承载AWS东弗吉尼亚区域负载的名为DynamoDB的大规模NoSQL数据库发生使用率暴涨状况——顺带一提，东弗吉尼亚州区域为该公司历史最悠久、规模***的九个全球性区域之一。到当日上午七点五十二分，AWS…
安全运维
- 4
- 0
aqzt24年12月21日
阿里云的史诗级故障，缓解了程序员的精神内耗？

在大部分人的认知中，服务器宕机，产品“崩了”这种事故，往往是因为流量太大，短期内访问量达到峰值。比如微博上明星突然官宣、双十一付尾款的关键时间点…… 双十一当晚，大家还在调侃着“今年服务器没崩溃，纯粹是因为流量比往年惨淡”的时候。没想到第二天，阿里系产品突然接连因“崩了”挂上热搜。淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克等多个阿里系App出现无法访问或服务异常的情况，简直让人瞠…
安全运维
- 11
- 0
aqzt24年12月21日
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训

文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发，尤其是后端研发，每年在618或者双11的时候压力特别大，他们祈求服务不要出故障，交易能正常进行，而且期望用户体验非常棒而不是卡顿404等。但是有时候就是事与愿违，比如在2015年11月11日傍晚，大部分用户反馈购物失败的情况，负责双…
安全运维
- 15
- 0
aqzt24年12月21日