-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 2
- 0
-
2024年 互联网故障盘点,我们能从故障中学到什么?
2024年已过,让我们来盘点今年出现的故障。回顾这一年,我们经历了各种挑战和困难,但也从中学到了许多宝贵的经验。 在面对不确定性时,我们学会了更多灵活地调整策略,每一次解决问题的过程,都是对能力的一次历练。虽然路途不易,所幸我们在变化中成长,塑造更强大的自己,也对未来充满了信心和期待。 2024年发生的宕机事件 谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、…- 2
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 6
- 0
-
思维认知 – 对于管理语言,很重要的一点是:便于理解,不容易产生歧义
张一鸣在字节跳动九周年年会上,引述了员工的一段报告来讽刺一些人不讲人话: 底层逻辑是打通信息屏障,创建行业新生态。顶层设计是聚焦用户感知赛道,通过差异化和颗粒度达到引爆点。交付价值是在垂直领域采用复用打法达成持久收益。抽离透传归因分析作为抓手为产品赋能,体验度量作为闭环的评判标准。亮点是载体,优势是链路。思考整个生命周期,完善逻辑考虑资源倾斜。方法论是组合拳达到平台化标准。 是不是每个字都认识,但…- 1
- 0
-
【运维工具】Flink SQL 实践3 – 自定义 redis 数据汇表
本文主要介绍了 flink sql redis 数据汇表的实现过程。 如果想在本地测试下: 在公众号后台回复 flink sql 知其所以然(三)| sql 自定义 redis 数据汇表获取源码(源码基于 1.13.1 实现) flink sql 知其所以然(三)| sql 自定义 redis 数据汇表获取源码(源码基于 1.13.1 实现) flink sql 知其所以然(三)| sql 自定义…- 0
- 0
-
2023.12.3 腾讯视频崩了,会员没了?
“看到一半说会员没了,我昨天刚充的会员……” 12月3日晚,“腾讯视频崩了”和“腾讯会员没了”两个话题热搜爆了! 有不少网友发微博称腾讯视频的会员突然没有了,想观看会员频道影片也无法观看。 还有网友表示,腾讯视频崩了,会员都没了,网名也变成腾讯网友了。 相关话题登上热搜后,引发了不少网友吐槽。“还以为我手机出问题了,又是重新登陆又是清理垃圾又是重启手机的,结果问题在腾讯这儿…- 13
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 2
- 0
-
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。 同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。 滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部…- 1
- 0
-
【运维工具】一文搞懂 Hadoop 生态系统的组件
Hadoop概述 Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。Hadoop是可扩展的,它可以方便地从单一服务器扩展到数千台服务器,每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性,软件库本身也提供数据保护,并可以在应用层做失败处理,从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。 图…- 1
- 0
-
2023.11.27滴滴系统崩了 P0级故障?
昨天(11月26日)晚上,不少用户向潮新闻记者帮反映“滴滴系统崩了,还车还不了。” 今天(11月27日)早上,滴滴发布最新通告,致歉的同时表示,系统已修复。 原文如下: 经技术团队连夜修复,滴滴网约车等服务已恢复,用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行,希望能为缓解早高峰压力努力多做一点点。 11月27日晚间因系统故障导致App服务异常…- 16
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 2
- 0
-
2023.11.12 阿里云的史诗级故障,故障原因曝光
2023年11月12日,双十一刚过,一大片阿里的产品都挂了,来了一波“史诗级”大翻车。 阿里云断网并不少见,但这种全面崩溃在历史上还是第一次,全国所有数据中心全军覆没,阿里所有产品全军覆没! 阿里云官方的通知是: “2023年11月12日17:44起,阿里云产品控制台访问及API调用出现异常……20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。” 在出问题的这接近两个多小时时…- 11
- 0
-
经验教训 – 2015.09.20 从Amazon最新云停机事故中学到的三个教训(亚马逊云宕机事件)
Amazon刚刚经历的云服务停机事故引发业界对云技术的又一番争论。 就在上周日上午时段,Amazon Web Services数据中心遭遇一起相当严重的意外事故。 美国东部时间清晨六点,该公司负责承载AWS东弗吉尼亚区域负载的名为DynamoDB的大规模NoSQL数据库发生使用率暴涨状况——顺带一提,东弗吉尼亚州区域为该公司历史最悠久、规模***的九个全球性区域之一。到当日上午七点五十二分,AWS…- 1
- 0
-
阿里云的史诗级故障,缓解了程序员的精神内耗?
在大部分人的认知中,服务器宕机,产品“崩了”这种事故,往往是因为流量太大,短期内访问量达到峰值。 比如微博上明星突然官宣、双十一付尾款的关键时间点…… 双十一当晚,大家还在调侃着“今年服务器没崩溃,纯粹是因为流量比往年惨淡”的时候。没想到第二天,阿里系产品突然接连因“崩了”挂上热搜。 淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克等多个阿里系App出现无法访问或服务异常的情况,简直让人瞠…- 2
- 0
-
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训
文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发,尤其是后端研发,每年在618或者双11的时候压力特别大,他们祈求服务不要出故障,交易能正常进行,而且期望用户体验非常棒而不是卡顿404等。 但是有时候就是事与愿违,比如在2015年11月11日傍晚,大部分用户反馈购物失败的情况,负责双…- 1
- 0
-
2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿近1亿)。24号收到了来自阿里云的一则赔偿短信(详见下文),赔偿对象为视频点播服务。 然而,尽管阿里云已经开始采取补偿行动,对于受到影响的用户而言,恢复信心可能需要更多时间。故障事件引起的不便和对服务可靠性的担忧,可能需要云服务商通过更强有力的行动和更有效的沟通,来重新赢得用户的信任和支持。 故障赔…- 6
- 0
-
经验教训 – 狡兔务必三窟:阿里云香港可用区C宕机血的教训与反思
自12月18日阿里云香港可用区C因为机房水冷机组出现故障,导致一次阿里云历史上最长的宕机后,官方终于在圣诞节那天,出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》,称得上是实事求是面对问题了。 我从业十五年,参与建设过4000个节点的私有云,也搞过机房装修和上架,还有一点运维经验,算是有相关经验,跟大家讨论一下以后自家单位的容灾应该怎么做吧。 大家先看这次阿里云…- 3
- 0
-
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据
文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站 数据准备 清洗的是一份亚马逊黑色星期五电商节的销售数据,数据保存在 Excel 文件中 数据解释 先来看一下表里面的前 10 行数据: 数据示例 以下是每个数据列的含义以及数据范…- 0
- 0
-
经验教训 – 2018.06.27 阿里云回应访问故障:运维操作失误导致 将敬畏每一行代码
阿里云再次对6月27日下午发生的技术问题进行了回应和解释,称“运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能时出现问题,引发大量吐槽”。阿里云表示,“对于故障,没有借口。” 6月27日下午,有网友反映,登陆阿里云控制台时出现异常,部分服务无法正常使用。随后阿里云在官网发布公告称,阿里云的部分产品及账号登陆出现访问异常,截至当天下午17:30大部分受影响的业务已经恢…- 4
- 0
-
故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例,以及,能从中学习到什么经验与教训? 文章目录 Toggle 事实是什么?原因是什么?影响是什么?评论与观点?能学到什么? 事实是什么? 11月12日,也就是双十一后的第一天,阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页,全球范围内所有可用区 x 所有服…- 2
- 0
-
[运维工具]每秒几十亿实时处理,阿里巴巴超大规模 Flink 集群运维揭秘
今天主要讲三块: 第一,阿里 Flink 发展的历史背景,怎么来的,现状规模到底什么样第二,阿里 Flink 运维管控平台第三,阿里 Flink 平台运维技术解决方案 文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案 一、阿里 Flink 集群运维挑战 首先说一下流计算,批计算就是数据集是有限的,每次的计算都可以拿到一样的结果,在…- 1
- 0
-
运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业…- 3
- 0
-
阿里大模型通义千问开源
从官网中介绍,通义千问有以下几个优点: 训练时使用了大规模的高质量数据:使用了超过2.2万亿token进行预训练 更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。 支持8K长度上下文:允许用户输入更长的prompt。 评测能力有大幅提升:通义千问在多个评测数据集上具有显著优势,甚至超出12-13…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!