-
思维模型 – 蚊子思维:拥抱变化,快速反应
曾经有一项研究,通过高速摄影机记录了蚊子在雨中的逃生场景。令人惊讶的是,即便是比蚊子重50倍的雨滴落下,它们也能够安然无恙。蚊子的关键能力在于它能够随着环境的变化做出即时调整。如果雨滴直接打中它,蚊子会顺着雨滴的方向迅速下落,然后再快速调整飞行轨迹。 这告诉我们一个深刻的道理:在复杂和多变的环境中,那些能够迅速做出反应、并根据变化调整策略的人,才能在不断变化的世界中生存下来。英特尔创始人安迪·格鲁…- 4
- 0
-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 2
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 1
- 0
-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 2
- 0
-
支付宝5分钟狂亏上亿,不追款实有不得已的苦衷
一、 大事件,2025年1月16日,支付宝给大家发福利啦。 当日14:40-14:45,所有通过支付宝支付的订单,统统打8折,包括购物、还信用卡、转账等等。 网友跟过年一样,纷纷截图。 打折的名义,写着“政府补贴”。 支付宝官方表示,他们设置营销活动时,后来配置错了模版,把优惠额度和优惠金类型都写错了。 不知道哪位IT大神,把支付宝的营销费当做福利发给了全国网友,现在他还好吗?年终奖还有吗? 真想…- 1
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 2
- 0
-
支付宝打8折P0资损故障思考
2025年1月16日下午14:40至14:45,支付宝平台出现重大故障。在这短短5分钟内,用户在进行个人转账、信用卡支付、缴费等操作时,订单支付页面均弹出“政府补贴”提示,直接享受到了20%的减免优惠。 (图片来源于网络) 关于支付宝是否补扣用户的钱,网友各种意见都有。我个人的观点:如果支付宝要扣,一定是在法律框架允许的情况下扣回,当然这不可避免带来网友们的口诛笔伐。如果不扣,也有很多先例,包括多…- 3
- 0
-
【经典手册】常用SQL查询
sql是所有数据库查询的语言,sql由于本身结构化的特点,非常容易入手。针对不同的数据库,如hivesql、mysql、sqlserver、oracle等,sql语法会有所不同,但是总体上大同小异,只是细微处的差别。 SQL的学习方式非常多,在这里分享最捷径的一种:用7张图片搞定数据分析相关的SQL语句问题。 具体分了七类讲解: 基础查询 字符串\数字\日期时间 聚合数据查询 子查询 联接\组合查…- 1
- 0
-
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”
雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可能出错的地方就一定会出错。 “24年了,终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具,用来请求 Web 服…- 3
- 0
-
-
实践案例 – 百分点大数据技术团队:万亿级大数据监控平台建设实践 
随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。 本文主要从监控系统整体设计和技术…- 1
- 0
-
2023.12.3 腾讯视频崩了,会员没了?
“看到一半说会员没了,我昨天刚充的会员……” 12月3日晚,“腾讯视频崩了”和“腾讯会员没了”两个话题热搜爆了! 有不少网友发微博称腾讯视频的会员突然没有了,想观看会员频道影片也无法观看。 还有网友表示,腾讯视频崩了,会员都没了,网名也变成腾讯网友了。 相关话题登上热搜后,引发了不少网友吐槽。“还以为我手机出问题了,又是重新登陆又是清理垃圾又是重启手机的,结果问题在腾讯这儿…- 15
- 0
-
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据
文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站 数据准备 清洗的是一份亚马逊黑色星期五电商节的销售数据,数据保存在 Excel 文件中 数据解释 先来看一下表里面的前 10 行数据: 数据示例 以下是每个数据列的含义以及数据范…- 1
- 0
-
工作中常用SQL语句 实践
工作中我们基本上每天都要与数据库打交道,数据库的知识点呢也特别多,全部记住呢也是不可能的,实践一遍处理起来效率就更高 Student(S#,Sname,Sage,Ssex) 学生表 Course(C#,Cname,T#) 课程表 SC(S#,C#,score) 成绩表 Teacher(T#,Tname) 教师表 问题: 1、查询“001”课程比“002”课程成绩高的所有学生的学号; select…- 0
- 0
-
故障复盘 – 有效复盘常用五步法
这里跟大家分享极简复盘5步法。分别是1 回顾目标,2 评估结果,3 分析原因,4 总结经验,5 指导行动。 如果你没有复盘的习惯,那么在一开始建议降低复盘的要求门槛,这样你更容易开始。所以我把每个步骤最核心要素总结出来,你只需要按照这个关键点进行梳理复盘即可。 首先第1步:回顾目标,你需要把你的目标123写下来。 然后第二步:评估结果 你需要如实列出你每一项目标的完成情况,可以简单标记成完成或未完…- 0
- 0
-
ITIL 服务管理框架,实践成功案例
1. IBM:IBM采用了ITIL框架来改进其IT服务管理流程,提高了服务交付效率和客户满意度。2. 英国政府:英国政府采用ITIL框架来统一和标准化其IT服务管理实践,提高了服务质量和效率。3. 西门子:西门子使用ITIL框架来优化其IT服务管理流程,提高了服务响应时间和问题解决能力。4. 谷歌:谷歌采用ITIL框架来管理其全球范围内的IT服务,确保高可用性和稳定性。5. 微软:微软使用ITIL…- 0
- 0
-
经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合一起,出问题往往是最不起眼功能环节,就是一棵螺丝钉 第 2 课:愚蠢的自动化强依赖于流程工具与自动化工具,应急时缺少了走火通道 第 3 课:现在是 2023年,数据库仍然很棘手灾难恢复后最耗时就是数据关系重建,数据完整性、一致性处理 第 4 课:分阶段慢慢部署变更需要遵循最小灰度原则 第 5 课:为…- 2
- 0
-
【运维工具】Flink SQL 实践12 流 join 常用技巧
文章目录 Toggle 1.序篇2.背景及应用场景介绍3.先来一个实战案例4.flink sql join4.1.flink sql4.2.left join4.3.inner join4.4.right join4.5.full join4.6.regular join 的总结4.7.怎样才能解决 retract 导致数据重复下发到 kafka 这个问题呢?5.总结与展望2.背景及应用场景介绍3…- 0
- 0
-
经验教训 – 3.29 #微信QQ出现功能异常#,冲上热搜,妥妥的第一
包括微信语音、账号登录、朋友圈,以及微信支付,都无法正常使用。 有网友表示,电脑版微信大概是在早上10:00左右恢复登录,和小雷登录的时间相吻合。 据腾讯的最新财报显示,微信及WECHAT月活数高达13.1亿,如此大用户量的产品出现故障无疑对大众生活工作带来了不少的影响。 不过有一说一,大厂们服务器故障,似乎每年都得上演那么几次。 轻微一些的,有像B站前阵子那样,视频短暂崩溃了半小时。 严重点的,…- 2
- 0
-
故障治理 – 全年配送0故障,盒马揭秘智能调度12个关键技术提高稳定性
文章目录 Toggle 一 、稳定大于一切二、智能调度链路分析三、稳定性因素分析和实践1、DB依赖2、HSF依赖3、HSF服务提供4、tair依赖5、Metaq依赖6、精卫依赖7、DTS依赖8、开关9、监控10、灰度11、测试12、应急响应四、总结 一 、稳定大于一切 盒马的线下作业稳定性要求极高,假如门店pos无法付款了,排起的支付长队伍能让人把门店闹翻,假如配送员无法揽收了,在家里预定的午餐材…- 1
- 0
-
故障治理 – 企业变革与创新 | 亚马逊创新“永动机”七大教训
亚马逊高管发布新书解析亚马逊企业变革与创新。第一个教训:创新,要慢慢来;第二个教训:从用户需求出发;第三个教训:不要将创新当成兼职,第四个教训:记住书名,逆向工作方法;第五个教训:好意图不可靠,机制才是可靠的;第六个教训,优秀的运营会深入细节;第七个教训,深入细节不等于事无巨细地控制管理。企业变革与创新应该如何实现? 文章目录 Toggle 1 企业变革与创新 ,要慢慢来2 从用户需要什么出发,而…- 1
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践(2)
一、前言 之前在《云原生背景下的运维价值思考与实践(上)》 里,重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,D…- 2
- 0
-
PYTHON基础技能 – Python进程管理的15大实战策略
文章目录 Toggle 1. 理解进程与多进程2. 使用multiprocessing模块创建子进程3. 进程池管理4. 进程间通信:队列5. 锁与同步6. 管道通信7. 使用subprocess模块8. 进程监控与管理9. 进程优先级调整10. 异常处理与日志记录11. 并发模型的选择:进程 vs. 线程 vs. 协程12. 利用concurrent.futures简化多进程编程13. 进程死锁…- 2
- 0
-
稳定性保障 – 故障应急体系构建及应用实践(1)
蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系,包括故障体系、应急体系、故障全生命周期及AI助力等方面,为保障线上系统稳定提供了全面的解决方案。 1. 蚂蚁故障体系 – 故障定义与等级:故障指服务中断、品质下降或用户体验受影响的情况,不包括用户方环境或自身操作问题。故障等级衡量影响度,数字越小级别越高,涵盖客诉量、资损金额等,由业务等相关方定义并定期更新。 ̵…- 0
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!