-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 2
- 0
-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 5
- 0
-
支付宝5分钟狂亏上亿,不追款实有不得已的苦衷
一、 大事件,2025年1月16日,支付宝给大家发福利啦。 当日14:40-14:45,所有通过支付宝支付的订单,统统打8折,包括购物、还信用卡、转账等等。 网友跟过年一样,纷纷截图。 打折的名义,写着“政府补贴”。 支付宝官方表示,他们设置营销活动时,后来配置错了模版,把优惠额度和优惠金类型都写错了。 不知道哪位IT大神,把支付宝的营销费当做福利发给了全国网友,现在他还好吗?年终奖还有吗? 真想…- 1
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 3
- 0
-
支付宝打8折P0资损故障思考
2025年1月16日下午14:40至14:45,支付宝平台出现重大故障。在这短短5分钟内,用户在进行个人转账、信用卡支付、缴费等操作时,订单支付页面均弹出“政府补贴”提示,直接享受到了20%的减免优惠。 (图片来源于网络) 关于支付宝是否补扣用户的钱,网友各种意见都有。我个人的观点:如果支付宝要扣,一定是在法律框架允许的情况下扣回,当然这不可避免带来网友们的口诛笔伐。如果不扣,也有很多先例,包括多…- 3
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 46
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 18
- 0
-
故障发生最重要的是快速恢复故障
故障发生时在故障发生时,最重要的是快速恢复故障。 而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中,一旦发生故障就会出现“多米诺骨牌效应”。也就是说,系统会随着一个故障开始一点一点地波及到其它系统,而且这个过程可能会很快。 一旦很多系统都在报警,要想快速定位到故障源就不是一件简单的事了。 在亚马逊内部,每个开发团队至少都会有一位 oncall 的工程师。在 oncall 的时候,工程师…- 6
- 0
-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
-
实践案例 – 告警定级为告警治理核心,告警智能定级原理探索
很多大规模复杂在线服务系统,比如 Google、Amazon、Microsoft 和大型商业银行,包含数以千计的分布式组件,并同时支持大量用户使用。为了保障高质量服务和良好的用户体验,这些公司引入监控系统,智能收集服务组件的监控数据,比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据,确保在服务异常时产生告警。这也带来一个问题,大型服务系统通常会不间断地被捕捉到大量告…- 2
- 0
-
实践案例 – 告警治理 – 腾讯亿万量级告警是如何做到全、准、快的?
文章目录 Toggle 自我介绍监控的意义监控的手段监控的本质监控系统的目标——全、快、准全链路监控监控的速度统一上报协议准:智能监控海量监控的困扰ROOT智能监控系统降维策略时间相关性分析权重面积分析质量体系:生态构建天网体系天网:质量体系Q&AQ1:主动、被动、旁路,这三种在整个告警量的范围内,比例分别是怎样的?这三路产生的效果分别怎样?Q2:请教一下,报警之后就可以做自愈吗?Q3:有…- 3
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 36
- 0
-
3步高效解决问题实践
利用「假设思考」来解决问题的3步流程。通常我们解决问题有2种思考模式:1种是零基思考,就是没有基准的思考——即跳出既定的框架去思考问题。我们常说的从0到1或者突破式创新就属于这种思考方式。另1种是假设思考,这是我们工作中最常用到的思考模式。即根据现象提出假设,然后再针对假设进行评估和验证。这里介绍的3个步骤解决问题,就是利用假设思维来进行推导的。其 实流程很简单: 第一步:根据问题设定课题这里当设…- 0
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 2
- 0
-
运维稳定性 – 虎牙APM可观测平台建设实践
随着虎牙业务量的大规模增长,分布式应用服务架构日益复杂,排障定位变得越来越困难,原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台,结合虎牙直播业务特性,也紧靠业界标准做了高度自研扩展,帮助研发和运维提高工作效率,保障线上应用服务稳定运行。 本次分享将通过以下几个部分来介绍整体思路和实践过程: 分享概要 一、项目背景 – 从当时痛点来思考关键切入点 二、方案实践 …- 1
- 0
-
Flink SQL – 在各大厂(阿里,腾讯,美团,饿了么)实践
阿里 双11数据大屏背后的秘密:大规模流式增量计算及应用。 双11数据大屏背后的秘密:大规模流式增量计算及应用-云栖社区-阿里云 阿里主要用Flink干啥。 阿里主要用Flink干些啥? 阿里双十一。 争分夺秒:阿里实时大数据技术全力助战双11 腾讯 实时平台的搭建。 腾讯实时计算平台Oceanus建设实践 美团 美团属于storm转flink比较早的。 美团DB数据同步到数据仓库的架构与实…- 3
- 0
-
运维工具 – PYTHON 日常数据分析 – EXCEL常用高级函数处理技巧
文章目录 Toggle 案例01 批量制作数据透视表举一反三 为一个工作簿的所有工作表制作数据透视表案例02 使用方差分析对比数据的差异举一反三 绘制箱形图识别异常值举一反三 使用自定义区间绘制直方图 案例01 批量制作数据透视表 代码文件:批量制作数据透视表.py – 数据文件:商品销售表(文件夹) import os import xlwings as xw import pand…- 0
- 0
-
运维工具 – EXCEL 日常数据分析 – 透视表深入数据分析
1、各部门人数占比2、各个年龄段人数和占比3、各个部门各年龄段占比4、各部门学历统计5、按年份统计各部门入职人数 1、各部门人数占比 统计每个部门占总人数的百分比 2、各个年龄段人数和占比 公司员工各个年龄段的人数和占比各是多少呢? 3、各个部门各年龄段占比 分部门统计本部门各个年龄段的占比情况 4、各部门学历统计 各部门大专、本科、硕士和博士各有多少人呢? 5、按年份统计各部门入职人数 每年各部…- 0
- 0
-
运维工具 – excel 日常数据分析 – 常用字段后面三位变0了怎么样恢复原来的数字经验
第一种,输入12位以上数字变成 E1乱码 点击选择要输入身份证的那一栏, 右键 – 设置单元格式 – 数字 – 文本 – 确定 然后再输入就OK了。 在公司、学校,经常会遇到需要在Excel录入身份证号的场景,但录入完毕会发现身份证号成了科学统计法,再…- 1
- 0
-
【运维工具】 Flink SQL 使用 union 代替 join、cogroup 经验
文章目录 Toggle 需求场景分析需求场景source 输入以及特点sink 输出以及特点source、sink 样例数据实现方案cogroup上述实现可能会存在的问题点逆推链路union总结 需求场景分析 需求场景 需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至…- 0
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 10
- 0
-
PYTHON基础技能 – Python错误处理:20个异常捕获与日志记录的高级实践
今天我们要深入探讨一个让程序更加健壮的关键技能——错误处理与日志记录。想象一下,你的代码就像一名探险家,在未知的代码丛林中探索,而错误处理就是那把指南针,帮助我们在遇到困难时找到正确的方向。日志记录,则是探险日记,记录下每一次的挑战与胜利。让我们一步步成为处理Python程序中意外情况的高手吧! 文章目录 Toggle 1. 基础:认识try-except2. 多重异常捕获3. 使用else和fi…- 0
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 4
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

















