-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 1
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 1
- 0
-
思维模型 – 灯塔思维:明确远期目标,保持长远视野
迈克尔·西蒙斯通过研究成功的企业家,发现那些白手起家的亿万富翁企业家有着惊人的共性:他们总是能够从长远的视角来看待问题,而大多数人则只看眼前的利益。以亚马逊创始人贝索斯为例,他为了进行一些可能失败的实验,愿意长期投资数十亿美元,而他看重的并非短期的回报,而是未来可能带来的巨大收益。 灯塔思维强调的是长远的视角和耐心。就像航海者在茫茫大海中靠着远方的灯塔找到方向一样,人生中的灯塔指引我们始终保持目标…- 4
- 0
-
支付宝5分钟狂亏上亿,不追款实有不得已的苦衷
一、 大事件,2025年1月16日,支付宝给大家发福利啦。 当日14:40-14:45,所有通过支付宝支付的订单,统统打8折,包括购物、还信用卡、转账等等。 网友跟过年一样,纷纷截图。 打折的名义,写着“政府补贴”。 支付宝官方表示,他们设置营销活动时,后来配置错了模版,把优惠额度和优惠金类型都写错了。 不知道哪位IT大神,把支付宝的营销费当做福利发给了全国网友,现在他还好吗?年终奖还有吗? 真想…- 1
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 4
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 2
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 8
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 8
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 2
- 0
-
系统稳定性建设(4) – 稳定性设计原则:简单、冗余、标准化、健壮
作者介绍 淇公 ,蚂蚁金服技术专家。热爱 java 和一些函数式语言,长期关注系统稳定性领域 文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束 一、差旅随想 因为 base 在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样精密复杂的机器的那帮人真的是了不起,他们是怎样保证这…- 1
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 2
- 0
-
思维认知 – 阿里巴巴“三板斧”管理到底是什么?
在商业组织结构的金字塔模型中,自上而下的分别是:目标、使命、价值观;战略与商务计划;培训与发展、组织结构、预算检查、绩效评估、奖惩制度等等。 化用孙子兵法中的“道、谋、断、人、阵、信”,来解释。最上面是“道”,包括使命、愿景、价值观;下面是“谋”和“断”,包括战略、战术;最后是“人”、“阵”、“信”,也就是就是组织能力。 员工管理的核心就在于“人性”二字。用分配解决人性的自私,用考核解决人性的懒惰…- 2
- 0
-
运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)
尚梦宸,中国信息通信研究院云计算与大数据研究所审计与治理部工程师。 一、构建新时代“大运维”体系 什么是“大运维”体系?它是运维发展过程中的一个阶段。在初始阶段,运维主要是辅助研发,运维方式主要是以手工为主,同时需要人工不断维护 更新。 随着数字技术发展及信息化的快速全面突破,研发侧逐渐向运维侧偏移,出现了自动化运维及研发与运维的协同,也即我们说的 DevOps。 DevOps 更多关注…- 2
- 0
-
CMDB是配置管理库它应该长得怎么样?数据资产体系如何建设?
一、认识数据资产 二、数据治理-方法论 三、CMDB平台建设 四、B站SRE资产平台建设之路 一、认识数据资产 1. 数据资产——企业IT价值 如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。 建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。 运营数…- 1
- 0
-
思维认知 – 对于管理语言,很重要的一点是:便于理解,不容易产生歧义
张一鸣在字节跳动九周年年会上,引述了员工的一段报告来讽刺一些人不讲人话: 底层逻辑是打通信息屏障,创建行业新生态。顶层设计是聚焦用户感知赛道,通过差异化和颗粒度达到引爆点。交付价值是在垂直领域采用复用打法达成持久收益。抽离透传归因分析作为抓手为产品赋能,体验度量作为闭环的评判标准。亮点是载体,优势是链路。思考整个生命周期,完善逻辑考虑资源倾斜。方法论是组合拳达到平台化标准。 是不是每个字都认识,但…- 1
- 0
-
德鲁克管理7大原则,每一条都是精华
德鲁克的著作影响了数代追求创新以及最佳管理实践的学者和企业家们,各类商业管理课程也都深受彼得·德鲁克思想的影响。今天就跟大家分享一下现代管理学之父的管理之道: 第一,管理者必须要卓有成效。卓有成效是管理者能够做到而且必须做到的事。并不是只有高管才是管理者,所有知识工作者都应该像管理者一样工作和思考。对组织负有责任,能影响组织经营成果的人就是管理者。不要认为卓有成效高不可攀,卓有成效是可以学会的。每…- 1
- 0
-
稳定性保障 – 故障应急体系构建及应用实践(1)
蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系,包括故障体系、应急体系、故障全生命周期及AI助力等方面,为保障线上系统稳定提供了全面的解决方案。 1. 蚂蚁故障体系 – 故障定义与等级:故障指服务中断、品质下降或用户体验受影响的情况,不包括用户方环境或自身操作问题。故障等级衡量影响度,数字越小级别越高,涵盖客诉量、资损金额等,由业务等相关方定义并定期更新。 ̵…- 0
- 0
-
经验教训 – B站崩,如何谋划稳定性保障SRE升级思路?比较全面优化思路
随着B站近几年的快速发展,业务规模越来越大,迭代速度越来越快,系统运行复杂度也越来越高。线上每天都会发生各种各样的故障,且发生的场景越来越刁钻。为了应对这种情况,保障业务在任何时刻都能将稳定性维持在一个高基线之上,B站专门成立了SRE体系团队,在提升业务稳定性领域进行了全方位、体系化的积极探索,从理论性支撑和能力化建设进行着手,从故障应急响应、事件运营、容灾演练、意识形态等多方面进行稳定性运营体系…- 4
- 0
-
故障治理 – 了解华为的流程管理系统
前言: 任正非先生一直强调客户、流程与绩效是企业管理中最重要的三件事。事实上,华为导入咨询公司的一个重点就是“流程管理”。在过去的近20年中,华为通过以业务为导向的流程管理体系,大大提升了整体运营效率,取得了举世瞩目的成绩! 华为公司提倡流程化的企业管理方式,任何业务活动都有明确的结构化流程来指导,流程建设把所有人从海量的、低价值的、简单重复的工作中解放出来。 首先,大家要明白流程是通过一系列可重…- 1
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 4
- 0
-
经验教训 – 生产环境血的教训最佳实践
SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原则,有助于降低生产影响 教训2:变更实施 – 生产回滚异常要马上处理,保持服务器的生产服务状态 教训3:变更验证 – 灰度期间必须确认监控/告警后才能继续下一批,避免事件产生影响更大 教训4:变更验证 – 变更完成需从业务维度进行验收 教训5:…- 1
- 0
-
经验教训 – 网络安全十四条经验教训
2022年,是网络安全市场高速发展的一年,同时也是企业评估安全项目投资有效性,校准和优化安全防御战略和预算的关键时间节点。面对快速迭代的网络威胁,每位CISO都有自己的方法和视角来总结和反思即将过去的2022年,此类经验总结可为未来的战略规划提供宝贵的知识,正如Veracode首席信息安全官Sohail Iqbal所言:“如果企业不打算吸取这些教训并完善其安全实践,那么将面对更加严格的安全审计和第…- 2
- 0
-
经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
Windows蓝屏致损150亿美元,受灾者仅获赔10美元引热议,程序员激辩用Rust能否改写史上最大IT故障结局? “就算是 Rust,也救不了这次 CrowdStrike 的中断事故。” 距离 Windows 大范围蓝屏事件,已经过去了 6 天。 这 6 天来,国内外技术网站仍对此事热议不断,“罪魁祸首” CrowdStrike 的名字被频繁提及,与之伴随的无一不是质疑和谴责: CrowdStr…- 1
- 0
-
稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并进行总结和展望。 01 行业背景 稳定性建设是一件很让大家头疼事情,就像我刚开始入职做 SRE 时一样,面对稳定性建设总是觉得无从下手。Google 的 SRE 提供了一些指导方向,Google SRE 这本书的核心是引导大家如何科学地进行稳定性建设。在此基础上,我们决定在腾讯大规模采用基于 SLO…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!