全部标签

责任

系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 21
- 0
aqzt25年2月11日
思维模型 – 懒蚂蚁思维：合理分工，做正确的事

在一个实验中，科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁，它们不像其他蚂蚁那样忙于搬运食物，但在关键时刻，它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动，而是将大部分时间用来侦查，确保蚁群在食物短缺时能够迅速找到新的资源。这一点启示我们，在工作和生活中，并不是所有的时间都应该被用来“忙碌”。有时，我们需要在“懒散”中寻找战略性的突破，像“懒蚂蚁”一样，合理安排时间，做好最重要的…
安全运维
- 10
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
思维模型 – 灯塔思维：明确远期目标，保持长远视野

迈克尔·西蒙斯通过研究成功的企业家，发现那些白手起家的亿万富翁企业家有着惊人的共性：他们总是能够从长远的视角来看待问题，而大多数人则只看眼前的利益。以亚马逊创始人贝索斯为例，他为了进行一些可能失败的实验，愿意长期投资数十亿美元，而他看重的并非短期的回报，而是未来可能带来的巨大收益。灯塔思维强调的是长远的视角和耐心。就像航海者在茫茫大海中靠着远方的灯塔找到方向一样，人生中的灯塔指引我们始终保持目标…
安全运维
- 30
- 0
aqzt25年2月11日
支付宝5分钟狂亏上亿，不追款实有不得已的苦衷

一、大事件，2025年1月16日，支付宝给大家发福利啦。当日14:40-14:45，所有通过支付宝支付的订单，统统打8折，包括购物、还信用卡、转账等等。网友跟过年一样，纷纷截图。打折的名义，写着“政府补贴”。支付宝官方表示，他们设置营销活动时，后来配置错了模版，把优惠额度和优惠金类型都写错了。不知道哪位IT大神，把支付宝的营销费当做福利发给了全国网友，现在他还好吗？年终奖还有吗？真想…
安全运维
- 9
- 0
aqzt25年2月11日
2024年十大网络安全事件盘点

10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月，微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工，窃取了部分电子邮件和附件，同时还访问了一些源代码库和内部系统。攻击者首先通过一个遗留的非生产测试租户账户获得访问权限，使用密码喷洒攻击，这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后，他们从被攻…
安全运维
- 39
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 8
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 63
- 0
aqzt25年2月11日
系统稳定性建设（7） – 稳定性建设实践总结

2020 年，注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划，同时也催生了一些在线业务办理能力的应用诉求，作为技术同学，需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份，正好梳理总结下自己的系统稳定性建设经验和思考。文章目录 Toggle 开篇一、系统稳定性建设是指什么？二、为什么需要系统稳定性建设？三、系统稳定性建设为什么难？3.1 面对的挑战比较大3.2 系…
安全运维
- 23
- 0
aqzt25年2月11日
2015.5·27支付宝大规模宕机事故反思学习

事故背景支付宝拥有超过4万亿年交易总额，是中国第一大第三方交易平台，约占中国整体社会消费金额的六分之一。2014年年11月，就有用户反映，支付宝钱包目前无法转账和提现，当用户使用这两项功能时会提示出现未知错误或创建交易失败，该问题在移动客户端以及电脑网页端均存在。事故经过2015年5月27日下午4点半左右，陆续有多个地区网友反映，支付宝出现网络故障，账号无法登录或转账。打开余额宝后，不能显示余额…
安全运维
- 13
- 0
aqzt24年12月21日
故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’

墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事情发生，那么它更有可能发生文章目录 Toggle 墨菲定律暗示我们，如果担心某种情况会发生，那么它更有可能发生，久而久之就一定会发生。这警示我们，在互联网公司，对生成环境发生的任何怪异现象和问题都不要轻视，对其背后的原因一定要调查清楚。同样，海恩法则也强调任何严重的事故背后都是很多次小问题…
安全运维
- 114
- 0
aqzt24年12月21日
故障治理 – 企业变革与创新 | 亚马逊创新“永动机”七大教训

亚马逊高管发布新书解析亚马逊企业变革与创新。第一个教训：创新，要慢慢来；第二个教训：从用户需求出发；第三个教训：不要将创新当成兼职，第四个教训：记住书名，逆向工作方法；第五个教训：好意图不可靠，机制才是可靠的；第六个教训，优秀的运营会深入细节；第七个教训，深入细节不等于事无巨细地控制管理。企业变革与创新应该如何实现？文章目录 Toggle 1 企业变革与创新，要慢慢来2 从用户需要什么出发，而…
安全运维
- 9
- 0
aqzt24年12月21日
故障复盘 – 复盘步骤与经验方法

复盘是一种回顾和分析过去行为、决策和结果的过程，目的是从过去的经历中学习并做出改进。故障复盘在实践中可能会遇到以下痛点：数据收集不完整：故障发生时，如果没有完整的日志记录、监控数据或其他关键信息，很难准确地追溯故障原因。参与人员配合度不高：复盘需要涉及各个相关部门，如果团队间协作不畅或不愿意承担责任，可能导致复盘无法深入。事后诸葛亮现象：复盘时容易忽略当时决策的局限性，过于理想化地看待问题…
安全运维
- 42
- 0
aqzt24年12月21日
故障发生最重要的是快速恢复故障

故障发生时在故障发生时，最重要的是快速恢复故障。而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中，一旦发生故障就会出现“多米诺骨牌效应”。也就是说，系统会随着一个故障开始一点一点地波及到其它系统，而且这个过程可能会很快。一旦很多系统都在报警，要想快速定位到故障源就不是一件简单的事了。在亚马逊内部，每个开发团队至少都会有一位 oncall 的工程师。在 oncall 的时候，工程师…
安全运维
- 17
- 0
aqzt24年12月21日
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践

大规模Zabbix万台应用监控场景下，针对告警、可靠性工程实践经验；通过Zabbix二次开发，集成运维平台、工单、值班、自愈系统，通告警服务化、数据化，为业务保驾护航，保障稳定性工程落地。京东集团是一家定位于以技术为本，业务为基，多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门，负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…
安全运维
- 15
- 0
aqzt24年12月21日
经验教训 – 2018.12.24 一个800万的教训：运维怎样规避违规操作风险？

“郑大一附院系统瘫痪2小时，违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示，北京中科某某科技有限公司的夏某某在未经授权或许可的情况下，私自编写了“数据库性能观测程序”和锁表语句，并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”，导致该锁表语句在“HIS数据库”运行并锁定，造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击，多个门诊业务系统无法正常操作，所有门…
安全运维
- 34
- 0
aqzt24年12月21日
故障复盘 – 复盘工具六顶思考帽复盘法

六顶思考帽不是思考者的类型。每个思考者都应该会用所有的帽子。白色思考帽：资料与信息获得客观信息和认识，保证思维尊重事实。红色思考帽：直觉与感情决策时恰当的情感、直觉和预感黄色思考帽：积极与乐观进行统一的、逻辑的、深刻的负面论证。黑色思考帽：逻辑与批判进行统一的、逻辑的、不断的正面探索。绿色思考帽：创新与冒险不断实施出新奇的探索，寻求新的方法。蓝色的思考帽：系统与控…
安全运维
- 11
- 0
aqzt24年12月21日
IT服务治理 – SRE工具链建设思路与实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 56
- 0
aqzt24年12月21日
ITIL 最佳实践中常出现的五个误区，领悟后有效提高生产质量管控

ITIL作为一种IT运维战略及最佳实践的方法，不仅仅能为IT部门自身的运维效率带来价值，更重要的是基于ITIL运维的IT服务体系能让整个企业的员工对IT服务的满意度得到提升。但是，把ITIL想象成简单的工具实施是完全不足以达到ITIL运维体系所带来的效果。ITIL告诉大家对IT运维管理必须有一个深思熟虑的长久规划，尽可能的在实施过程中规避一些常见的误区，并且在整个过程中一定要不断地进行调整和改善…
安全运维
- 4
- 0
aqzt24年12月21日
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训

文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发，尤其是后端研发，每年在618或者双11的时候压力特别大，他们祈求服务不要出故障，交易能正常进行，而且期望用户体验非常棒而不是卡顿404等。但是有时候就是事与愿违，比如在2015年11月11日傍晚，大部分用户反馈购物失败的情况，负责双…
安全运维
- 15
- 0
aqzt24年12月21日
2023已过，如何通过复盘获得提升？复盘六大工具

带领团队把任务完成，并不是完结，还缺少一个容易被忽略的环节——复盘总结。复盘是来自围棋领域的一个术语，是指一盘棋结束后，棋手复原整个棋局的全过程，反思自己和对方下棋的思路，思考下次对弈的策略。这种方法同样适用于管理，例如联想集团很早就已把复盘作为一个重要的管理方法论，强调及时对工作进行总结，从而做出优化和改进。管理者带领团队进行的复盘可以分为两类：一类是仪式感比较强的专项复盘，例如战…
安全运维
- 6
- 0
aqzt24年12月21日
IT服务治理 – 唯品会实现电商平台从业务到架构的治理体系

文章目录 Toggle VIP不同阶段发展历程的商业模式演进唯品会系统架构演变历程电商运营平台关键设计架构设计和治理 VIP不同阶段发展历程的商业模式演进唯品会在2008年12月创立，一直到2012年，唯品会在做的主要事件就是尾货的抛售，做线上的outlets商家。这种商业模式就是帮别人消化库存，但是这个库存消化完了，现在特卖，公司的重点在发生变化。目前电商被分为了分成了两类，一是平台级公司，包…
安全运维
- 15
- 0
aqzt24年12月21日