全部标签

服务器

2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 110
- 0
aqzt25年2月11日
2024年复盘-互联网十大故障分析回顾

故障回顾随着2024年的圆满结束，今天，我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例，总结经验教训，并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障故障描述：1月11日晚，多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜，今天凌晨0时许…
安全运维
- 22
- 0
aqzt25年2月11日
系统稳定性建设（11） – 系统总出故障怎么办？稳定性建设是什么？

大家好，我是树哥。说到系统稳定性，不知道大家会想起什么？我想大多数人会觉得这个词挺虚的，不知道系统稳定性指的是什么。一年前的我看到这个词，也是类似于这样的感受，大概只知道要消除单点、做好监控报警，但却并没有一个体系化的方法论。经过一段时间的摸索，我对系统稳定性有了较为体系化的认识，于是迫不及待地希望和大家一起分享。所以今天，就让我跟大家简单聊聊系统稳定性建设这个话题吧！文章目录 Toggl…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 8
- 0
aqzt25年2月11日
系统稳定性建设（9） – 稳定性监控体系建设实践

文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…
安全运维
- 30
- 0
aqzt25年2月11日
系统稳定性建设（7） – 稳定性建设实践总结

2020 年，注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划，同时也催生了一些在线业务办理能力的应用诉求，作为技术同学，需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份，正好梳理总结下自己的系统稳定性建设经验和思考。文章目录 Toggle 开篇一、系统稳定性建设是指什么？二、为什么需要系统稳定性建设？三、系统稳定性建设为什么难？3.1 面对的挑战比较大3.2 系…
安全运维
- 23
- 0
aqzt25年2月11日
系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（6） – 研发路上对稳定性治理的一些总结与思考

我是在 2014 年入职饿了么，从前端和 PHP 一直做到后端架构和团队，从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队；2018 年从业务研发团队抽身，6 个人组起一个小组投身机器学习，试图结合实际的业务场景通过技术改造业务；2019 年回归到平台（中台）研发，负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 96
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 88
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 21
- 0
aqzt25年2月11日
IT服务管理:故障治理 – 运维故障排查处理思路

在讲解事件、故障处理思路前，先讲一个故障场景（以呼叫中心系统作为一例子）：业务人员反映呼叫中心系统运行缓慢，部份电话在自助语言环节系统处理超时，话务转人工座席，人工座席出现爆线情况。运维人员开始忙活了，查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去，但是原因还未定位。经理过来了解情况：“系统恢复了吗？”、“故障影响是什么？”、…
安全运维
- 38
- 0
aqzt24年12月21日
2023.11.27滴滴系统崩了 P0级故障？

昨天（11月26日）晚上，不少用户向潮新闻记者帮反映“滴滴系统崩了，还车还不了。” 今天（11月27日）早上，滴滴发布最新通告，致歉的同时表示，系统已修复。原文如下：经技术团队连夜修复，滴滴网约车等服务已恢复，用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中，所有可开锁或未关锁的青桔车辆均可免费骑行，希望能为缓解早高峰压力努力多做一点点。 11月27日晚间因系统故障导致App服务异常…
安全运维
- 38
- 0
aqzt24年12月21日
故障治理 – 京东科技之全链路故障诊断-智能运维实践

讲师介绍张静，京东科技智能运维算法高级经理。硕士毕业于东北大学，持续深耕智能运维领域多年，带领团队致力于京东智能运维算法迭代，把智能算法能力落地京东线上横向业务场景，算法在监控、数据库、网络、资源调度等多个纵向场景取得突破，提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文，申请智能运维发明专利50余项，IEEE国际会议论文收录9篇。分…
安全运维
- 5
- 0
aqzt24年12月21日
[经验分享]远离故障的十大原则

故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项：可用性。可用性高就是不出故障，各个公司对可用性和故障评级的标准都不相同，但是避免故障的方法却是殊途同归。我们怎么避免故障，沃趣科技简单列举了以下几条，与大家共勉！1、变更要有回滚，在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障，变更请谨慎7、搭建…
安全运维
- 8
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 5Why法

文章目录 Toggle 5Why法案例1：生产设备突然停机案例2：网络服务器宕机案例3：APP闪退问题 5Why法 5Why法是一种深度追问、寻找问题根本原因的分析方法，通过连续问五个“为什么”，逐步揭示问题的本质。以下是三个应用5Why法进行故障复盘的案例：案例1：生产设备突然停机 What（什么）：生产设备突然停机，无法正常运转。 Why1（为什么）：因为电机过热导致自动保护开关跳闸。 Wh…
安全运维
- 20
- 0
aqzt24年12月21日
运维工具 – 大众点评评论文本挖掘基础案例实践

文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取（TF-IDF）机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…
安全运维
- 38
- 0
aqzt24年12月21日
IT运维治理 – 美团点评数据库智能运维探索与实践

讲师介绍：赵应钢，曾就职于百度、新浪、去哪儿网等，10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员，DBA团队(北京)负责人，负责MySQL、KV服务的平台建设和技术保障工作。演讲大纲： ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要：传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…
安全运维
- 30
- 0
aqzt24年12月21日
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库，宕机10小时

微软 Azure DevOps 是一套应用程序生命周期服务，提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而，就在 5 月 24 日，这个服务在巴西南部区域发生了长达 10 小时的宕机，影响了数千名客户。事后调查发现，竟然是因为一个简单的拼写错误，导致了 17 个生产数据库被误删。事件背景起源于，Azure DevOps 工程师有时需要对生产数据库的快照进行保存，以调查报告的问…
安全运维
- 6
- 0
aqzt24年12月21日
经验教训 – 从10次宕机事件中，我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”

今年的灾难事件有几点是比较深刻体会：第 1 课：循环依赖会破坏你的运维工具流程工具与生产工具是结合一起，出问题往往是最不起眼功能环节，就是一棵螺丝钉第 2 课：愚蠢的自动化强依赖于流程工具与自动化工具，应急时缺少了走火通道第 3 课：现在是 2023年，数据库仍然很棘手灾难恢复后最耗时就是数据关系重建，数据完整性、一致性处理第 4 课：分阶段慢慢部署变更需要遵循最小灰度原则第 5 课：为…
安全运维
- 7
- 0
aqzt24年12月21日
conda常用命令

1 创建虚拟环境conda create -n env_nameconda create -n env_name python=3.5 # 创建指定python版本conda create -n env_name package_name # 创建环境并安装名为package_name 的包conda create -n env_name python=3.5 numpy scipy # 创建指定…
安全运维
- 10
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 KPT法

文章目录 Toggle KPT法故障复盘案例案例1：服务器宕机事件案例2：网络通信故障案例3：软件系统bug导致用户数据异常 KPT法故障复盘案例 KPT法（Keep/Problem/Try）是一种简洁实用的复盘方法，分别对应保留（维持好的做法）、问题（识别现存问题）和尝试（提出改进措施）三个方面。下面是三个应用KPT法进行故障复盘的案例：案例1：服务器宕机事件 Keep（保留）：在此次服务器宕…
安全运维
- 24
- 0
aqzt24年12月21日