全部标签

操作系统

系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 6
- 0
aqzt25年2月11日
2024年互联网故障盘点，我们能从故障中学到什么？

2024年已过，让我们来盘点今年出现的故障。回顾这一年，我们经历了各种挑战和困难，但也从中学到了许多宝贵的经验。在面对不确定性时，我们学会了更多灵活地调整策略，每一次解决问题的过程，都是对能力的一次历练。虽然路途不易，所幸我们在变化中成长，塑造更强大的自己，也对未来充满了信心和期待。 2024年发生的宕机事件谁能想到，“崩”也成了一种上热搜的新姿势。回顾2024年，微软、腾讯云、支付宝、美团、…
安全运维
- 110
- 0
aqzt25年2月11日
2024年复盘-互联网十大故障分析回顾

故障回顾随着2024年的圆满结束，今天，我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例，总结经验教训，并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障故障描述：1月11日晚，多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜，今天凌晨0时许…
安全运维
- 22
- 0
aqzt25年2月11日
IT服务治理 – 阿里为什么能抗住90秒100亿？负载均衡架构实践

本文以淘宝作为例子，介绍从一百个并发到千万级并发情况下服务端的架构的演进过程，同时列举出每个演进阶段会遇到的相关技术，让大家对架构的演进有一个整体的认知，文章最后汇总了一些架构设计的原则。基本概念在介绍架构之前，为了避免部分读者对架构设计中的一些概念不了解，下面对几个最基础的概念进行介绍。 1）什么是分布式？系统中的多个模块在不同服务器上部署，即可称为分布式系统，如Tomcat和数据库分别部…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 网络安全经验经验，帮你降低损失风险

对于很多首席信息安全官来说，即将到来的2023年是一个很好的时机，可以反思他们在2022年里学到的经验和教训，以及如何将它们应用到未来。动荡的2022年即将结束，在这一年，埃隆·马斯克收购了Twitter，俄乌冲突，许多员工重返办公室。人们还看到，一些安全主管因隐瞒数据泄露而被判入狱。这些事件以及更多事件改变了业务格局，迫使首席信息安全官在不确定领域前行。Trustwave公司的首席信息官Ko…
安全运维
- 13
- 0
aqzt24年12月21日
IT运维治理 – 美团点评数据库智能运维探索与实践

讲师介绍：赵应钢，曾就职于百度、新浪、去哪儿网等，10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员，DBA团队(北京)负责人，负责MySQL、KV服务的平台建设和技术保障工作。演讲大纲： ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要：传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…
安全运维
- 30
- 0
aqzt24年12月21日
经验教训 – 运维工程师不得不看的日常经验，帮你远离故障

1. 测试使用当初学习Linux的使用，从基础到服务到集群，都是在虚拟机做的，虽然老师告诉我们跟真机没有什么差别，可是对真实环境的渴望日渐上升，不过虚拟机的各种快照却让我们养成了各种手贱的习惯，以致于拿到服务器操作权限时候，就迫不及待的想去试试。记得上班第一天，老大把root密码交给我，由于只能使用putty，我就想使用xshell，于是悄悄登录服务器尝试改为xshell+密钥登录，因为没有测…
安全运维
- 2
- 0
aqzt24年12月21日
实践案例 – 告警定级为告警治理核心，告警智能定级原理探索

很多大规模复杂在线服务系统，比如 Google、Amazon、Microsoft 和大型商业银行，包含数以千计的分布式组件，并同时支持大量用户使用。为了保障高质量服务和良好的用户体验，这些公司引入监控系统，智能收集服务组件的监控数据，比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据，确保在服务异常时产生告警。这也带来一个问题，大型服务系统通常会不间断地被捕捉到大量告…
安全运维
- 11
- 0
aqzt24年12月21日
经验教训 – 软件Bug引发的十多次严重后果

你知道吗，由于软件故障（bug），美国经济每年在浪费生产力、返工和实际毁坏上损失了数十亿美元。本文列举了一些由软件 Bug 引发重大事故，其结果是大量金钱损失，甚至人员死亡。 1. 爱国者导弹 1991 年 2 月第一次海湾战争期间，部署在沙特宰赫兰的美国爱国者导弹系统未能成功追踪和拦截来袭的伊拉克飞毛腿导弹。结果飞毛腿导弹击中美国军营。损失：28 名士兵死亡，100 多人受伤故障原因：时间计…
安全运维
- 28
- 0
aqzt24年12月21日
实践案例 – 苏宁 AI 监控运维保障建设实践

文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景建设背景近些年，苏宁一直基于云技术对外提供服务、产品、内容…
安全运维
- 97
- 0
aqzt24年12月21日
故障治理 – 线上故障分析与故障治理指引

文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么？-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …
安全运维
- 45
- 0
aqzt24年12月21日
实践案例 – 百分点大数据技术团队：万亿级大数据监控平台建设实践

随着互联网业务的迅速发展，用户对系统的要求也越来越高，而做好监控为系统保驾护航，能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目，完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控，沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术…
安全运维
- 8
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践（2）

一、前言之前在《云原生背景下的运维价值思考与实践(上)》里，重点介绍了云原生背景下运维转型的思考，围绕着整个 DevOps 交付链，贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段，通过我们的构建服务稳定性保障实践，利用 SRE 的思想与方法，不断去冲刺稳定性的终极目标：“提升 MTBF（平均故障时间间隔）、降低 MTTR（故障平均修复时间）”，很多小伙伴会有疑问，D…
安全运维
- 23
- 0
aqzt24年12月21日
实践案例 – vivo监控系统这样演进才稳妥

一、业务背景当今时代处在信息大爆发的时代，信息借助互联网的潮流在全球自由的流动，产生了各式各样的平台系统和软件系统，越来越多的业务也会导致系统的复杂性。当核心业务出现了问题影响用户体验，开发人员没有及时发现，发现问题时已经为时已晚，又或者当服务器的CPU持续增高，磁盘空间被打满等，需要运维人员及时发现并处理，这就需要一套有效的监控系统对其进行监控和预警。如何对这些业务和服务器进行监控和维护是…
安全运维
- 10
- 0
aqzt24年12月21日
conda常用命令

1 创建虚拟环境conda create -n env_nameconda create -n env_name python=3.5 # 创建指定python版本conda create -n env_name package_name # 创建环境并安装名为package_name 的包conda create -n env_name python=3.5 numpy scipy # 创建指定…
安全运维
- 10
- 0
aqzt24年12月21日
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因

11月29日，滴滴出行再就27日夜间系统故障致歉，提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果：起因是底层系统软件发生故障，并非网传的“遭受攻击”。同时，滴滴表示，当前所有服务已全部恢复，后续将深入开展技术风险隐患排查和升级工作，全面保障服务稳定性，尽最大努力避免类似事故再发生。滴滴拥有庞大的业务线，其底层系统由复杂的软硬件构成，其中包括服务器、网络设备、数据库等等重要组成部…
安全运维
- 7
- 0
aqzt24年12月21日
PYTHON基础技能 – Python进程管理的15大实战策略

文章目录 Toggle 1. 理解进程与多进程2. 使用multiprocessing模块创建子进程3. 进程池管理4. 进程间通信：队列5. 锁与同步6. 管道通信7. 使用subprocess模块8. 进程监控与管理9. 进程优先级调整10. 异常处理与日志记录11. 并发模型的选择：进程 vs. 线程 vs. 协程12. 利用concurrent.futures简化多进程编程13. 进程死锁…
安全运维
- 7
- 0
aqzt24年12月21日
故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’

墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事情发生，那么它更有可能发生文章目录 Toggle 墨菲定律暗示我们，如果担心某种情况会发生，那么它更有可能发生，久而久之就一定会发生。这警示我们，在互联网公司，对生成环境发生的任何怪异现象和问题都不要轻视，对其背后的原因一定要调查清楚。同样，海恩法则也强调任何严重的事故背后都是很多次小问题…
安全运维
- 98
- 0
aqzt24年12月21日
平安夜美国航空停飞！股价暴跌超5%，运维工程师再背锅？事件回顾

12月24日，圣诞节前夕，原本应该是旅客出行最繁忙的时间段，美国航空公司的一则突发消息，让原本计划出行的旅客遭遇了一场突发风波。 24日，美国联邦航空管理局（FAA）突然宣布，美国航空公司（American Airlines）24日全国范围内停飞所有的航班。随后，美国航空公司迅速在社交平台X上发文，称该公司所有航班正在经历技术问题，导致运营在全年最繁忙的旅行日之一中断。消息一经发出，在美引发轩…
安全运维
- 72
- 0
aqzt24年12月21日
运维原则 – 谷歌SRE的7条基本原则

拥抱合理的风险最大化系统的稳定性不仅毫无意义，而且会适得其反。不切实际的可靠性目标限制了新功能交付给用户的速度，而且用户通常不会注意到极端的可用性(比如99.99999%)，因为他们的体验是由最不稳定的组件决定的。拥有100%的可用性需求严重限制了团队向系统交付更新和改进的能力。想要交付许多新特性的服务所有者应该选择不那么严格的SLOs，从而让他们在出现无关紧要的bug时可以继续交付。服务所有…
安全运维
- 9
- 0
aqzt24年12月21日
PYTHON基础技能 – 15个Python进阶操作系统交互高级命令

今天我们要来探索那些让程序与操作系统无缝对接的高级命令！让我们一起把Python变成操作系统的隐形指挥官吧！文章目录 Toggle 1. 系统调用：os模块的魔法杖2. 目录间的舞蹈：os.path3. 文件的搬运工：shutil4. 文件的读写艺术家：open()5. 批处理文件名：glob6. 进程的交响乐：multiprocessing7. 定时任务：schedule8. 环境变量的探秘：…
安全运维
- 2
- 0
aqzt24年12月21日
运维生产故障有哪些？运维常见问题最佳实践

运维生产故障是指在运维过程中出现的各种问题和故障，可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类，下面是一些常见的运维生产故障分类和其常见类型： 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括：– 服务器故障：例如硬盘故障、内存故障等。– 网络设备故障：例如…
安全运维
- 24
- 0
aqzt24年12月21日
PYTHON基础技能 – Python文件与目录管理的15个技巧

今天我们将一起探索如何像专家一样管理你的文件和目录。无论是整理杂乱无章的文档，还是自动化备份过程，Python都提供了强大的工具。让我们从基础开始，逐步深入。文章目录 Toggle 技巧1 查看当前目录技巧2 列出目录内容技巧3 创建新目录技巧4 删除目录技巧5 复制文件技巧6 移动或重命名文件技巧7 遍历目录树技巧8 读取文件内容技巧9 写入文件技巧10 分割路径组件技巧11 文件路径拼接技巧…
安全运维
- 3
- 0
aqzt24年12月21日