全部标签

攻击

系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 43
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 9
- 0
aqzt25年2月11日
2024年十大网络安全事件盘点

10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月，微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工，窃取了部分电子邮件和附件，同时还访问了一些源代码库和内部系统。攻击者首先通过一个遗留的非生产测试租户账户获得访问权限，使用密码喷洒攻击，这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后，他们从被攻…
安全运维
- 23
- 0
aqzt25年2月11日
系统稳定性建设（11） – 系统总出故障怎么办？稳定性建设是什么？

大家好，我是树哥。说到系统稳定性，不知道大家会想起什么？我想大多数人会觉得这个词挺虚的，不知道系统稳定性指的是什么。一年前的我看到这个词，也是类似于这样的感受，大概只知道要消除单点、做好监控报警，但却并没有一个体系化的方法论。经过一段时间的摸索，我对系统稳定性有了较为体系化的认识，于是迫不及待地希望和大家一起分享。所以今天，就让我跟大家简单聊聊系统稳定性建设这个话题吧！文章目录 Toggl…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 38
- 0
aqzt25年2月11日
阿里大模型通义千问开源

从官网中介绍，通义千问有以下几个优点：训练时使用了大规模的高质量数据：使用了超过2.2万亿token进行预训练更好地支持多语言：基于更大词表的分词器在分词上更高效，同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。支持8K长度上下文：允许用户输入更长的prompt。评测能力有大幅提升：通义千问在多个评测数据集上具有显著优势，甚至超出12-13…
安全运维
- 5
- 0
aqzt24年12月21日
故障治理 – 线上故障分析与故障治理指引

文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么？-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …
安全运维
- 23
- 0
aqzt24年12月21日
实践案例 – 预案管理故障预案6板斧

故障处理trouble shooting是每个SRE要做的日常，特别是处在快速成长期的大型互联网系统，模块多、变更多、访问量大、用户环境复杂，不就是这坏就是那坏，SRE就像一个医师，需要在故障时协同研发动各种手术去修复系统，常用的修复的方法一般会提前梳理准备好，我们称作预案。经过无数次的故障处理，发觉是有一些不变的套路的，每次故障处理基本都是围绕这几个套路在做排列组合，其中最常用的6个，我把他总…
安全运维
- 4
- 0
aqzt24年12月21日
经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考

Windows蓝屏致损150亿美元，受灾者仅获赔10美元引热议，程序员激辩用Rust能否改写史上最大IT故障结局？ “就算是 Rust，也救不了这次 CrowdStrike 的中断事故。” 距离 Windows 大范围蓝屏事件，已经过去了 6 天。这 6 天来，国内外技术网站仍对此事热议不断，“罪魁祸首” CrowdStrike 的名字被频繁提及，与之伴随的无一不是质疑和谴责： CrowdStr…
安全运维
- 1
- 0
aqzt24年12月21日
实践案例 – 故障治理阿里电商故障治理和故障演练实践

大家好，今天来的人不少，可见对于故障耿耿于怀的人，不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知，故障治理本身就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的全部岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要还是回归故障发生的本质，故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 24年史上最大规模宕机事件的10个重要教训

网络安全公司CrowdStrike旗下的猎鹰传感器（Falcon Sensor）的一次软件更新引发了一场全球危机，导致全球安装有Windows系统计算机出现大规模的蓝屏死机（blue screen of death,即BSOD），结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃，直接影响了数百万用户，成为历史上最大的 IT 故障。初步统计，宕机事件给财富 500 强企业造成高达 54 亿美元的损…
安全运维
- 2
- 0
aqzt24年12月21日
运维稳定性 – 故障处理的系统稳定性与可观测性能力实践

笔者从 12 年开始入行，从事 DevOps 研发工作，做过部署系统、监控系统、可观测性相关产品，也做过 SRE 一线和管理工作，对于可观测性的理解和实践，有一些小小的见解，利用本文和大家做一个探讨分享。本文主要内容包括：可观测性在整个商业体系中的位置和价值如何快速发现故障，使用哪类指标告警 SRE 在谈论故障定位的时候，谈的是什么如何找到故障直接原因，找到止损依据如何让可观测性系统呈现观…
安全运维
- 1
- 0
aqzt24年12月21日
系统稳定性保障 – 混沌工程 – 持续保障系统稳定性和高可用：腾讯游戏混沌工程实践

最近一两年，我们可以发现混沌工程这个技术变得十分火热，大家都知道它变成了一个新的风口。常说做事情要顺势而为，我们希望能够抓住这个机会，所以我最近一年的工作主要是将混沌工程这一技术在腾讯游戏落地。文章目录 Toggle 一、什么是混沌工程1、混沌工程的定义2、混沌工程的作用1）故障预防2）故障发现3）故障响应4）故障定位5）故障恢复6）复盘改进二、混沌工程平台建设1、流程设计1）实验前2）实验中3…
安全运维
- 5
- 0
aqzt24年12月21日
运维生产故障有哪些？运维常见问题最佳实践

运维生产故障是指在运维过程中出现的各种问题和故障，可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类，下面是一些常见的运维生产故障分类和其常见类型： 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括：– 服务器故障：例如硬盘故障、内存故障等。– 网络设备故障：例如…
安全运维
- 16
- 0
aqzt24年12月21日
问题就是机遇

乔治·吉尔德为《价值为纲》所写的序言 “不要只想着解决问题”。这是已故管理理论鼻祖彼得·德鲁克的建议。德鲁克是什么意思？解决问题是几乎所有企业经理及其公司的首要任务和议程。但是，正如这本正当其时的书所展示的那样，当你解决问题时，你往往会助长你的失败，耗尽你的力量，陷入代价高昂的平庸。问题使你倾向于过去，而创业精神关乎未来。 “不要只想着解决问题，”德鲁克说。“相反，追求机会。”当你追求机会时，…
安全运维
- 15
- 0
aqzt24年12月21日
经验教训 – 网络安全十四条经验教训

2022年，是网络安全市场高速发展的一年，同时也是企业评估安全项目投资有效性，校准和优化安全防御战略和预算的关键时间节点。面对快速迭代的网络威胁，每位CISO都有自己的方法和视角来总结和反思即将过去的2022年，此类经验总结可为未来的战略规划提供宝贵的知识，正如Veracode首席信息安全官Sohail Iqbal所言：“如果企业不打算吸取这些教训并完善其安全实践，那么将面对更加严格的安全审计和第…
安全运维
- 2
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 5Why法

发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问，发现解决问题的线索，寻找发明思路，进行设计构思，从而搞出新的发明项目，这就叫做5W2H法。（1）WHAT——是什么，目的是什么，做什么工作。（2）WHY——为什么要做，可不可以不做，有没有替代方案。（3）WHO——谁，由谁来做。（4）WHEN——何时，什么时间做，什么时机最适宜。（5）WHERE——何处，在哪里做。（6）HOW ——怎…
安全运维
- 5
- 0
aqzt24年12月21日
运维工具 – 大众点评评论文本挖掘基础案例实践

文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取（TF-IDF）机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…
安全运维
- 28
- 0
aqzt24年12月21日
故障治理 – 回顾近年数据中心十大灾难事件

数据中心的存在，就是为了保障计算的安全与可连续性。然而，仅仅最近三年中，数据中心发生了十余件故障乃至灾难。详见：《盘点：近年数据中心十大灾难事件》数据中心系统庞杂，运维安全本就不易，近年来的极端气候、技术发展等因素，也为数据中心高可靠性带来了新挑战，我们应该如何预防与应对？数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现，电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…
安全运维
- 20
- 0
aqzt24年12月21日
数字化运维 – 异常数据分析实践，孤立森林异常检测算法原理和实战

孤立森林(isolation Forest)算法，2008年由刘飞、周志华等提出，算法不借助类似距离、密度等指标去描述样本与其他样本的差异，而是直接去刻画所谓的疏离程度(isolation)，因此该算法简单、高效，在工业界应用较多。 Isolation Forest算法的逻辑很直观，算法采用二叉树对数据进行分裂，样本选取、特征选取、分裂点选取都采用随机化的方式。如果某个样本是异常值，可能需要很少次…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 3.29 #微信QQ出现功能异常#，冲上热搜，妥妥的第一

包括微信语音、账号登录、朋友圈，以及微信支付，都无法正常使用。有网友表示，电脑版微信大概是在早上10:00左右恢复登录，和小雷登录的时间相吻合。据腾讯的最新财报显示，微信及WECHAT月活数高达13.1亿，如此大用户量的产品出现故障无疑对大众生活工作带来了不少的影响。不过有一说一，大厂们服务器故障，似乎每年都得上演那么几次。轻微一些的，有像B站前阵子那样，视频短暂崩溃了半小时。严重点的，…
安全运维
- 3
- 0
aqzt24年12月21日
2015.5·27支付宝大规模宕机事故反思学习

事故背景支付宝拥有超过4万亿年交易总额，是中国第一大第三方交易平台，约占中国整体社会消费金额的六分之一。2014年年11月，就有用户反映，支付宝钱包目前无法转账和提现，当用户使用这两项功能时会提示出现未知错误或创建交易失败，该问题在移动客户端以及电脑网页端均存在。事故经过2015年5月27日下午4点半左右，陆续有多个地区网友反映，支付宝出现网络故障，账号无法登录或转账。打开余额宝后，不能显示余额…
安全运维
- 8
- 0
aqzt24年12月21日
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理

服务端作为顺风车技术部内最大的工程团队，随着人员的扩张和迭代，流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率，另一方面，我们也希望在一次次的实战中不断的总结，探索出适用于我们团队的最佳实践。基于此，我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范，包括研发流程、稳定性、性能成本等多个方面。本文给出其中稳定性相关的规范，这些规范都是顺风车成立五…
安全运维
- 5
- 0
aqzt24年12月21日