-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 35
- 0
-
稳定性建设 – 高可用容灾架构思路
大型分布式系统稳定性建设的重要性与方法。首先,强调了高可用容灾架构的建设,遵循面向故障设计、墨菲定律和自动化原则。接着,介绍了依赖的视角,指出高可用架构中不应存在强依赖。然后,讲解了并发、吞吐和延迟的概念,引入了SRE、DIO和AI OPE的概念。接着,强调了AI的开放思想,指出稳定性保障的对象是用户视角下的功能范畴。最后,提出了五个等级的容灾能力,强调了事前预防的重要性。此外,视频还详细讲解了事…- 10
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 6
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 55
- 0
-
系统稳定性建设(16) – 稳定架构设计思路
系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。 监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。 容错机制:建立完善的异常处理和容错机制,及时检测并隔…- 11
- 0
-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 15
- 0
-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 17
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 91
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 83
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 19
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 8
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 12
- 0
-
深入浅出,看资深专家如何解读ITIL4的四大价值维度
ITIL 4是AXELOS(ITIL版权所有方)组织全球范围内的顶级专家,历时两年多开发出来的。它将指导广大客户面对数字化时代IT服务管理所带来的挑战,并提供一个灵活、协调和集成的系统,以有效地治理和管理IT驱动(IT-enabled)的服务。 为了支持服务管理的整体方法, ITIL定义了四个维度, 这些维度对于以产品和服务的形式有效和高效地促进客户和其他利益相关者的价值至关重要。 下面请看,互联…- 10
- 0
-
经验教训 – 2020.11.25 亚马逊云服务事故
source: https://www.reportdoor.com/aws-outage-has-taken-down-a-big-chunk-of-the-internet/ 今天,我们以亚马逊去年的一个事故报告(AWS PES#11201)为例子,聊一聊如何从事故报告中学习。 文章目录 Toggle 读前须知亚马逊云服务事故报告的简要介绍 读前须知 从外部的官方报告中学习,我们需要…- 4
- 0
-
数字化运营基础技能 – pandas实战 – 数据清洗
这篇文章我会先给你讲解数据清洗的重要性,然后我会跟你列举数据清洗的四大准则,最后,我会用一个实战案例带你学会如何使用Python进行数据清洗。 也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了,接下来,咱们详细看一看。 文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…- 1
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 16
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 27
- 0
-
稳定性建设——《蚂蚁集团混沌工程技术理论与实践》
混沌初开,方兴未艾。混沌工程的概念由Netflix在2014年提出,近些年阿里,华为,腾讯,百度,工商银行等国内企业都有该领域的实践。 蚂蚁集团于2016年开始建设混沌工程体系,经历近6年的发展,目前以红蓝攻防为主要形式的混沌工程已有相当大的规模,从技术、机制、文化等层面驱动蚂蚁集团风险防控水位不断提升。 本文主要介绍蚂蚁集团的混沌工程体系,包括蚂蚁混沌工程的发展历程、业务特色、关键技术和平台以及…- 4
- 0
-
系统稳定性保障 – 云原生大潮下的混沌工程思考
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。 作者:智妍(郑妍)、浣碧(何颖) 文章目录 Toggle 什么是混沌工程,云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语 什么是混沌工程,云原生大潮下的混沌工程特点 通过使用云计算厂商如…- 93
- 0
-
ITIL是什么?itil 是运维管理最佳实践, 是IT界的MBA
ITIL是什么?IT界的MBA ITIL到底是什么呢?为什么需要它呢?适合哪些人呢?…… 01被称为IT界MBA的ITIL到底是什么?ITIL最早是英国商务部开发的一套面向信息技术日常运维管理的最佳实践,在2000年时ITIL官方在全球大力推广,最终ITIL在运维管理领域一枝独秀,成为全球公认的运维管理最佳实践。 服务战略的原则第一句话:但凡看到有人提价值创造,我脑子里没有别的,就只有这句话。“客…- 3
- 0
-
经验教训 – 2022年6月21日 Cloudflare 服务故障报告
文章目录 Toggle 简介背景事件时间线(按 UTC)和影响这次事件技术描述及其发生过程补救及后续步骤总结 简介 2022 年 6 月 21 日,Cloudflare 发生了一次服务故障事件,影响到我们 19 个数据中心的流量。不幸的是,这 19 个数据中心处理的流量在我们的全球流量中占较大比例。这次服务故障事件的起因是我们在一个长期项目中所做的一项更改。该项目旨在提高我们最忙碌的一些数据中心的…- 11
- 0
-
运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业…- 11
- 0
-
故障治理 – 了解华为的流程管理系统
前言: 任正非先生一直强调客户、流程与绩效是企业管理中最重要的三件事。事实上,华为导入咨询公司的一个重点就是“流程管理”。在过去的近20年中,华为通过以业务为导向的流程管理体系,大大提升了整体运营效率,取得了举世瞩目的成绩! 华为公司提倡流程化的企业管理方式,任何业务活动都有明确的结构化流程来指导,流程建设把所有人从海量的、低价值的、简单重复的工作中解放出来。 首先,大家要明白流程是通过一系列可重…- 7
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 4
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
















