全部标签

自动化

AI 喂饭指令 – DeepSeek

《DeepSeek：30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令，旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。在内容创作类，指令从不同创作形式出发。爆款标题生成指令，借助数字、情绪词和悬念吸引眼球；小红书种草文指令，要求突出使用场景和痛点解决方案；短视频脚本指令，强调开场悬念、中间反转和结尾行动号召；公众号长文指令，通过分论点…
安全运维
- 10
- 0
aqzt25年2月11日
2024年十大网络安全事件盘点

10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月，微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工，窃取了部分电子邮件和附件，同时还访问了一些源代码库和内部系统。攻击者首先通过一个遗留的非生产测试租户账户获得访问权限，使用密码喷洒攻击，这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后，他们从被攻…
安全运维
- 33
- 0
aqzt25年2月11日
稳定性建设 – 高可用容灾架构思路

大型分布式系统稳定性建设的重要性与方法。首先，强调了高可用容灾架构的建设，遵循面向故障设计、墨菲定律和自动化原则。接着，介绍了依赖的视角，指出高可用架构中不应存在强依赖。然后，讲解了并发、吞吐和延迟的概念，引入了SRE、DIO和AI OPE的概念。接着，强调了AI的开放思想，指出稳定性保障的对象是用户视角下的功能范畴。最后，提出了五个等级的容灾能力，强调了事前预防的重要性。此外，视频还详细讲解了事…
安全运维
- 7
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 49
- 0
aqzt25年2月11日
系统稳定性建设（16） – 稳定架构设计思路

系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。容错机制:建立完善的异常处理和容错机制,及时检测并隔…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 11
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 14
- 0
aqzt25年2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 81
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 75
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 13
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
实践案例 – 货拉拉全链路监控体系的落地与实践

今天分享的主题是货拉拉全链路监控体系的落地与实践，以下是分享大纲。分享大纲文章目录 Toggle 一、监控演进史1、行业2、货拉拉1）监控1.0时期2）监控2.0时期3）监控3.0时期二、货拉拉监控体系整体架构三、监控埋点1、JAVA SDK图谱2、什么是字节码增强技术？1）字节码增强技术的应用 – 热修复Log4j2漏洞2）Java Agent技术3）字节码增强框架4）字节码增强…
安全运维
- 18
- 0
aqzt24年12月21日
最佳实践 – 技术如何从小白到管理，怎么支撑业务快速发展？

一、背景技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设，能够在百人，千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队，快速拿出成果，支撑业务的快速发展。二、痛点从小团队人员快速扩张，团队文化稀释，人员效能下降，目标逐渐弱化。各自团队管理方式及标准不统一，人员管理及协同逐渐混乱。组织扩大后，难以有效关注个人，无法准确评判个人的成长，贡献等。三、目标通…
安全运维
- 4
- 0
aqzt24年12月21日
Flink SQL 抖音实时数仓保障及治理实践与优化

文章目录 Toggle 一、实时数仓场景介绍二、实时数仓场景初探三、典型场景实践四、未来规划一、实时数仓场景介绍为了数据湖更好的落地，我们在落地之前与业务做了一些深入的沟通，并根据不同业务的特点主要分为了三个场景： 1）场景一典型的业务主要是短视频和直播，它的数据量级一般都比较大，例如大流量的日志数据，其计算周期一般是自然的天、小时或者分钟级别的，实时性的要求一般是五分钟内，主要诉求是批流的复…
安全运维
- 67
- 0
aqzt24年12月21日
IT运维最佳实践 – 一线游戏运维心得（同行经验）

自2015年开始从事游戏行业一线运维工作，至今（2022）已经近7年。网易游戏：2015.04 ~ 2021.04灵犀互娱：2021.04 至今文章目录 Toggle 背景1、运维人员的定位运维叫什么？PE？SRE？什么是SRE？什么是可用率？可用率到底要达到几个9？不同人眼中的运维项目组对运维的核心诉求技术要专，还是广？运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地？忙不过…
安全运维
- 24
- 0
aqzt24年12月21日
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘：技术架构的脆弱性与教训

2024年12月11日，OpenAI经历了一场全球范围的服务中断，持续时间超过四个小时，影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16，直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思，揭示了当前技术体系中潜在的脆弱性。文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施造成影响 ChatGPT：在下午5:4…
安全运维
- 17
- 0
aqzt24年12月21日
系统稳定性保障 – 美团AIOps在事件管理的硬核实践

文中所提及的事件并不仅限于故障，还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景在《AIOps在…
安全运维
- 13
- 0
aqzt24年12月21日
深入浅出,看资深专家如何解读ITIL4的四大价值维度

ITIL 4是AXELOS（ITIL版权所有方）组织全球范围内的顶级专家，历时两年多开发出来的。它将指导广大客户面对数字化时代IT服务管理所带来的挑战，并提供一个灵活、协调和集成的系统，以有效地治理和管理IT驱动（IT-enabled）的服务。为了支持服务管理的整体方法, ITIL定义了四个维度, 这些维度对于以产品和服务的形式有效和高效地促进客户和其他利益相关者的价值至关重要。下面请看，互联…
安全运维
- 6
- 0
aqzt24年12月21日
经验教训 – 2020.11.25 亚马逊云服务事故

source: https://www.reportdoor.com/aws-outage-has-taken-down-a-big-chunk-of-the-internet/ 今天，我们以亚马逊去年的一个事故报告（AWS PES#11201）为例子，聊一聊如何从事故报告中学习。文章目录 Toggle 读前须知亚马逊云服务事故报告的简要介绍读前须知从外部的官方报告中学习，我们需要…
安全运维
- 3
- 0
aqzt24年12月21日
数字化运营基础技能 – pandas实战 – 数据清洗

这篇文章我会先给你讲解数据清洗的重要性，然后我会跟你列举数据清洗的四大准则，最后，我会用一个实战案例带你学会如何使用Python进行数据清洗。也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了，接下来，咱们详细看一看。文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…
安全运维
- 1
- 0
aqzt24年12月21日
监控治理 – 监控报警优化经验总结

当一个中大型互联网公司，每天由监控系统发出大量报警，而故障却始终无法及时发现的时候，如何能够快速找到问题的根源，如何改进，以及如何度量改进的效果，这一系列的问题就会摆在我们面前，本文基于作者在多家公司的监控治理经验，从评价体系角度出发，整理了十多个相关的指标，从而能够对监控系统以及各个业务线进行有效度量。评价体系分为三类第一类是效果指标，用于概要性说明监控治理的结果，通过召回率和发现时长来进行…
安全运维
- 9
- 0
aqzt24年12月21日
经验教训 – 2018.12.24 一个800万的教训：运维怎样规避违规操作风险？

“郑大一附院系统瘫痪2小时，违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示，北京中科某某科技有限公司的夏某某在未经授权或许可的情况下，私自编写了“数据库性能观测程序”和锁表语句，并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”，导致该锁表语句在“HIS数据库”运行并锁定，造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击，多个门诊业务系统无法正常操作，所有门…
安全运维
- 21
- 0
aqzt24年12月21日
稳定性建设——《蚂蚁集团混沌工程技术理论与实践》

混沌初开，方兴未艾。混沌工程的概念由Netflix在2014年提出，近些年阿里，华为，腾讯，百度，工商银行等国内企业都有该领域的实践。蚂蚁集团于2016年开始建设混沌工程体系，经历近6年的发展，目前以红蓝攻防为主要形式的混沌工程已有相当大的规模，从技术、机制、文化等层面驱动蚂蚁集团风险防控水位不断提升。本文主要介绍蚂蚁集团的混沌工程体系，包括蚂蚁混沌工程的发展历程、业务特色、关键技术和平台以及…
安全运维
- 4
- 0
aqzt24年12月21日