全部标签

隔离

系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 9
- 0
aqzt2月11日
支付宝打8折P0资损故障思考

2025年1月16日下午14:40至14:45，支付宝平台出现重大故障。在这短短5分钟内，用户在进行个人转账、信用卡支付、缴费等操作时，订单支付页面均弹出“政府补贴”提示，直接享受到了20%的减免优惠。（图片来源于网络）关于支付宝是否补扣用户的钱，网友各种意见都有。我个人的观点：如果支付宝要扣，一定是在法律框架允许的情况下扣回，当然这不可避免带来网友们的口诛笔伐。如果不扣，也有很多先例，包括多…
安全运维
- 4
- 0
aqzt2月11日
系统稳定性建设（11） – 系统总出故障怎么办？稳定性建设是什么？

大家好，我是树哥。说到系统稳定性，不知道大家会想起什么？我想大多数人会觉得这个词挺虚的，不知道系统稳定性指的是什么。一年前的我看到这个词，也是类似于这样的感受，大概只知道要消除单点、做好监控报警，但却并没有一个体系化的方法论。经过一段时间的摸索，我对系统稳定性有了较为体系化的认识，于是迫不及待地希望和大家一起分享。所以今天，就让我跟大家简单聊聊系统稳定性建设这个话题吧！文章目录 Toggl…
安全运维
- 7
- 0
aqzt2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 4
- 0
aqzt2月11日
系统稳定性建设（7） – 稳定性建设实践总结

2020 年，注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划，同时也催生了一些在线业务办理能力的应用诉求，作为技术同学，需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份，正好梳理总结下自己的系统稳定性建设经验和思考。文章目录 Toggle 开篇一、系统稳定性建设是指什么？二、为什么需要系统稳定性建设？三、系统稳定性建设为什么难？3.1 面对的挑战比较大3.2 系…
安全运维
- 18
- 0
aqzt2月11日
系统稳定性建设（16） – 稳定架构设计思路

系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。容错机制:建立完善的异常处理和容错机制,及时检测并隔…
安全运维
- 2
- 0
aqzt2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 6
- 0
aqzt2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 6
- 0
aqzt2月11日
系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 48
- 0
aqzt2月11日
故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘

复盘，原本是围棋中的一个术语。指下完棋后，重新在棋盘上走一遍，看看棋子下得好的地方和不好之处，哪些地方可以有不同甚至是更好的下棋方法等。这种重复棋局且带有思考的过程，就称为复盘或复局。图源：https://www.piqsels.com 这样做的目的不仅可以找出双方攻守的漏洞，还可以让各自加深印象、总结经验、提高棋艺水平。放在IT人的工作当中，亦是如此。 “在故障中成长，在复盘中强大”，IT…
安全运维
- 7
- 0
aqzt24年12月21日
PYTHON基础技能 – Python环境搭建与管理的9个常见问题解答

文章目录 Toggle 引言问题一：如何选择Python版本？问题二：如何安装Python？问题三：如何管理多个Python版本？问题四：如何解决Python依赖冲突？问题五：如何升级Python版本？问题六：如何设置Python环境变量？实战案例：使用虚拟环境管理多版本Python项目示例：激活和使用项目A的虚拟环境示例：激活和使用项目B的虚拟环境问题七：如何管理项目依赖？使用 requirem…
安全运维
- 2
- 0
aqzt24年12月21日
数据治理 – XX业务数据分析体系的架构与实践

导读：讲述在业务快速迭代发展过程中，为了让大数据更好地赋能业务，高效的为用户提供有业务价值的数据产品和服务，百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程，包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。全文9911字，预计阅读时间24分钟。文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…
安全运维
- 2
- 0
aqzt24年12月21日
Flink SQL – 唯品会flink实践与优化

文章目录 Toggle 一、发展概览二、Flink 容器化实践三、Flink SQL 平台化建设四、应用案例五、未来规划一、发展概览平台支持公司内部所有部门的实时计算应用。主要的业务包括实时大屏、推荐、实验平台、实时监控和实时数据清洗等。 1.1 集群规模平台现有异地双机房双集群，具有 2000 多的物理机节点，利用 k8s 的 namespaces，labels 和 taints 等，…
安全运维
- 2
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践（2）

一、前言之前在《云原生背景下的运维价值思考与实践(上)》里，重点介绍了云原生背景下运维转型的思考，围绕着整个 DevOps 交付链，贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段，通过我们的构建服务稳定性保障实践，利用 SRE 的思想与方法，不断去冲刺稳定性的终极目标：“提升 MTBF（平均故障时间间隔）、降低 MTTR（故障平均修复时间）”，很多小伙伴会有疑问，D…
安全运维
- 14
- 0
aqzt24年12月21日
数字化运维 – 异常数据分析实践，孤立森林异常检测算法原理和实战

孤立森林(isolation Forest)算法，2008年由刘飞、周志华等提出，算法不借助类似距离、密度等指标去描述样本与其他样本的差异，而是直接去刻画所谓的疏离程度(isolation)，因此该算法简单、高效，在工业界应用较多。 Isolation Forest算法的逻辑很直观，算法采用二叉树对数据进行分裂，样本选取、特征选取、分裂点选取都采用随机化的方式。如果某个样本是异常值，可能需要很少次…
安全运维
- 2
- 0
aqzt24年12月21日
Flink SQL 抖音实时数仓保障及治理实践与优化

文章目录 Toggle 一、实时数仓场景介绍二、实时数仓场景初探三、典型场景实践四、未来规划一、实时数仓场景介绍为了数据湖更好的落地，我们在落地之前与业务做了一些深入的沟通，并根据不同业务的特点主要分为了三个场景： 1）场景一典型的业务主要是短视频和直播，它的数据量级一般都比较大，例如大流量的日志数据，其计算周期一般是自然的天、小时或者分钟级别的，实时性的要求一般是五分钟内，主要诉求是批流的复…
安全运维
- 38
- 0
aqzt24年12月21日
CMDB是配置管理库它应该长得怎么样？数据资产体系如何建设？

一、认识数据资产二、数据治理-方法论三、CMDB平台建设四、B站SRE资产平台建设之路一、认识数据资产 1. 数据资产——企业IT价值如图所示，未进行数据资产化建设时，数据可能呈现离散状态，数据生产和消费不统一，容易出现数据孤岛或零利益的情况。建设数据资产化后，我们整合不同渠道数据，构造统一的数据源，或数据采集、存储、分析的流程链路，进而统一对应的数据结构、数据关系和消费出口。运营数…
安全运维
- 36
- 0
aqzt24年12月21日
最佳实践 – 运维服务器故障排查与定位常用命令

整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障，最小化的减少故障给业务带来的影响。文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…
安全运维
- 66
- 0
aqzt24年12月21日
经验教训 – 网络安全十四条经验教训

2022年，是网络安全市场高速发展的一年，同时也是企业评估安全项目投资有效性，校准和优化安全防御战略和预算的关键时间节点。面对快速迭代的网络威胁，每位CISO都有自己的方法和视角来总结和反思即将过去的2022年，此类经验总结可为未来的战略规划提供宝贵的知识，正如Veracode首席信息安全官Sohail Iqbal所言：“如果企业不打算吸取这些教训并完善其安全实践，那么将面对更加严格的安全审计和第…
安全运维
- 2
- 0
aqzt24年12月21日
IT运维管理（活着）与IT运营管理（活得好）定义与区别

最近在一个项目中，用户提出“IT运维管理”感觉范围太窄了，我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢？好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…
安全运维
- 3
- 0
aqzt24年12月21日
运维工具 – Hadoop高可用的架构知识

hadoop 2.0 对于Hadoop高可用架构节点介绍 NN服务器会出现脑裂(brain-split)情况什么是脑裂在hadoop2.x版本中，如果存在两个NameNode节点同时服务，这种情况称之为“脑裂” 为什么会出现脑裂脑裂出现原因一般发生在主备NamoNode切换，由于网络延迟、设备故障等，备用的StandbyNameNode【备用节点】认为ActiveNameNode【主节点】失效，此…
安全运维
- 2
- 0
aqzt24年12月21日
故障治理 – 大促不慌，浅谈蘑菇街的稳定性保障

无相：开发了类似于全链路监控的工具，用于提升整条链路的稳定性。后开始负责全站稳定性工具和平台相关的工作，并参与了全流程加速系统的开发。蘑菇街是一个电商平台，每年会做四次大促，3.21、6.18、双11、双12。大促保障涉及到流量评估、依赖梳理、单链路压测、全链路压测等。蘑菇街大促的基本流程，基本是按照系统峰值评估、依赖关系梳理、单链路压测、系统扩容、全链路压测等几个环节展开的。在保障大促稳定性…
安全运维
- 2
- 0
aqzt24年12月21日
PYTHON基础技能 – Python虚拟环境管理的17个必备知识

文章目录 Toggle 1. 什么是虚拟环境？为什么需要虚拟环境？示例代码：创建虚拟环境输出结果：2. 如何激活虚拟环境？Windows 系统：Linux/MacOS 系统：输出结果：3. 如何退出虚拟环境？输出结果：4. 安装和卸载包安装包：卸载包：输出结果：5. 查看已安装的包输出结果：6. 升级包输出结果：7. 创建和使用 requirements 文件创建 requirements 文件：…
安全运维
- 3
- 0
aqzt24年12月21日
运维工具 – Flink 运行架构学习

文章目录 Toggle 一、Flink运行时各个组件介绍作业管理器（JobManager）资源管理器（ResourceManager）任务管理器（TaskManager）分发器（Dispatcher）二、Flink任务提交的流程一般的交互协作图：具体到Yarn上的交互图三、Flink任务调度原理更具体实践。。。1.数据流图(Dataflow Graph)2. 并行度3. 算子链4. 作业图与执行…
安全运维
- 1
- 0
aqzt24年12月21日