全部标签

分析

系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 40
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 4
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 4
- 0
aqzt25年2月11日
ITIL 实践经验 – 流程建设都是遵循由轻到重，不断结合业务需求与技术痛点持续运营优化

在 ITSM 领域，ITIL一直是事实上的标准。从80年代中期 ITIL的诞生，到 v2、v3，以及现在的 ITIL 4，流程一直是”门面担当“。其中事件流程的“快”、问题流程的“究”、配置流程的“准”、变更流程的“控”等，这些定义明确的 ITIL流程，一直是ITSM领域的鲜明符号。但随着ABC(AI、Bigdata、Cloud）等为典型的新技术的兴起和落地应用，越发强调轻量、敏捷，ITIL厚…
安全运维
- 2
- 0
aqzt24年12月21日
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理

是不是经常会遇到，有人在群里 @你，告诉你你的系统出故障了，你在犹豫是不是真的出故障的同时还得慌乱地去查找？老板问你系统现在到底健康与否，能不能快速给个判断，你却不敢断言？业务方说你的系统有问题，但你认为没问题，又无法自证？这一切都源自于你的系统没有做好监控和告警：没有监控或者没有一个好的监控，导致你无法快速判断系统是不是健康的；没有告警或者没有一个精准的告警，当系统出问题时不能及时通知到…
安全运维
- 21
- 0
aqzt24年12月21日
经验教训 – 生产环境血的教训最佳实践

SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验教训1：变更实施 – 变更要优先考虑灰度原则，有助于降低生产影响教训2：变更实施 – 生产回滚异常要马上处理，保持服务器的生产服务状态教训3：变更验证 – 灰度期间必须确认监控/告警后才能继续下一批，避免事件产生影响更大教训4：变更验证 – 变更完成需从业务维度进行验收教训5：…
安全运维
- 2
- 0
aqzt24年12月21日
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据

文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站数据准备清洗的是一份亚马逊黑色星期五电商节的销售数据，数据保存在 Excel 文件中数据解释先来看一下表里面的前 10 行数据：数据示例以下是每个数据列的含义以及数据范…
安全运维
- 10
- 0
aqzt24年12月21日
故障复盘 – 有效复盘常用五步法

这里跟大家分享极简复盘5步法。分别是1 回顾目标，2 评估结果，3 分析原因，4 总结经验，5 指导行动。如果你没有复盘的习惯，那么在一开始建议降低复盘的要求门槛，这样你更容易开始。所以我把每个步骤最核心要素总结出来，你只需要按照这个关键点进行梳理复盘即可。首先第1步：回顾目标，你需要把你的目标123写下来。然后第二步：评估结果你需要如实列出你每一项目标的完成情况，可以简单标记成完成或未完…
安全运维
- 2
- 0
aqzt24年12月21日
故障复盘 – 3个核心5要素有效提高故障复盘质量

对于故障，复盘是一件非常重要的事情，因为我们的成长基本上就是从故障中总结各种经验教训，从而可以获得最大的提升。在亚马逊和阿里，面对故障的复盘有不一样的流程，虽然在内容上差不多，但细节上有很多不同。亚马逊内部面对 S1 和 S2 的故障复盘，需要那个团队的经理写一个叫 COE（Correction of Errors）的文档。这个 COE 文档，基本上包括以下几方面的内容。故障处理的整个过程。就…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 故障处理，教你30秒把问题说清楚

故障处理可参考麦肯锡30秒电梯法则思路，快速把问题陈述。文章目录 Toggle 一了解30秒电梯法则目标对象方法一了解30秒电梯法则谈到“30秒电梯法则”不得不谈到麦肯锡：麦肯锡作为世界上最著名，最成功的战略咨询公司，已有近百年的历史，他在全球40多个国家设有80多家分公司，被称为世界第一战略、组织机构和业绩改善方面的咨询公司以及真正的全球性公司。 “…
安全运维
- 6
- 0
aqzt24年12月21日
【运维工具】Flink SQL 基础实践 – 深入分析 Flink SQL 工作机制

本文整理自 Flink Forward 2020 全球在线会议中文精华版，由 Apache Flink PMC 伍翀（云邪）分享，社区志愿者陈婧敏（清樾）整理。旨在帮助大家更好地理解 Flink SQL 引擎的工作原理。文章主要分为以下四部分： 1、Flink SQL Architecture 2、How Flink SQL Works? 3、Flink SQL Optimizations 4、S…
安全运维
- 0
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践（2）

一、前言之前在《云原生背景下的运维价值思考与实践(上)》里，重点介绍了云原生背景下运维转型的思考，围绕着整个 DevOps 交付链，贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段，通过我们的构建服务稳定性保障实践，利用 SRE 的思想与方法，不断去冲刺稳定性的终极目标：“提升 MTBF（平均故障时间间隔）、降低 MTTR（故障平均修复时间）”，很多小伙伴会有疑问，D…
安全运维
- 17
- 0
aqzt24年12月21日
稳定性保障 – 故障应急体系构建及应用实践（2）

本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践，包括业务SRE的定义、应急管理、大促稳定性保障等方面，具体内容如下： 1. 业务SRE定义 – SRE概念：SRE是结合软件工程和IT运维原则，通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色，业务SRE则专注于特定业务系统的可靠性和效率。 – 工作内容：确保业务系统稳定可用，优化性能提升用户体验，定…
安全运维
- 8
- 0
aqzt24年12月21日
PYTHON基础技能 – 13 种常用文本匹配模式

文本匹配是编程中非常常见的任务，特别是在处理大量数据时。Python 提供了多种强大的工具来帮助我们实现高效的文本匹配。本文将详细介绍 13 种常用的文本匹配模式，从简单的字符串方法到复杂的正则表达式，逐步引导你掌握这些强大的工具。文章目录 Toggle 1. 使用 in 关键字2. 使用 str.find()3. 使用 str.index()4. 使用 str.startswith()5. 使…
安全运维
- 51
- 0
aqzt24年12月21日
可观测性(Observability) – 监控和可观测性区别

文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…
安全运维
- 6
- 0
aqzt24年12月21日
故障复盘 – 复盘工具六顶思考帽复盘法

六顶思考帽不是思考者的类型。每个思考者都应该会用所有的帽子。白色思考帽：资料与信息获得客观信息和认识，保证思维尊重事实。红色思考帽：直觉与感情决策时恰当的情感、直觉和预感黄色思考帽：积极与乐观进行统一的、逻辑的、深刻的负面论证。黑色思考帽：逻辑与批判进行统一的、逻辑的、不断的正面探索。绿色思考帽：创新与冒险不断实施出新奇的探索，寻求新的方法。蓝色的思考帽：系统与控…
安全运维
- 2
- 0
aqzt24年12月21日
深入浅出,看资深专家如何解读ITIL4的四大价值维度

ITIL 4是AXELOS（ITIL版权所有方）组织全球范围内的顶级专家，历时两年多开发出来的。它将指导广大客户面对数字化时代IT服务管理所带来的挑战，并提供一个灵活、协调和集成的系统，以有效地治理和管理IT驱动（IT-enabled）的服务。为了支持服务管理的整体方法, ITIL定义了四个维度, 这些维度对于以产品和服务的形式有效和高效地促进客户和其他利益相关者的价值至关重要。下面请看，互联…
安全运维
- 5
- 0
aqzt24年12月21日
运维工具 – 唯品会Dragonfly日志系统的Elasticsearch实践

文章目录 Toggle 开篇-唯品会日志系统初探Elasticsearch简介硬件配置日志索引管理1. 索引预创建2. 替补索引3. Force Merge4. 冷热分离5. 日志归档日志写入降级策略结语开篇-唯品会日志系统初探唯品会日志系统，承接了公司上千个应用的日志，提供了日志快速查询、统计、告警等基础服务，是保障公司技术体系正常运行必不可缺的重要系统之一。日均接入应用日志600亿条，压缩…
安全运维
- 50
- 0
aqzt24年12月21日
实践案例 – 告警治理腾讯业务监控的修炼之路

概述本文作为监控告警产品专题系列第一篇文章，涉及的主要内容为监控产品设计的相关基础知识，算是整个系列文章的一个索引。主要内容有： • 关于监控告警的一些概念• 立体化监控体系的阐述老鸟们可以关注后续的文章（文末有三期内容预告，关键词：IAAS, CMDB, 组件监控）业务运维 vs 产品经理以前做 QQ 业务运维的时候，有一类平台是自己天天会用，那这类平台是什么呢？就是监控告警平台，每…
安全运维
- 11
- 0
aqzt24年12月21日
经验教训 – 2020.10.16 微盟宕机8天，赔偿1.5亿！电商技术专家，总结6条经验

微盟经历了8天的至暗时刻，数据修复工作终于有了进展，并于3月1日对外发布公告：截止到3月1日晚8点，在腾讯云团队协助下，经过7*24小时的努力，我们数据已经全面找回，由于此次数据量规模非常大，为了保证数据一致性和线上体验，我们将于3月2日凌晨2点进行系统上线演练，将于3月3日上午9点数据恢复正式上线。此次事故给商家经营造成了严重的影响，公司管理层对此深感自责和愧疚，我们准备了1.5亿元人民币赔…
安全运维
- 2
- 0
aqzt24年12月21日
数字化运营基础技能 – pandas实战 – 数据清洗

这篇文章我会先给你讲解数据清洗的重要性，然后我会跟你列举数据清洗的四大准则，最后，我会用一个实战案例带你学会如何使用Python进行数据清洗。也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了，接下来，咱们详细看一看。文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…
安全运维
- 1
- 0
aqzt24年12月21日
运维稳定性 – 虎牙APM可观测平台建设实践

随着虎牙业务量的大规模增长，分布式应用服务架构日益复杂，排障定位变得越来越困难，原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台，结合虎牙直播业务特性，也紧靠业界标准做了高度自研扩展，帮助研发和运维提高工作效率，保障线上应用服务稳定运行。本次分享将通过以下几个部分来介绍整体思路和实践过程：分享概要一、项目背景 – 从当时痛点来思考关键切入点二、方案实践 …
安全运维
- 2
- 0
aqzt24年12月21日
故障治理 – 了解华为的流程管理系统

前言：任正非先生一直强调客户、流程与绩效是企业管理中最重要的三件事。事实上，华为导入咨询公司的一个重点就是“流程管理”。在过去的近20年中，华为通过以业务为导向的流程管理体系，大大提升了整体运营效率，取得了举世瞩目的成绩！华为公司提倡流程化的企业管理方式，任何业务活动都有明确的结构化流程来指导，流程建设把所有人从海量的、低价值的、简单重复的工作中解放出来。首先，大家要明白流程是通过一系列可重…
安全运维
- 3
- 0
aqzt24年12月21日
【运维工具】Flink SQL 实践6 flink sql 约会 calcite

文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥？3.2.flink sql 为什么选择 calcite？4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…
安全运维
- 1
- 0
aqzt24年12月21日