全部标签

工具

系统稳定性建设（5） – 稳定性设计系统的思考

文章目录 Toggle 1、职责2、交付流程稳定性保障（1）方案设计规范（2）代码规范（3）流水线建设（4）上线规范（5）交付流程观测指标3、线上稳定性保障（1）事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查（2）事故发现&排查1.原则：可观测性（Observability）2. 工具3. 多维度监控、报警4. 线上问题发现（3）事故处理1. 处理原…
安全运维
- 98
- 0
aqzt25年2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 90
- 0
aqzt25年2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 22
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
思维模型 – 系统思维是把世界看作一系列相互连接的部分

什么是系统思维？系统思维是一种看待事物的方法，它强调从整体出发，考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为，还特别重视元素间的互动和反馈环路对系统动态的影响。核心概念包括：系统：由多个相互作用的部分组成的整体。边界：定义了系统的范围，区分系统内部和外部环境。输入与输出：描述了系统与外界交换的信息、物质或能量。反馈环路：正反馈（放大效应）…
安全运维
- 18
- 0
aqzt25年2月11日
2024年复盘-互联网十大故障分析回顾

故障回顾随着2024年的圆满结束，今天，我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例，总结经验教训，并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障故障描述：1月11日晚，多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜，今天凌晨0时许…
安全运维
- 23
- 0
aqzt25年2月11日
系统稳定性建设（10） – 从哲学层面谈稳定性建设

背景我（姓名：黄凯，花名：兮之）在阿里工作了五年，一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档，很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚，但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性，那么事物都可以按照从共性到个性进行分层描述，我从哲学层面开始讲起，讲到分布式信息化系统层面，希望你能从某个层面获得帮…
安全运维
- 9
- 0
aqzt25年2月11日
系统稳定性建设（9） – 稳定性监控体系建设实践

文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…
安全运维
- 32
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 65
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 17
- 0
aqzt25年2月11日
入门同学对ITIL管理十大误解

一、ITIL是国外的管理最佳实践不适合中国国情ITIL是IT服务管理领域的最佳实践，是一种IT部门进行日常工作管理的方法论，既然他是一种管理方法就没有地域国情的限制，只要IT部门有管理的动作都可以参考ITIL的相关流程。产生这以误解多半是因为没有领会ITIL对IT管理的精髓，而是停留在简单的流程层面。同样说ITIL 只适合与大型IT组织或公司，适合于管理比较成熟的机构，也是类似的误解，ITIL是I…
安全运维
- 9
- 0
aqzt24年12月21日
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了，终于有人发现curl的这个Bug了”

雷军每天都把卓越网的链接全部点击一遍，检查错误。作为软件工程师，雷军深知：软件工程没有银子弹，凡是可能出错的地方就一定会出错。 “24年了，终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具，用来请求 Web 服…
安全运维
- 5
- 0
aqzt24年12月21日
经验教训 – 2021.07.13 B站宕机事故，我们是这样崩的

至暗时刻 2021年7月13日22:52，SRE收到大量服务和域名的接入层不可用报警，客服侧开始收到大量用户反馈B站无法使用，同时内部同学也反馈B站无法打开，甚至APP首页也无法打开。基于报警内容，SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题，紧急发起语音会议，拉各团队相关人员开始紧急处理（为了方便理解，下述事故处理过程做了部分简化）。初因定位 22:55 远程…
安全运维
- 18
- 0
aqzt24年12月21日
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据

文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站数据准备清洗的是一份亚马逊黑色星期五电商节的销售数据，数据保存在 Excel 文件中数据解释先来看一下表里面的前 10 行数据：数据示例以下是每个数据列的含义以及数据范…
安全运维
- 13
- 0
aqzt24年12月21日
故障复盘 – 哈啰出行高质量故障复盘法

一、故障和复盘真的都是坏事吗？提到复盘，大多数人第一时间想到的是线上出了故障，这下又要有人背锅了；或者是为那个可怜的兄弟暗暗担心；也或者是因为跟自己无关，所以松了一口气。那么故障和复盘真的都是坏事吗？我们该如何理解它呢？我从以下三点讲一下我对故障和复盘的理解。 1.1 正视故障发生的必然性 – 有好也有坏在聊复盘之前，先聊下我对线上故障的看法，…
安全运维
- 8
- 0
aqzt24年12月21日
运维工具 – excel 日常数据分析 – 常用字段后面三位变0了怎么样恢复原来的数字经验

第一种，输入12位以上数字变成 E1乱码点击选择要输入身份证的那一栏，右键 – 设置单元格式 – 数字 – 文本 – 确定然后再输入就OK了。在公司、学校，经常会遇到需要在Excel录入身份证号的场景，但录入完毕会发现身份证号成了科学统计法，再…
安全运维
- 16
- 0
aqzt24年12月21日
IT运维最佳实践 – 一线游戏运维心得（同行经验）

自2015年开始从事游戏行业一线运维工作，至今（2022）已经近7年。网易游戏：2015.04 ~ 2021.04灵犀互娱：2021.04 至今文章目录 Toggle 背景1、运维人员的定位运维叫什么？PE？SRE？什么是SRE？什么是可用率？可用率到底要达到几个9？不同人眼中的运维项目组对运维的核心诉求技术要专，还是广？运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地？忙不过…
安全运维
- 45
- 0
aqzt24年12月21日
PYTHON基础技能 – 一行Python代码实现数据清洗的18种方法

数据清洗可能是你们遇到的第一个大挑战，但别担心，Python的魔力在于能用简洁的代码解决复杂问题。今天，我们就来学习如何用一行代码完成数据清洗的十八个小绝招。准备好，让我们一起化繁为简，成为数据清洗的高手！文章目录 Toggle 1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统计元素出现次数6. 字符串分割成列表7. 列表合并8. 数据填充9. 提…
安全运维
- 5
- 0
aqzt24年12月21日
PYTHON基础技能 – 文本清洗和预处理的 15 项技术

文本清洗和预处理是自然语言处理（NLP）中的重要步骤。无论你是处理社交媒体数据、新闻文章还是用户评论，都需要先对文本进行清洗和预处理，以确保后续的分析或建模能够顺利进行。本文将详细介绍15项Python文本清洗和预处理技术，并通过实际代码示例来帮助你更好地理解和应用这些技术。文章目录 Toggle 1. 去除空白字符2. 转换为小写3. 去除标点符号4. 分词5. 去除停用词6. 词干提取7. …
安全运维
- 8
- 0
aqzt24年12月21日
系统稳定性保障 – 云原生大潮下的混沌工程思考

简介：生产环境的突袭演练是我们迈出的艰难但有力的一步，锻炼了研发运维人员的应急响应能力，在真实用户场景下锤炼系统，推进了产品的轮班制度，提升了云原生底座的稳定性和竞争力。作者：智妍（郑妍）、浣碧（何颖）文章目录 Toggle 什么是混沌工程，云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语什么是混沌工程，云原生大潮下的混沌工程特点通过使用云计算厂商如…
安全运维
- 98
- 0
aqzt24年12月21日
深入浅出,看资深专家如何解读ITIL4的四大价值维度

ITIL 4是AXELOS（ITIL版权所有方）组织全球范围内的顶级专家，历时两年多开发出来的。它将指导广大客户面对数字化时代IT服务管理所带来的挑战，并提供一个灵活、协调和集成的系统，以有效地治理和管理IT驱动（IT-enabled）的服务。为了支持服务管理的整体方法, ITIL定义了四个维度, 这些维度对于以产品和服务的形式有效和高效地促进客户和其他利益相关者的价值至关重要。下面请看，互联…
安全运维
- 15
- 0
aqzt24年12月21日
经验教训 – 凡是跟金额相关必要从业务角度进行监控，拼XX回应BUG事件回顾

2019-1-20 凌晨一点多，拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料，他作为拼多多的一个程序员，将一个100元的无门槛测试券，设置成了自动上线，并在凌晨一点多上线。这些100元无门槛优惠券，拼多多网站页面告知，可以全场通用（特殊商品除外）。凌晨三点多，已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券，经过一些用户以及不排除大职业“羊毛党”发…
安全运维
- 13
- 0
aqzt24年12月21日
实践案例 – 百分点大数据技术团队：万亿级大数据监控平台建设实践

随着互联网业务的迅速发展，用户对系统的要求也越来越高，而做好监控为系统保驾护航，能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目，完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控，沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术…
安全运维
- 8
- 0
aqzt24年12月21日
数字化运营基础技能 – pandas实战 – 数据清洗

这篇文章我会先给你讲解数据清洗的重要性，然后我会跟你列举数据清洗的四大准则，最后，我会用一个实战案例带你学会如何使用Python进行数据清洗。也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了，接下来，咱们详细看一看。文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…
安全运维
- 3
- 0
aqzt24年12月21日