全部标签

监控

故障复盘 – 复盘步骤与经验方法

复盘是一种回顾和分析过去行为、决策和结果的过程，目的是从过去的经历中学习并做出改进。故障复盘在实践中可能会遇到以下痛点：数据收集不完整：故障发生时，如果没有完整的日志记录、监控数据或其他关键信息，很难准确地追溯故障原因。参与人员配合度不高：复盘需要涉及各个相关部门，如果团队间协作不畅或不愿意承担责任，可能导致复盘无法深入。事后诸葛亮现象：复盘时容易忽略当时决策的局限性，过于理想化地看待问题…
安全运维
- 20
- 0
aqzt24年12月21日
经验教训 – 凡是跟金额相关必要从业务角度进行监控，拼XX回应BUG事件回顾

2019-1-20 凌晨一点多，拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料，他作为拼多多的一个程序员，将一个100元的无门槛测试券，设置成了自动上线，并在凌晨一点多上线。这些100元无门槛优惠券，拼多多网站页面告知，可以全场通用（特殊商品除外）。凌晨三点多，已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券，经过一些用户以及不排除大职业“羊毛党”发…
安全运维
- 1
- 0
aqzt24年12月21日
实践案例 – 美团点评实时计算平台的 Flink 监控与告警实践

文章目录 Toggle 为什么我们关注指标监控指标：衡量和描述对象的方式监控：对指标进行监测和控制1. 监控报警的链路1.1 监控报警链路1.2 指标展示：Grafana2. 常用的监控项2.1 常用的指标■ 系统指标■ 自定义指标2.2 如何确定哪些指标需要关注？3. 指标的聚合方式4. 指标监控的应用4.1 作业异常报警4.2 指标大盘4.3 自动化运维Q&A 为什么我们关注指标监控 …
安全运维
- 8
- 0
aqzt24年12月21日
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因

11月29日，滴滴出行再就27日夜间系统故障致歉，提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果：起因是底层系统软件发生故障，并非网传的“遭受攻击”。同时，滴滴表示，当前所有服务已全部恢复，后续将深入开展技术风险隐患排查和升级工作，全面保障服务稳定性，尽最大努力避免类似事故再发生。滴滴拥有庞大的业务线，其底层系统由复杂的软硬件构成，其中包括服务器、网络设备、数据库等等重要组成部…
安全运维
- 5
- 0
aqzt24年12月21日
运维稳定性 – 虎牙APM可观测平台建设实践

随着虎牙业务量的大规模增长，分布式应用服务架构日益复杂，排障定位变得越来越困难，原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台，结合虎牙直播业务特性，也紧靠业界标准做了高度自研扩展，帮助研发和运维提高工作效率，保障线上应用服务稳定运行。本次分享将通过以下几个部分来介绍整体思路和实践过程：分享概要一、项目背景 – 从当时痛点来思考关键切入点二、方案实践 …
安全运维
- 6
- 0
aqzt24年12月21日
IT服务管理 – ITIL培训- 服务台管理

服务台类型服务台主要活动 – 运营管理服务台主要活动 – 供应商联络服务台主要活动 – 发布信息服务台主要活动 – 响应呼叫服务台主要活动 – 基架监控
安全运维
- 5
- 0
aqzt24年12月21日
经验教训 – 2012.08.01 兵败DevOps！一个Bug损失4.6亿美金，不得不看的惨痛教训！

缺乏最佳实践的 DevOps，会给你的企业带来缓慢的发布周期，甚至是灾难性的错误。本文向你介绍一些能够充分使用 DevOps 的小技巧。本文会分享一些有趣的 DevOps 原则，并通过应用展示它们给高效的项目交付与转化所带来的好处。这里所提及的概念都源于 John Willis，他有着丰富的 IT 管理经验，同时也是 DevOps 运动的最初倡导者。当一个组织考虑去实践 DevOps 的时候…
安全运维
- 1
- 0
aqzt24年12月21日
PYTHON基础技能 – Python进程管理的15大实战策略

文章目录 Toggle 1. 理解进程与多进程2. 使用multiprocessing模块创建子进程3. 进程池管理4. 进程间通信：队列5. 锁与同步6. 管道通信7. 使用subprocess模块8. 进程监控与管理9. 进程优先级调整10. 异常处理与日志记录11. 并发模型的选择：进程 vs. 线程 vs. 协程12. 利用concurrent.futures简化多进程编程13. 进程死锁…
安全运维
- 6
- 0
aqzt24年12月21日
系统稳定性保障 – 货拉拉微服务架构故障演练实践

文章目录 Toggle 一、背景二、体系全览三、工具体系故障演练平台架构故障演练能力全景控制爆炸半径演练自动化四、管理体系故障演练类型故障演练流程五、运营体系运营数据六、未来展望一、背景随着货拉拉微服务架构、容器化技术广泛使用，软件架构的复杂度在不断提升，由服务之间的依赖所带来的不确定性也呈指数级增长。在这样的依赖网中，任何一环出现非预期或者异常的变化，都可能对其他服务造成非常大的影响。因此，…
安全运维
- 15
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 5Why法

发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问，发现解决问题的线索，寻找发明思路，进行设计构思，从而搞出新的发明项目，这就叫做5W2H法。（1）WHAT——是什么，目的是什么，做什么工作。（2）WHY——为什么要做，可不可以不做，有没有替代方案。（3）WHO——谁，由谁来做。（4）WHEN——何时，什么时间做，什么时机最适宜。（5）WHERE——何处，在哪里做。（6）HOW ——怎…
安全运维
- 10
- 0
aqzt24年12月21日
IT服务治理 – SRE工具链建设思路与实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 49
- 0
aqzt24年12月21日
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践

文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…
安全运维
- 12
- 0
aqzt24年12月21日
故障复盘 – 什么样的原则review 监控告警

某企业内部故障统计数据显示85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警，往往需要增加数百上千个监控项，这样加下去，真的能提升业务异常的监控效率吗？到底告警要怎样加才是有效的？ TakinTalks社区的4位专家，分别给出了这些注意事项，总结如下： 1.业务视角的告警比其他告警更重要，是评判告警该不该加的重要标准。 2.告警要紧贴业务，而业务分核心与非核心，围绕核心用户旅程…
安全运维
- 21
- 0
aqzt24年12月21日
排查 K8S 问题的经验和技巧

最近更新：故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中，可以通过学习和实践来积累经验，并结合官方文档和社区资源进行学习和交流。同时，也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…
安全运维
- 9
- 0
aqzt24年12月21日
经验教训 – 摘录多年运维监控报警优化经验总结文章

整个文章的关键在于ITIL的持续运营阶段运维工程师面试者第一个问题是：需要值班吗？笔者自己也曾经历过月入十万的时期，在那个时候，数个系统同时发布下一代版本，而老系统还需要过渡很长时间，工作量直接翻倍，大家只能勉强应付一线运维工作，团队成员开始陆续离职，而新人又无法在短时间内上手，整体情况不断恶化，持续半年左右才缓过劲来。下面两张截图是我挑选的两个团队一周报警数的对比图，前者的单日报警量最高是 …
安全运维
- 4
- 0
aqzt24年12月21日
IT服务治理之发布管理 – 对于研发自测上线项目，测试同学可以做点啥？

在软件研发过程中，不可避免的存在由研发自测后上线的项目。在这种完全由研发同学独立完成开发、测试、发布上线的项目，测试同学可以提前为研发同学做点啥？我们算法测试团队，提出了四步曲的设想。第一步：定标准定标准，即明确可研发自测上线的范围。业界对研发自测的标准非常多，我们建议遵循以下三个维度来制定： 1. 影响面对核心链路有影响，则测试介入对公司核心业务有影响，则测试介入 2. 复杂度涉及复…
安全运维
- 62
- 0
aqzt24年12月21日
混沌工程与SRE的结合(中国移动)

中国移动信息技术中心技术专家，中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》，他提到：随着企业数智化转型的浪潮，业务“上云”进度越来越快，团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定，磐基引入SRE体系，在落地过程遇到管理、规划、质量把控等方面问题，在本次分享中重点介绍了以上问题如何规避、解决、优化，即如何结合混沌工程的方式来这些解决痛点。并认为：混…
安全运维
- 6
- 0
aqzt24年12月21日
系统稳定性保障 – 大厂故障演练思考

引言阿里巴巴经过多年的技术演进，系统工具和架构已经高度垂直化，服务器规模也达到了比较大的体量。当服务规模大于10000台时，小概率的硬件故障每天都会发生。这时如果需要人的干预，系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计，对下游组件零信任，确保在故障发生时可以快速的发现和处理。不过这些措施在故障发生时是否真的有效？恢复故障的工具是否实现了容灾？处理问题的人是否熟练？沟通机制是否疏漏？…
安全运维
- 7
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 5Why法

文章目录 Toggle 5Why法案例1：生产设备突然停机案例2：网络服务器宕机案例3：APP闪退问题 5Why法 5Why法是一种深度追问、寻找问题根本原因的分析方法，通过连续问五个“为什么”，逐步揭示问题的本质。以下是三个应用5Why法进行故障复盘的案例：案例1：生产设备突然停机 What（什么）：生产设备突然停机，无法正常运转。 Why1（为什么）：因为电机过热导致自动保护开关跳闸。 Wh…
安全运维
- 13
- 0
aqzt24年12月21日
IT服务治理 – 唯品会实现电商平台从业务到架构的治理体系

文章目录 Toggle VIP不同阶段发展历程的商业模式演进唯品会系统架构演变历程电商运营平台关键设计架构设计和治理 VIP不同阶段发展历程的商业模式演进唯品会在2008年12月创立，一直到2012年，唯品会在做的主要事件就是尾货的抛售，做线上的outlets商家。这种商业模式就是帮别人消化库存，但是这个库存消化完了，现在特卖，公司的重点在发生变化。目前电商被分为了分成了两类，一是平台级公司，包…
安全运维
- 10
- 0
aqzt24年12月21日
实践案例 – 货拉拉全链路监控体系的落地与实践

今天分享的主题是货拉拉全链路监控体系的落地与实践，以下是分享大纲。分享大纲文章目录 Toggle 一、监控演进史1、行业2、货拉拉1）监控1.0时期2）监控2.0时期3）监控3.0时期二、货拉拉监控体系整体架构三、监控埋点1、JAVA SDK图谱2、什么是字节码增强技术？1）字节码增强技术的应用 – 热修复Log4j2漏洞2）Java Agent技术3）字节码增强框架4）字节码增强…
安全运维
- 18
- 0
aqzt24年12月21日
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库，宕机10小时

微软 Azure DevOps 是一套应用程序生命周期服务，提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而，就在 5 月 24 日，这个服务在巴西南部区域发生了长达 10 小时的宕机，影响了数千名客户。事后调查发现，竟然是因为一个简单的拼写错误，导致了 17 个生产数据库被误删。事件背景起源于，Azure DevOps 工程师有时需要对生产数据库的快照进行保存，以调查报告的问…
安全运维
- 4
- 0
aqzt24年12月21日
故障复盘 – 哈啰出行高质量故障复盘法

一、故障和复盘真的都是坏事吗？提到复盘，大多数人第一时间想到的是线上出了故障，这下又要有人背锅了；或者是为那个可怜的兄弟暗暗担心；也或者是因为跟自己无关，所以松了一口气。那么故障和复盘真的都是坏事吗？我们该如何理解它呢？我从以下三点讲一下我对故障和复盘的理解。 1.1 正视故障发生的必然性 – 有好也有坏在聊复盘之前，先聊下我对线上故障的看法，…
安全运维
- 3
- 0
aqzt24年12月21日
【运维工具】Flink SQL 实践13 维表 join 的性能优化之路（上）附源码

文章目录 Toggle 1.序篇2.背景及应用场景介绍3.来一个实战案例4.flink sql lookup join4.1.lookup join 定义4.2.上述案例解决方案4.3.关于维表使用的一些注意事项4.4.再说说维表常见的性能问题及优化思路4.5.lookup join 的具体性能优化方案4.6.基于 redis connector 的批量访问机制优化5.总结与展望 1.序篇源码公…
安全运维
- 23
- 0
aqzt24年12月21日