全部标签

监控数据

系统稳定性建设（15） – 各大互联网公司稳定性治理之线上故障处理

文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（14） – 稳定性治理思路与实践

想了想，还是把过往一段时间里，我们在稳定性建设中的实践记录下来，包含一些思路和方法，也算是一部大型踩坑记录，也只是一些实践过的野路子、野方法。文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…
安全运维
- 17
- 0
aqzt25年2月11日
系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 18
- 0
aqzt25年2月11日
系统稳定性建设（9） – 稳定性监控体系建设实践

文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…
安全运维
- 30
- 0
aqzt25年2月11日
实践案例 – 360容器平台监控实践

背景 360 在做容器化平台之前，有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder)，这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及，以容器的方式在创建应用时，由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性，而老的监控系统无法感知这些动态创建的服务，已经不适合容器化的场景，所以 360 团队就搭建了一套可以支持服务发…
安全运维
- 7
- 0
aqzt24年12月21日
实践案例 – vivo监控系统这样演进才稳妥

一、业务背景当今时代处在信息大爆发的时代，信息借助互联网的潮流在全球自由的流动，产生了各式各样的平台系统和软件系统，越来越多的业务也会导致系统的复杂性。当核心业务出现了问题影响用户体验，开发人员没有及时发现，发现问题时已经为时已晚，又或者当服务器的CPU持续增高，磁盘空间被打满等，需要运维人员及时发现并处理，这就需要一套有效的监控系统对其进行监控和预警。如何对这些业务和服务器进行监控和维护是…
安全运维
- 10
- 0
aqzt24年12月21日
故障复盘 – 语雀 P0 事故报告，军规红线9个字总结

故障时间：10月23日下午。故障现象：语雀出现重大服务故障，持续 7 个多小时。直接原因：数据存储运维团队在进行升级操作时，新的运维升级工具出现 bug。具体细节：bug导致华东地区生产环境存储服务器被误下线，使语雀数据服务发生严重故障，造成大面积服务中断。恢复过程：因机器类别较老，无法直接操作上线，只能从备份系统中恢复存储数据。数据恢复过程耗时较长，直到晚上 22 点，语雀的全部服务…
安全运维
- 101
- 0
aqzt24年12月21日
故障处理最佳实践 – 滴滴是如何高效处理线上故障的？

故障处理是每个系统都要面对的现实问题，但随着系统越来越复杂，故障的发现、定位、处理难度也将随之增大。滴滴现在服务近 4 亿乘客、1700 多万司机、覆盖 400 多个城市，超过 10 个业务线提供服务，业务的高速增长对稳定性工作来说是个极大的挑战。为了了解滴滴在故障处理以及稳定性建设方面的工作，InfoQ 记者采访了滴滴资深运维工程师张云柳。另外，张云柳也将会在 9 月 10 日举行的 CNUTC…
安全运维
- 17
- 0
aqzt24年12月21日
监控工具 – 阿里全链路监控系统鹰眼（监控神器）

最新一代的阿里全链路监控系统鹰眼 3.0，同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪；技术层面，鹰眼 3.0 日均处理万亿级别的分布式调用链数据，针对海量实时监控的痛点，对底层的流计算、多维时序指标与事件存储体系等进行了大量优化，同时引入了时序检测、根因分析、业务链路特征等技术，将问题发现与定位由被动转为主动。注：本文整理自阿里巴巴技术专家周小帆在 ArchSummit…
安全运维
- 95
- 0
aqzt24年12月21日
运维稳定性 – 虎牙APM可观测平台建设实践

随着虎牙业务量的大规模增长，分布式应用服务架构日益复杂，排障定位变得越来越困难，原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台，结合虎牙直播业务特性，也紧靠业界标准做了高度自研扩展，帮助研发和运维提高工作效率，保障线上应用服务稳定运行。本次分享将通过以下几个部分来介绍整体思路和实践过程：分享概要一、项目背景 – 从当时痛点来思考关键切入点二、方案实践 …
安全运维
- 7
- 0
aqzt24年12月21日
Flink SQL – 网易云音乐flink实践与优化

文章目录 Toggle 一、背景简介二、云音乐的实时计算 Notebook 服务三、性能优化四、运维监控增强五、未来规划一、背景简介 1.Flink in Music 先简单的介绍下云音乐的现状，目前音乐这边的客户端日志，服务端日志大概在每日大千亿条左右，维度表数据源像 Redis，MySQL 这些大概有上百个。而服务的实时计算任务开发的人员有上百名，其中不仅包扩数据开发工程师，分析师，也包括算…
安全运维
- 8
- 0
aqzt24年12月21日
故障治理 – 京东科技之全链路故障诊断-智能运维实践

讲师介绍张静，京东科技智能运维算法高级经理。硕士毕业于东北大学，持续深耕智能运维领域多年，带领团队致力于京东智能运维算法迭代，把智能算法能力落地京东线上横向业务场景，算法在监控、数据库、网络、资源调度等多个纵向场景取得突破，提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文，申请智能运维发明专利50余项，IEEE国际会议论文收录9篇。分…
安全运维
- 5
- 0
aqzt24年12月21日
【运维工具】flink sql 实践思路案例

文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT：实时 & 离线公共画像维表？概念区别离线公共画像维表实时公共画像维表WHY：为什么建设实时公共画像维表？直播间画像维表主播 & 观众用户画像维表HOW + WHO：怎样建设？用什么建设？直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…
安全运维
- 6
- 0
aqzt24年12月21日
IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验

大伟，携程软件技术专家，关注企业级监控、日志、可观测性领域。监控领域有三大块，分别是 Metrics，Tracing，Logging。这三者作为 IT 可观测性数据的三剑客，基本可以满足各类监控、告警、分析、问题排查等需求。 Logs：我们对于 Logs 是更加宽泛的定义，即记录事物变化的载体，包括常见的访问日志、交易日志、内核日志等文本型以及 GPS、音视频等泛型数据。日志在调用链场景结构化后…
安全运维
- 4
- 0
aqzt24年12月21日
IT运维最佳实践 – 一线游戏运维心得（同行经验）

自2015年开始从事游戏行业一线运维工作，至今（2022）已经近7年。网易游戏：2015.04 ~ 2021.04灵犀互娱：2021.04 至今文章目录 Toggle 背景1、运维人员的定位运维叫什么？PE？SRE？什么是SRE？什么是可用率？可用率到底要达到几个9？不同人眼中的运维项目组对运维的核心诉求技术要专，还是广？运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地？忙不过…
安全运维
- 37
- 0
aqzt24年12月21日
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践

文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统（ATTA）04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…
安全运维
- 91
- 0
aqzt24年12月21日
经验教训 – 狡兔务必三窟：阿里云香港可用区C宕机血的教训与反思

自12月18日阿里云香港可用区C因为机房水冷机组出现故障，导致一次阿里云历史上最长的宕机后，官方终于在圣诞节那天，出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》，称得上是实事求是面对问题了。我从业十五年，参与建设过4000个节点的私有云，也搞过机房装修和上架，还有一点运维经验，算是有相关经验，跟大家讨论一下以后自家单位的容灾应该怎么做吧。大家先看这次阿里云…
安全运维
- 17
- 0
aqzt24年12月21日
实践案例 – 告警定级为告警治理核心，告警智能定级原理探索

很多大规模复杂在线服务系统，比如 Google、Amazon、Microsoft 和大型商业银行，包含数以千计的分布式组件，并同时支持大量用户使用。为了保障高质量服务和良好的用户体验，这些公司引入监控系统，智能收集服务组件的监控数据，比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据，确保在服务异常时产生告警。这也带来一个问题，大型服务系统通常会不间断地被捕捉到大量告…
安全运维
- 11
- 0
aqzt24年12月21日
系统稳定性保障 – 货拉拉微服务架构故障演练实践

文章目录 Toggle 一、背景二、体系全览三、工具体系故障演练平台架构故障演练能力全景控制爆炸半径演练自动化四、管理体系故障演练类型故障演练流程五、运营体系运营数据六、未来展望一、背景随着货拉拉微服务架构、容器化技术广泛使用，软件架构的复杂度在不断提升，由服务之间的依赖所带来的不确定性也呈指数级增长。在这样的依赖网中，任何一环出现非预期或者异常的变化，都可能对其他服务造成非常大的影响。因此，…
安全运维
- 16
- 0
aqzt24年12月21日
实践案例 – 苏宁 AI 监控运维保障建设实践

文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景建设背景近些年，苏宁一直基于云技术对外提供服务、产品、内容…
安全运维
- 97
- 0
aqzt24年12月21日
系统稳定性保障 – 微服务架构下如何做好故障演练

微服务架构场景中，应用系统复杂切分散。长期运行时，局部出现故障时不可避免的。如果发生故障时不能进行有效反应，系统的可用性将极大地降低。文章目录 Toggle 什么是故障演练为什么需要故障演练故障演练的目标故障演练的基本流程云原生、微服务架构场景下故障模拟的挑战云原生、微服务场景下的故障演练工具如何进行故障演练演练前 | 确认演练对象与目标演练前 | 准备演练环境演练前 | 制定故障应对策略演练前…
安全运维
- 11
- 0
aqzt24年12月21日
实践案例 – 货拉拉全链路监控体系的落地与实践

今天分享的主题是货拉拉全链路监控体系的落地与实践，以下是分享大纲。分享大纲文章目录 Toggle 一、监控演进史1、行业2、货拉拉1）监控1.0时期2）监控2.0时期3）监控3.0时期二、货拉拉监控体系整体架构三、监控埋点1、JAVA SDK图谱2、什么是字节码增强技术？1）字节码增强技术的应用 – 热修复Log4j2漏洞2）Java Agent技术3）字节码增强框架4）字节码增强…
安全运维
- 19
- 0
aqzt24年12月21日
可观测性(Observability) – 监控和可观测性区别

文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…
安全运维
- 18
- 0
aqzt24年12月21日
实践案例 – 百分点大数据技术团队：万亿级大数据监控平台建设实践

随着互联网业务的迅速发展，用户对系统的要求也越来越高，而做好监控为系统保驾护航，能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目，完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控，沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术…
安全运维
- 8
- 0
aqzt24年12月21日