-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 2
- 0
-
系统稳定性建设(14) – 稳定性治理思路与实践
想了想,还是把过往一段时间里,我们在稳定性建设中的实践记录下来,包含一些思路和方法,也算是一部大型踩坑记录,也只是一些实践过的野路子、野方法。 文章目录 Toggle 团队背景治理目标故障分级稳定性目标治理思路事前预防研发流程中的保障常态化治理专项优化故障发现基础组件监控服务监控链路监控业务监控流量监控故障恢复故障注入恢复手段扩容熔断/限流/降级多云多活技术治理之外的稳定性能力建设流程标准及自动化…- 2
- 0
-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 1
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 5
- 0
-
实践案例 – 货拉拉全链路监控体系的落地与实践
今天分享的主题是货拉拉全链路监控体系的落地与实践,以下是分享大纲。 分享大纲 文章目录 Toggle 一、监控演进史1、行业2、货拉拉1)监控1.0时期2)监控2.0时期3)监控3.0时期二、货拉拉监控体系整体架构三、监控埋点1、JAVA SDK图谱2、什么是字节码增强技术?1)字节码增强技术的应用 – 热修复Log4j2漏洞2)Java Agent技术3)字节码增强框架4)字节码增强…- 6
- 0
-
可观测性(Observability) – 监控和可观测性区别
文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…- 1
- 0
-
实践案例 – 百分点大数据技术团队:万亿级大数据监控平台建设实践 
随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。 本文主要从监控系统整体设计和技术…- 1
- 0
-
可观测性(Observability)- 聚合度量
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫星发射中心的控制室,在整个房间最显眼的位置,布满整面墙壁的巨型屏幕里显示着一个个指示器、仪表板与统计图表,沉稳端坐中央的指挥官看着屏幕上闪烁变化的指标,果断决策,下达命令……如果以上场景被改成指挥官双手在键盘上飞舞,双眼紧盯着日志或者追踪系统,试图判断出系统工作是否正常。这光想像一下,都能感觉到一股…- 1
- 0
-
实践案例 – 告警治理 – 腾讯亿万量级告警是如何做到全、准、快的?
文章目录 Toggle 自我介绍监控的意义监控的手段监控的本质监控系统的目标——全、快、准全链路监控监控的速度统一上报协议准:智能监控海量监控的困扰ROOT智能监控系统降维策略时间相关性分析权重面积分析质量体系:生态构建天网体系天网:质量体系Q&AQ1:主动、被动、旁路,这三种在整个告警量的范围内,比例分别是怎样的?这三路产生的效果分别怎样?Q2:请教一下,报警之后就可以做自愈吗?Q3:有…- 1
- 0
-
故障复盘 – 复盘步骤与经验方法
复盘是一种回顾和分析过去行为、决策和结果的过程,目的是从过去的经历中学习并做出改进。 故障复盘在实践中可能会遇到以下痛点: 数据收集不完整:故障发生时,如果没有完整的日志记录、监控数据或其他关键信息,很难准确地追溯故障原因。 参与人员配合度不高:复盘需要涉及各个相关部门,如果团队间协作不畅或不愿意承担责任,可能导致复盘无法深入。 事后诸葛亮现象:复盘时容易忽略当时决策的局限性,过于理想化地看待问题…- 0
- 0
-
实践案例 – 360容器平台监控实践
背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发…- 0
- 0
-
实践案例 – vivo监控系统这样演进才稳妥
一、业务背景 当今时代处在信息大爆发的时代,信息借助互联网的潮流在全球自由的流动,产生了各式各样的平台系统和软件系统,越来越多的业务也会导致系统的复杂性。 当核心业务出现了问题影响用户体验,开发人员没有及时发现,发现问题时已经为时已晚,又或者当服务器的CPU持续增高,磁盘空间被打满等,需要运维人员及时发现并处理,这就需要一套有效的监控系统对其进行监控和预警。 如何对这些业务和服务器进行监控和维护是…- 3
- 0
-
故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
故障时间:10月23日下午。 故障现象:语雀出现重大服务故障,持续 7 个多小时。 直接原因:数据存储运维团队在进行升级操作时,新的运维升级工具出现 bug。 具体细节:bug导致华东地区生产环境存储服务器被误下线,使语雀数据服务发生严重故障,造成大面积服务中断。 恢复过程: 因机器类别较老,无法直接操作上线,只能从备份系统中恢复存储数据。 数据恢复过程耗时较长,直到晚上 22 点,语雀的全部服务…- 2
- 0
-
故障处理最佳实践 – 滴滴是如何高效处理线上故障的?
故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。滴滴现在服务近 4 亿乘客、1700 多万司机、覆盖 400 多个城市,超过 10 个业务线提供服务,业务的高速增长对稳定性工作来说是个极大的挑战。为了了解滴滴在故障处理以及稳定性建设方面的工作,InfoQ 记者采访了滴滴资深运维工程师张云柳。另外,张云柳也将会在 9 月 10 日举行的 CNUTC…- 0
- 0
-
监控工具 – 阿里全链路监控系统鹰眼 (监控神器)
最新一代的阿里全链路监控系统鹰眼 3.0,同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,鹰眼 3.0 日均处理万亿级别的分布式调用链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。 注:本文整理自阿里巴巴技术专家周小帆在 ArchSummit…- 2
- 0
-
运维稳定性 – 虎牙APM可观测平台建设实践
随着虎牙业务量的大规模增长,分布式应用服务架构日益复杂,排障定位变得越来越困难,原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台,结合虎牙直播业务特性,也紧靠业界标准做了高度自研扩展,帮助研发和运维提高工作效率,保障线上应用服务稳定运行。 本次分享将通过以下几个部分来介绍整体思路和实践过程: 分享概要 一、项目背景 – 从当时痛点来思考关键切入点 二、方案实践 …- 1
- 0
-
Flink SQL – 网易云音乐flink实践与优化
文章目录 Toggle 一、背景简介二、云音乐的实时计算 Notebook 服务三、性能优化四、运维监控增强五、未来规划 一、背景简介 1.Flink in Music 先简单的介绍下云音乐的现状,目前音乐这边的客户端日志,服务端日志大概在每日大千亿条左右,维度表数据源像 Redis,MySQL 这些大概有上百个。而服务的实时计算任务开发的人员有上百名,其中不仅包扩数据开发工程师,分析师,也包括算…- 0
- 0
-
故障治理 – 京东科技之全链路故障诊断-智能运维实践
讲师介绍 张静,京东科技智能运维算法高级经理。硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队致力于京东智能运维算法迭代,把智能算法能力落地京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破,提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文,申请智能运维发明专利50余项,IEEE国际会议论文收录9篇。 分…- 1
- 0
-
【运维工具】flink sql 实践思路案例
文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT:实时 & 离线公共画像维表?概念区别离线公共画像维表实时公共画像维表WHY:为什么建设实时公共画像维表?直播间画像维表主播 & 观众用户画像维表HOW + WHO:怎样建设?用什么建设?直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…- 1
- 0
-
IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验
大伟,携程软件技术专家,关注企业级监控、日志、可观测性领域。 监控领域有三大块,分别是 Metrics,Tracing,Logging。这三者作为 IT 可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。 Logs:我们对于 Logs 是更加宽泛的定义,即记录事物变化的载体,包括常见的访问日志、交易日志、内核日志等文本型以及 GPS、音视频等泛型数据。日志在调用链场景结构化后…- 1
- 0
-
IT运维最佳实践 – 一线游戏运维心得(同行经验)
自2015年开始从事游戏行业一线运维工作,至今(2022)已经近7年。 网易游戏:2015.04 ~ 2021.04灵犀互娱:2021.04 至今 文章目录 Toggle 背景1、运维人员的定位运维叫什么?PE?SRE?什么是SRE?什么是可用率?可用率到底要达到几个9?不同人眼中的运维项目组对运维的核心诉求技术要专,还是广?运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地?忙不过…- 1
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 0
- 0
-
经验教训 – 狡兔务必三窟:阿里云香港可用区C宕机血的教训与反思
自12月18日阿里云香港可用区C因为机房水冷机组出现故障,导致一次阿里云历史上最长的宕机后,官方终于在圣诞节那天,出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》,称得上是实事求是面对问题了。 我从业十五年,参与建设过4000个节点的私有云,也搞过机房装修和上架,还有一点运维经验,算是有相关经验,跟大家讨论一下以后自家单位的容灾应该怎么做吧。 大家先看这次阿里云…- 2
- 0
-
实践案例 – 告警定级为告警治理核心,告警智能定级原理探索
很多大规模复杂在线服务系统,比如 Google、Amazon、Microsoft 和大型商业银行,包含数以千计的分布式组件,并同时支持大量用户使用。为了保障高质量服务和良好的用户体验,这些公司引入监控系统,智能收集服务组件的监控数据,比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据,确保在服务异常时产生告警。这也带来一个问题,大型服务系统通常会不间断地被捕捉到大量告…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!