全部标签

预警

系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 88
- 0
aqzt25年2月11日
系统稳定性建设（4） – 稳定性设计原则：简单、冗余、标准化、健壮

作者介绍淇公，蚂蚁金服技术专家。热爱 java 和一些函数式语言，长期关注系统稳定性领域文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束一、差旅随想因为 base 在分公司，需要经常去总部出差，所以搭乘飞机成了家常便饭，很多时候坐在飞机上会不由的感叹，设计制造这样精密复杂的机器的那帮人真的是了不起，他们是怎样保证这…
安全运维
- 6
- 0
aqzt25年2月11日
系统稳定性建设（1） – 如何做好系统稳定性建设系统

文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素：人第二要素：工具第三要素：预案第四要素：目标4. 稳定性建设四个方向第一个方向：根基要抓牢（45%）第二个方向：工作在日常（30%）第三个方向：预案是关键（15%）第四个方向：容量是核心（10%）3. 总结 1. 背景介绍在移动互联网时代，用户群的积累比之前更容易，但同样，也会因为糟糕的用户体验，而快速流失用…
安全运维
- 8
- 0
aqzt25年2月11日
稳定性建设 – 治理思路

文章目录 Toggle 一、背景二、目标三、治理3.1 变更规范治理3.2 监控埋点治理3.3 服务流量治理3.4 服务容错治理3.5 服务依赖治理四、故障应急流程一、背景伴随公司和业务的快速发展，服务稳定性也越来越重要，特别是对于基础架构或者重要的业务团队，我们的任何服务出现问题，都可能影响到依赖我们的服务，所以我们应该以更高的稳定性要求作为我们的目标。业务发展看似并不一定需要稳定性建设，…
安全运维
- 9
- 0
aqzt25年2月11日
系统稳定性建设（8） – 业务团队系统稳定性的思与行

文章目录 Toggle 前言什么是SRE1，心态&态度1.1，谁适合做稳定性？1.2，业务团队如何支持稳定性SRE人员1.3，开发和SRE的区别1.4，SRE心态上的一些释疑1.4.1，疑惑1：做好了是应该的，出了问题就要负责任1.4.2，疑惑2：稳定性总是做擦屁股的工作前言 2013年，当我第一次接触稳定性的时候，我是有些懵的，当时完全不知道稳定性是什么，也不清楚要做什么。在接下来的8…
安全运维
- 61
- 0
aqzt25年2月11日
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践

文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统（ATTA）04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…
安全运维
- 91
- 0
aqzt24年12月21日
经验教训 – 2015.09.20 从Amazon最新云停机事故中学到的三个教训（亚马逊云宕机事件）

Amazon刚刚经历的云服务停机事故引发业界对云技术的又一番争论。就在上周日上午时段，Amazon Web Services数据中心遭遇一起相当严重的意外事故。美国东部时间清晨六点，该公司负责承载AWS东弗吉尼亚区域负载的名为DynamoDB的大规模NoSQL数据库发生使用率暴涨状况——顺带一提，东弗吉尼亚州区域为该公司历史最悠久、规模***的九个全球性区域之一。到当日上午七点五十二分，AWS…
安全运维
- 4
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 AAR（After Action Review/事后回顾）

AAR最早是美国陆军所进行的一项任务后的检视方法，对美国陆军来说，使用这种方法的好处是当新的理解被产生时，可以马上响应到行动上，他们使用AAR解决了许多问题。美国陆军使用AAR的成功因素包括：结构化、有目地的对谈；打破层级的藩篱；能迅速反映至行动中；将学习的成果记录下来等。在美国陆军的成功使用经验之后，Analog Devices公司T&IPD (Transportation & …
安全运维
- 17
- 0
aqzt24年12月21日
IT运维治理 – 美团点评数据库智能运维探索与实践

讲师介绍：赵应钢，曾就职于百度、新浪、去哪儿网等，10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员，DBA团队(北京)负责人，负责MySQL、KV服务的平台建设和技术保障工作。演讲大纲： ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要：传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…
安全运维
- 30
- 0
aqzt24年12月21日
经验教训 – 软件Bug引发的十多次严重后果

你知道吗，由于软件故障（bug），美国经济每年在浪费生产力、返工和实际毁坏上损失了数十亿美元。本文列举了一些由软件 Bug 引发重大事故，其结果是大量金钱损失，甚至人员死亡。 1. 爱国者导弹 1991 年 2 月第一次海湾战争期间，部署在沙特宰赫兰的美国爱国者导弹系统未能成功追踪和拦截来袭的伊拉克飞毛腿导弹。结果飞毛腿导弹击中美国军营。损失：28 名士兵死亡，100 多人受伤故障原因：时间计…
安全运维
- 28
- 0
aqzt24年12月21日
故障治理 – 运行无间：阿里巴巴运维保障体系的一种最佳实践

阿里巴巴全球运行指挥中心，GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE，我们相当于阿里巴巴的SRE。今天我的分享分为四个部分： 1、稳定性现状及挑战 2、运维…
安全运维
- 91
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践

讲师介绍刘天斯，腾讯游戏营销SRE负责人，腾讯T12级技术专家，国家工程实验室兹聘专家（工业大数据应用技术）。曾荣获：华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作：《python自动化运维：技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…
安全运维
- 15
- 0
aqzt24年12月21日
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理

是不是经常会遇到，有人在群里 @你，告诉你你的系统出故障了，你在犹豫是不是真的出故障的同时还得慌乱地去查找？老板问你系统现在到底健康与否，能不能快速给个判断，你却不敢断言？业务方说你的系统有问题，但你认为没问题，又无法自证？这一切都源自于你的系统没有做好监控和告警：没有监控或者没有一个好的监控，导致你无法快速判断系统是不是健康的；没有告警或者没有一个精准的告警，当系统出问题时不能及时通知到…
安全运维
- 23
- 0
aqzt24年12月21日
稳定性保障 – 故障应急体系构建及应用实践（2）

本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践，包括业务SRE的定义、应急管理、大促稳定性保障等方面，具体内容如下： 1. 业务SRE定义 – SRE概念：SRE是结合软件工程和IT运维原则，通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色，业务SRE则专注于特定业务系统的可靠性和效率。 – 工作内容：确保业务系统稳定可用，优化性能提升用户体验，定…
安全运维
- 18
- 0
aqzt24年12月21日
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践

文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…
安全运维
- 13
- 0
aqzt24年12月21日
稳定性保障 – 故障应急体系构建及应用实践（1）

蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系，包括故障体系、应急体系、故障全生命周期及AI助力等方面，为保障线上系统稳定提供了全面的解决方案。 1. 蚂蚁故障体系 – 故障定义与等级：故障指服务中断、品质下降或用户体验受影响的情况，不包括用户方环境或自身操作问题。故障等级衡量影响度，数字越小级别越高，涵盖客诉量、资损金额等，由业务等相关方定义并定期更新。 ̵…
安全运维
- 11
- 0
aqzt24年12月21日
实践案例 – 百分点大数据技术团队：万亿级大数据监控平台建设实践

随着互联网业务的迅速发展，用户对系统的要求也越来越高，而做好监控为系统保驾护航，能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目，完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控，沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术…
安全运维
- 8
- 0
aqzt24年12月21日
盒马新零售运维保障解决方案

今天我带来的是“新零售运维保障解决方案”，内容包括三方面，新零售的现状以及它的挑战、运维保障体系以及未来的发展和方向。 1. 新零售的现状及运维挑战大家有没有听过“盒区房”？现在新零售其中一个比较典型的业务就是盒马鲜生。继我们曾经“学区房”的概念之后现在已经出现了“盒区房”的概念，即围绕着盒马鲜生 3 公里内的配送范围区域被称作“盒区房”。现在像盒马鲜生这样的新零售模式越来越火，而早在 20…
安全运维
- 6
- 0
aqzt24年12月21日
实践案例 – vivo监控系统这样演进才稳妥

一、业务背景当今时代处在信息大爆发的时代，信息借助互联网的潮流在全球自由的流动，产生了各式各样的平台系统和软件系统，越来越多的业务也会导致系统的复杂性。当核心业务出现了问题影响用户体验，开发人员没有及时发现，发现问题时已经为时已晚，又或者当服务器的CPU持续增高，磁盘空间被打满等，需要运维人员及时发现并处理，这就需要一套有效的监控系统对其进行监控和预警。如何对这些业务和服务器进行监控和维护是…
安全运维
- 10
- 0
aqzt24年12月21日
系统稳定性保障 – 大厂故障演练思考

引言阿里巴巴经过多年的技术演进，系统工具和架构已经高度垂直化，服务器规模也达到了比较大的体量。当服务规模大于10000台时，小概率的硬件故障每天都会发生。这时如果需要人的干预，系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计，对下游组件零信任，确保在故障发生时可以快速的发现和处理。不过这些措施在故障发生时是否真的有效？恢复故障的工具是否实现了容灾？处理问题的人是否熟练？沟通机制是否疏漏？…
安全运维
- 12
- 0
aqzt24年12月21日
故障复盘 – 什么样的原则review 监控告警

某企业内部故障统计数据显示85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警，往往需要增加数百上千个监控项，这样加下去，真的能提升业务异常的监控效率吗？到底告警要怎样加才是有效的？ TakinTalks社区的4位专家，分别给出了这些注意事项，总结如下： 1.业务视角的告警比其他告警更重要，是评判告警该不该加的重要标准。 2.告警要紧贴业务，而业务分核心与非核心，围绕核心用户旅程…
安全运维
- 22
- 0
aqzt24年12月21日
系统稳定性保障 – 美团AIOps在事件管理的硬核实践

文中所提及的事件并不仅限于故障，还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景在《AIOps在…
安全运维
- 15
- 0
aqzt24年12月21日
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践

大规模Zabbix万台应用监控场景下，针对告警、可靠性工程实践经验；通过Zabbix二次开发，集成运维平台、工单、值班、自愈系统，通告警服务化、数据化，为业务保驾护航，保障稳定性工程落地。京东集团是一家定位于以技术为本，业务为基，多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门，负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…
安全运维
- 14
- 0
aqzt24年12月21日
系统稳定性保障 – 相关能力成熟度模型介绍

保障系统稳定性是现代软件开发中最具挑战性的问题之一，也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行，是我国信息通信行业高质量发展的基石，也是我国数字经济快速发展的必要条件。因此，针对系统稳定安全运行的技术研究和实践推广具有重要意义。中国信通院自2020年起开始研究稳定性保障工作，建设了“系统稳定性保障系列标准”，并基于此标准体系支持了工信部稳定运行政策文…
安全运维
- 82
- 0
aqzt24年12月21日