-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 1
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 5
- 0
-
系统稳定性保障 – 微服务架构下如何做好故障演练
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有效反应,系统的可用性将极大地降低。 文章目录 Toggle 什么是故障演练为什么需要故障演练故障演练的目标故障演练的基本流程云原生、微服务架构场景下故障模拟的挑战云原生、微服务场景下的故障演练工具如何进行故障演练演练前 | 确认演练对象与目标演练前 | 准备演练环境演练前 | 制定故障应对策略演练前…- 1
- 0
-
系统稳定性保障 – 云原生大潮下的混沌工程思考
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。 作者:智妍(郑妍)、浣碧(何颖) 文章目录 Toggle 什么是混沌工程,云原生大潮下的混沌工程特点混沌工程实施模式的阶段和发展如何进行一次完整的故障演练实施结语 什么是混沌工程,云原生大潮下的混沌工程特点 通过使用云计算厂商如…- 1
- 0
-
大规模运行 Apache Airflow 的经验和教训
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已经在生产中运行了两年多的 Airflow,用于各种工作流,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时,我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…- 1
- 0
-
可观测性(Observability)- 聚合度量
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫星发射中心的控制室,在整个房间最显眼的位置,布满整面墙壁的巨型屏幕里显示着一个个指示器、仪表板与统计图表,沉稳端坐中央的指挥官看着屏幕上闪烁变化的指标,果断决策,下达命令……如果以上场景被改成指挥官双手在键盘上飞舞,双眼紧盯着日志或者追踪系统,试图判断出系统工作是否正常。这光想像一下,都能感觉到一股…- 1
- 0
-
可观测性(Observability) – 三要素日志、追踪、度量
随着分布式架构渐成主流,可观测性(Observability)一词也日益频繁地被人提起。最初,它与可控制性(Controllability)一起,是由匈牙利数学家 Rudolf E. Kálmán 针对线性动态控制系统提出的一组对偶属性,原本的含义是“可以由其外部输出推断其内部状态的程度”。 在学术界,虽然“可观测性”这个名词是近几年才从控制理论中借用的舶来概念,不过其内容实际在计算机科学中已有多…- 2
- 0
-
IT服务治理 – 阿里为什么能抗住90秒100亿?负载均衡架构实践
本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。 基本概念 在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个最基础的概念进行介绍。 1)什么是分布式? 系统中的多个模块在不同服务器上部署,即可称为分布式系统,如Tomcat和数据库分别部…- 1
- 0
-
实践案例 – 360容器平台监控实践
背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发…- 0
- 0
-
最佳实践 – 技术如何从小白到管理,怎么支撑业务快速发展?
一、背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队,快速拿出成果,支撑业务的快速发展。 二、痛点 从小团队人员快速扩张,团队文化稀释,人员效能下降,目标逐渐弱化。 各自团队管理方式及标准不统一,人员管理及协同逐渐混乱。 组织扩大后,难以有效关注个人,无法准确评判个人的成长,贡献等。 三、目标 通…- 2
- 0
-
排查 K8S 问题的经验和技巧
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。 排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中,可以通过学习和实践来积累经验,并结合官方文档和社区资源进行学习和交流。同时,也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…- 1
- 0
-
[运维工具]每秒几十亿实时处理,阿里巴巴超大规模 Flink 集群运维揭秘
今天主要讲三块: 第一,阿里 Flink 发展的历史背景,怎么来的,现状规模到底什么样第二,阿里 Flink 运维管控平台第三,阿里 Flink 平台运维技术解决方案 文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案 一、阿里 Flink 集群运维挑战 首先说一下流计算,批计算就是数据集是有限的,每次的计算都可以拿到一样的结果,在…- 0
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 1
- 0
-
系统稳定性保障 – 字节跳动混沌工程故障演练实践总结
什么是混沌工程 在生产环境中实际运行分布式系统,难免会有各种不可预料的突发事件发生。同时,云原生的发展,不断推进着微服务的进一步解耦,海量的数据与用户规模也带来了基础设施的大规模分布式演进。分布式系统天生有着各种相互依赖,可以出错的地方数不胜数,处理不好就会导致业务受损,或者是其他各种无法预期的异常行为。 在复杂的分布式系统中,无法阻止这些故障的发生,我们应该致力于在这些异常行为被触发之前,尽可能…- 2
- 0
-
docker与openstack的关系
最近Docker和OpenStack是在信息化基础设备虚拟化或云化方面最火的两个开源项目,他们有关系吗,下面来分析分析。 先看看他们分别是什么,我尝试不用网上的高大上术语,而用大白话来解释一下他们,或者刺破他们。 OpenStack:它由很多的组件组成,如果没接触过,基本上你会晕头转向。但是我们只要从它试图要解决的问题来看就不难理解它。它是管理服务器/网络/块存储的工具。关于块存储,简单的理解是把…- 51
- 0
-
Openstack+Kubernetes+Docker微服务实践之路–弹性扩容
服务上线就要顶的住压力、扛的住考验,不然挨说的还是我们这帮做事的兄弟,还记得上图这个场景吗 老办法是服务集群部署,但总归有个上限,之前跟阿里合作的时候他们有个弹性计算可以通过设置CPU的阀值来动态扩展和收缩计算能力,那时感觉很有逼格,至少在当时我们常规的做法很难做到,没想到时至今日有了Kubernetes我们能也扬眉吐气了,看我来给大家实实在在的秀一把。 Kubernetes的自动扩容针对的是Re…- 7
- 0
-
Openstack+Kubernetes+Docker微服务实践之路–Kubernetes
经过几番折腾终于搞定Kubernetes了,我们要在Openstack上部署Kubernetes集群,使用最新工具Kubeadm来安装,由于不能直接访问Kubernetes的源,我们需要一台可以穿墙的机器,可以是个人电脑,另外需要一台基于Docker快照的云主机,将下载后的所有资源放到这台机器中生成新的Kubernetes快照,用来做为以后Kubernetes集群的系统基础。 下载Kubernet…- 26
- 0
-
Jenkins+Git+Docker+K8s部署
准备工作 Jenkins已安装 Docker和K8s部署运行成功 代码管理工具使用Git 最近公司项目使用Jenkins+Git+Docker+K8s进行持续化构建部署,这里笔者整理了一下构建部署的相关操作,以便留存查看。 项目和工具介绍 这里有两个项目:前端和后台,同样都是使用Git代码管理工具,目前是使用所谓的微服务进行发布操作,结合Docker和K8s进行部署发布。 部署步骤 传统的服务发布…- 15
- 0
-
Jenkins+Git+Docker+K8s部署
准备工作 Jenkins已安装 Docker和K8s部署运行成功 代码管理工具使用Git 最近公司项目使用Jenkins+Git+Docker+K8s进行持续化构建部署,这里笔者整理了一下构建部署的相关操作,以便留存查看。 项目和工具介绍 这里有两个项目:前端和后台,同样都是使用Git代码管理工具,目前是使用所谓的微服务进行发布操作,结合Docker和K8s进行部署发布。 部署步骤 传统的服务发布…- 20
- 0
-
Docker 安装 Nginx
1、搜索 Nginx 镜像 1docker search nginx 2 3#显示 4NAME DESCRIPTION STARS OFFICIAL AUTOMATED 5nginx Official build of Nginx. 12311 [OK] 6jwilder/nginx-proxy Automated Nginx reverse proxy for docker con… 1698 …- 19
- 0
-
Openstack+Kubernetes+Docker微服务实践之路–服务发布
结合上文,我们的服务已经可以正常运行了,但它的访问方式只能通过服务器IP加上端口来访问,如何通过域名的方式来访问到我们服务,本来想使用Kubernetes的Ingress来做,折腾一天感觉比较麻烦,Ingress还得搭配Nginx使用,而且目前还是Beta版,就打算另辟蹊径,想到了之前用的Haproxy。 本文就结合OpenStack的负载和Haproxy来实现通过域名的方式访问K8s内部要发布的…- 19
- 0
-
Openstack+Kubernetes+Docker微服务实践之路–Kubernetes
经过几番折腾终于搞定Kubernetes了,我们要在Openstack上部署Kubernetes集群,使用最新工具Kubeadm来安装,由于不能直接访问Kubernetes的源,我们需要一台可以穿墙的机器,可以是个人电脑,另外需要一台基于Docker快照的云主机,将下载后的所有资源放到这台机器中生成新的Kubernetes快照,用来做为以后Kubernetes集群的系统基础。 下载Kubernet…- 7
- 0
-
Openstack+Kubernetes+Docker微服务实践之路–弹性扩容
服务上线就要顶的住压力、扛的住考验,不然挨说的还是我们这帮做事的兄弟,还记得上图这个场景吗 老办法是服务集群部署,但总归有个上限,之前跟阿里合作的时候他们有个弹性计算可以通过设置CPU的阀值来动态扩展和收缩计算能力,那时感觉很有逼格,至少在当时我们常规的做法很难做到,没想到时至今日有了Kubernetes我们能也扬眉吐气了,看我来给大家实实在在的秀一把。 Kubernetes的自动扩容针对的是Re…- 18
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!