-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 47
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 25
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 6
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 21
- 0
-
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”
雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可能出错的地方就一定会出错。 “24年了,终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具,用来请求 Web 服…- 3
- 0
-
运维生产故障有哪些?运维常见问题最佳实践
运维生产故障是指在运维过程中出现的各种问题和故障,可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类,下面是一些常见的运维生产故障分类和其常见类型: 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括:– 服务器故障:例如硬盘故障、内存故障等。– 网络设备故障:例如…- 13
- 0
-
故障治理 – 线上故障分析与故障治理指引
文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么?-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …- 7
- 0
-
IT服务治理 – SRE工具链建设思路与实践
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据应用技术)。曾荣获:华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作:《python自动化运维:技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…- 24
- 0
-
FLINK SQL 实践 – (十六):flink sql 开发利器之 Zeppelin
文章目录 Toggle 1.序篇2.Apache Zeppelin 平台效果3.安装部署篇3.1.安装 flink3.2.下载 zeppelin 的 tar 包3.3.在 zeppelin 中配置 flink 环境信息 1.序篇 上节介绍了 flink sql 的企业级开发利器 Dlink。本节就来介绍下 Apache Zeppelin。 本节主要介绍一下博主在本地部署 Apache Zeppel…- 2
- 0
-
[运维工具]每秒几十亿实时处理,阿里巴巴超大规模 Flink 集群运维揭秘
今天主要讲三块: 第一,阿里 Flink 发展的历史背景,怎么来的,现状规模到底什么样第二,阿里 Flink 运维管控平台第三,阿里 Flink 平台运维技术解决方案 文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案 一、阿里 Flink 集群运维挑战 首先说一下流计算,批计算就是数据集是有限的,每次的计算都可以拿到一样的结果,在…- 3
- 0
-
运维工具 – 唯品会王玉:老司机教你如何调教Presto和ClickHouse,应对业务难题!
导读:大家好,我是来自唯品会实时平台 OLAP 团队的王玉,主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu,这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作,并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。 本文主要介绍唯品会 OLAP 的演进,包括 Presto 智能化和容器化实践,以及 Clickhouse 在实验平台海量数据存储和计…- 8
- 0
-
Flink SQL 抖音实时数仓保障及治理实践与优化
文章目录 Toggle 一、实时数仓场景介绍二、实时数仓场景初探三、典型场景实践四、未来规划 一、实时数仓场景介绍 为了数据湖更好的落地,我们在落地之前与业务做了一些深入的沟通,并根据不同业务的特点主要分为了三个场景: 1)场景一典型的业务主要是短视频和直播,它的数据量级一般都比较大,例如大流量的日志数据,其计算周期一般是自然的天、小时或者分钟级别的,实时性的要求一般是五分钟内,主要诉求是批流的复…- 37
- 0
-
[经验分享]远离故障的十大原则
故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项:可用性。可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归。我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉!1、变更要有回滚,在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障,变更请谨慎7、搭建…- 4
- 0
-
IT服务治理 – 唯品会基于 Clickhouse 存储日志的实践 
1、背景 唯品会日志系统dragonfly 1.0是基于EFK构建,于2014年服务至今已长达7年,支持物理机日志采集,容器日志采集,特殊分类日志综合采集等,大大方便了全公司日志的存储和查询。 随着公司的业务发展,日志应用场景逐渐遇到了一些瓶颈,主要表现在应用数量和打印的日志越来越多,开发需要打印更多日志,定位业务问题,做出运营数据分析;另外外部攻击问题和审计要求,需要更多安全相关的日志数据要上报…- 3
- 0
-
FLINK SQL 实践 – (十五):flink sql 开发企业级利器之 Dlink
发现有两款非常优秀的利器: Apache Zeppelin Dlink 为啥先介绍 Dlink 呢? 因为博主和其开发人员混的很熟了,所以就先拿 Dlink 来尝试尝试。 废话不多说,大家都想先看效果再看怎么部署。先看看最终效果。 文章目录 Toggle 2.Dlink 平台效果2.1.登录2.2.flink sql 开发界面3.安装部署篇3.1.Dlink 的 github3.2.部署环境准备3…- 1
- 0
-
PYTHON基础技能 – Python环境搭建与管理的9个常见问题解答
文章目录 Toggle 引言问题一:如何选择Python版本?问题二:如何安装Python?问题三:如何管理多个Python版本?问题四:如何解决Python依赖冲突?问题五:如何升级Python版本?问题六:如何设置Python环境变量?实战案例:使用虚拟环境管理多版本Python项目示例:激活和使用项目A的虚拟环境示例:激活和使用项目B的虚拟环境问题七:如何管理项目依赖?使用 requirem…- 2
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 9
- 0
-
flinkSQL实践 – 如何实时统计最近 15 秒的商品销售额
想要了解如何使用 Flink 实时统计最近 15 秒的商品销售额吗?本实验将以阿里云实时计算 Flink 版为基础,使用 Flink 自带的 MySQL Connector 连接 RDS 云数据库实例,并以实时商品销售数据统计的例子,引导开发者上手 Connector 的数据捕获、数据写入等功能。 完成本次实验后,您将掌握的知识有: 使用 Flink 实时计算平台创建并提交作业的方法; 编写基于 …- 1
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践(2)
一、前言 之前在《云原生背景下的运维价值思考与实践(上)》 里,重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,D…- 12
- 0
-
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践
文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…- 5
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 2
- 0
-
PYTHON基础技能 – Python自动化办公的14个实用脚本
在日常工作中,重复性的任务不仅耗时,还容易出错。Python凭借其简洁易学的语法,成为许多办公室自动化任务的首选工具。今天,我们就一起来看看如何用Python编写一些实用的小脚本,提高工作效率。 文章目录 Toggle 1. 文本文件批量重命名2. Excel数据清洗3. PDF合并器4. 图片压缩工具5. 文本内容替换6. 数据抓取与解析7. 数据导出到CSV8. 邮件自动发送9. 文件夹监控与…- 3
- 0
-
经验教训 – 生产环境血的教训最佳实践
SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原则,有助于降低生产影响 教训2:变更实施 – 生产回滚异常要马上处理,保持服务器的生产服务状态 教训3:变更验证 – 灰度期间必须确认监控/告警后才能继续下一批,避免事件产生影响更大 教训4:变更验证 – 变更完成需从业务维度进行验收 教训5:…- 1
- 0
-
AIGC到底是什么?利用人工智能来生成你所需要的内容,一起动手玩转AI
文章目录 Toggle AIGC( AI Generated Content)是利用人工智能来生成你所需要的内容,GC的意思是创作内容。与之相对应的概念中,比较熟知的还有PGC,是专业人员用来创作内容;UGC是用户自己创造内容,顾名思义AIGC是利用人工智能来创造内容。例如现在比较爆火的ChatGPT就是AIGC这个大赛道里下面的一个相对于很成功的产品,一经上线席卷全球,短短一个月突破1亿月活跃用…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!









![[经验分享]远离故障的十大原则](https://aqzt.com/wp-content/uploads/20250330060215-14.png)






