-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 9
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 21
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 3
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 4
- 0
-
IT服务治理 – 唯品会基于 Clickhouse 存储日志的实践 
1、背景 唯品会日志系统dragonfly 1.0是基于EFK构建,于2014年服务至今已长达7年,支持物理机日志采集,容器日志采集,特殊分类日志综合采集等,大大方便了全公司日志的存储和查询。 随着公司的业务发展,日志应用场景逐渐遇到了一些瓶颈,主要表现在应用数量和打印的日志越来越多,开发需要打印更多日志,定位业务问题,做出运营数据分析;另外外部攻击问题和审计要求,需要更多安全相关的日志数据要上报…- 2
- 0
-
FLINK SQL 实践 – (十五):flink sql 开发企业级利器之 Dlink
发现有两款非常优秀的利器: Apache Zeppelin Dlink 为啥先介绍 Dlink 呢? 因为博主和其开发人员混的很熟了,所以就先拿 Dlink 来尝试尝试。 废话不多说,大家都想先看效果再看怎么部署。先看看最终效果。 文章目录 Toggle 2.Dlink 平台效果2.1.登录2.2.flink sql 开发界面3.安装部署篇3.1.Dlink 的 github3.2.部署环境准备3…- 1
- 0
-
PYTHON基础技能 – Python环境搭建与管理的9个常见问题解答
文章目录 Toggle 引言问题一:如何选择Python版本?问题二:如何安装Python?问题三:如何管理多个Python版本?问题四:如何解决Python依赖冲突?问题五:如何升级Python版本?问题六:如何设置Python环境变量?实战案例:使用虚拟环境管理多版本Python项目示例:激活和使用项目A的虚拟环境示例:激活和使用项目B的虚拟环境问题七:如何管理项目依赖?使用 requirem…- 0
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 3
- 0
-
flinkSQL实践 – 如何实时统计最近 15 秒的商品销售额
想要了解如何使用 Flink 实时统计最近 15 秒的商品销售额吗?本实验将以阿里云实时计算 Flink 版为基础,使用 Flink 自带的 MySQL Connector 连接 RDS 云数据库实例,并以实时商品销售数据统计的例子,引导开发者上手 Connector 的数据捕获、数据写入等功能。 完成本次实验后,您将掌握的知识有: 使用 Flink 实时计算平台创建并提交作业的方法; 编写基于 …- 0
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践(2)
一、前言 之前在《云原生背景下的运维价值思考与实践(上)》 里,重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,D…- 2
- 0
-
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践
文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…- 5
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 1
- 0
-
PYTHON基础技能 – Python自动化办公的14个实用脚本
在日常工作中,重复性的任务不仅耗时,还容易出错。Python凭借其简洁易学的语法,成为许多办公室自动化任务的首选工具。今天,我们就一起来看看如何用Python编写一些实用的小脚本,提高工作效率。 文章目录 Toggle 1. 文本文件批量重命名2. Excel数据清洗3. PDF合并器4. 图片压缩工具5. 文本内容替换6. 数据抓取与解析7. 数据导出到CSV8. 邮件自动发送9. 文件夹监控与…- 2
- 0
-
经验教训 – 生产环境血的教训最佳实践
SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原则,有助于降低生产影响 教训2:变更实施 – 生产回滚异常要马上处理,保持服务器的生产服务状态 教训3:变更验证 – 灰度期间必须确认监控/告警后才能继续下一批,避免事件产生影响更大 教训4:变更验证 – 变更完成需从业务维度进行验收 教训5:…- 1
- 0
-
AIGC到底是什么?利用人工智能来生成你所需要的内容,一起动手玩转AI
文章目录 Toggle AIGC( AI Generated Content)是利用人工智能来生成你所需要的内容,GC的意思是创作内容。与之相对应的概念中,比较熟知的还有PGC,是专业人员用来创作内容;UGC是用户自己创造内容,顾名思义AIGC是利用人工智能来创造内容。例如现在比较爆火的ChatGPT就是AIGC这个大赛道里下面的一个相对于很成功的产品,一经上线席卷全球,短短一个月突破1亿月活跃用…- 2
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据应用技术)。曾荣获:华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作:《python自动化运维:技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…- 11
- 0
-
SRE实战手册 – 技能宝典
先聊一聊SRE的工作职责,聊一下我所理解的SRE的核心目标;初步看一下稳定性建设的工作范畴,看一看从宏观上如何划分我们的工作内容;然后我们由此进入今天的主题:故障管理,我将按照我的理解对故障管理进行拆解和分析;再后面,围绕故障管理,我们深入聊一下SRE的体系建设,如何通过体系建设来更好地做故障管理;最后我们再简单做下对未来的展望,共同畅想一下SRE工作的未来。 文章目录 Toggle 一、SRE的…- 2
- 0
-
经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合一起,出问题往往是最不起眼功能环节,就是一棵螺丝钉 第 2 课:愚蠢的自动化强依赖于流程工具与自动化工具,应急时缺少了走火通道 第 3 课:现在是 2023年,数据库仍然很棘手灾难恢复后最耗时就是数据关系重建,数据完整性、一致性处理 第 4 课:分阶段慢慢部署变更需要遵循最小灰度原则 第 5 课:为…- 2
- 0
-
PYTHON基础技能 – 一行Python代码实现数据清洗的18种方法
数据清洗可能是你们遇到的第一个大挑战,但别担心,Python的魔力在于能用简洁的代码解决复杂问题。今天,我们就来学习如何用一行代码完成数据清洗的十八个小绝招。准备好,让我们一起化繁为简,成为数据清洗的高手! 文章目录 Toggle 1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统计元素出现次数6. 字符串分割成列表7. 列表合并8. 数据填充9. 提…- 2
- 0
-
经验教训 – Google 20年的11条运维经验教训
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠…- 1
- 0
-
经验教训 – 摘录多年运维监控报警优化经验总结文章
整个文章的关键在于ITIL的持续运营阶段 运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时发布下一代版本,而老系统还需要过渡很长时间,工作量直接翻倍,大家只能勉强应付一线运维工作,团队成员开始陆续离职,而新人又无法在短时间内上手,整体情况不断恶化,持续半年左右才缓过劲来。 下面两张截图是我挑选的两个团队一周报警数的对比图,前者的单日报警量最高是 …- 1
- 0
-
混沌工程与SRE的结合(中国移动)
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混…- 2
- 0
-
阿里大模型通义千问开源
从官网中介绍,通义千问有以下几个优点: 训练时使用了大规模的高质量数据:使用了超过2.2万亿token进行预训练 更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。 支持8K长度上下文:允许用户输入更长的prompt。 评测能力有大幅提升:通义千问在多个评测数据集上具有显著优势,甚至超出12-13…- 1
- 0
-
【运维工具】 – Top 12 IT服务管理(ITSM)工具
IT服务管理已发展成为维持企业运转的关键功能。下述平台可以帮助您跟踪和完善服务工作流程。 很久以前,运行一个IT服务台只需要几台备用台式机、一条电话线和一种糟糕的幽默感。现在,信息化成为企业的支柱,这份工作也随着责任的增加而发展变化。如果持续停电导致部分业务关闭,许多企业将遭受重大打击。当计算机负责处理每个工作流程的每一步时,没有计算机也就意味着无法完成任何工作。这也使得IT服务台成为维持企业运转…- 5
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!