-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 2
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 1
- 0
-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 0
- 0
-
思维模型 – 灯塔思维:明确远期目标,保持长远视野
迈克尔·西蒙斯通过研究成功的企业家,发现那些白手起家的亿万富翁企业家有着惊人的共性:他们总是能够从长远的视角来看待问题,而大多数人则只看眼前的利益。以亚马逊创始人贝索斯为例,他为了进行一些可能失败的实验,愿意长期投资数十亿美元,而他看重的并非短期的回报,而是未来可能带来的巨大收益。 灯塔思维强调的是长远的视角和耐心。就像航海者在茫茫大海中靠着远方的灯塔找到方向一样,人生中的灯塔指引我们始终保持目标…- 4
- 0
-
思维模型 – 蚊子思维:拥抱变化,快速反应
曾经有一项研究,通过高速摄影机记录了蚊子在雨中的逃生场景。令人惊讶的是,即便是比蚊子重50倍的雨滴落下,它们也能够安然无恙。蚊子的关键能力在于它能够随着环境的变化做出即时调整。如果雨滴直接打中它,蚊子会顺着雨滴的方向迅速下落,然后再快速调整飞行轨迹。 这告诉我们一个深刻的道理:在复杂和多变的环境中,那些能够迅速做出反应、并根据变化调整策略的人,才能在不断变化的世界中生存下来。英特尔创始人安迪·格鲁…- 1
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 1
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 8
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 8
- 0
-
故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
故障时间:10月23日下午。 故障现象:语雀出现重大服务故障,持续 7 个多小时。 直接原因:数据存储运维团队在进行升级操作时,新的运维升级工具出现 bug。 具体细节:bug导致华东地区生产环境存储服务器被误下线,使语雀数据服务发生严重故障,造成大面积服务中断。 恢复过程: 因机器类别较老,无法直接操作上线,只能从备份系统中恢复存储数据。 数据恢复过程耗时较长,直到晚上 22 点,语雀的全部服务…- 13
- 0
-
数字化运营基础技能 – KMeans聚类分析实践案例
K均值聚类既然是聚类嘛,那肯定就用最经典也比较简单的K均值聚类方法。 K-Means算法是一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中。 也是一种聚类分析(cluster analysis)的算法,其主要是来计算数据聚集的算法,主要通过不断地取离聚类中心点最近均值的算法。 原理就不多说了,反正也都是用sklearn的包实现。 导入库 import matplotlib.pypl…- 0
- 0
-
大模型,方向比速度更重要
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,是因为有人需要鞋,而不是因为鞋匠需要钱。” 国产大模型,再添新劲旅。9月7日,在腾讯一年一度的全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯将迈入“全面拥抱大模型”时代。同时,其自主研发的通用大模型——混元也正式对外发布,揭开了外界猜测已久的腾讯大模型面纱。坦白…- 2
- 0
-
2023已过,如何通过复盘获得提升?复盘六大工具
带领团队把任务完成,并不是完结,还缺少一个容易被忽略的环节——复盘总结。复盘是来自围棋领域的一个术语,是指一盘棋结束后,棋手复原整个棋局的全过程,反思自己和对方下棋的思路,思考下次对弈的策略。这种方法同样适用于管理,例如联想集团很早就已把复盘作为一个重要的管理方法论,强调及时对工作进行总结,从而做出优化和改进。 管理者带领团队进行的复盘可以分为两类: 一类是仪式感比较强的专项复盘,例如战…- 1
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 2
- 0
-
火爆的AIGC应用!入门指引实践
码字不易,SD保姆教程,从原理功能到案例输出展示,最后简述ControlNet的使用技巧,图文约1万5千字左右,阅读时长约20分钟~ 文章目录 Toggle Stable Diffusion的基本介绍一、基础介绍1. 提示词2. 符号的使用3. 图像的输出二、界面部分1. 采样迭代步数2. 采样方法的介绍3. 提示词相关性4. 随机种子三、Checkpoint,VAE,embedding和lora…- 1
- 0
-
实践案例 – 故障治理 阿里电商故障治理和故障演练实践
大家好,今天来的人不少,可见对于故障耿耿于怀的人,不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知,故障治理本身就是一个比较大的话题,几乎涉及到运维、研发、故障运行管理的全部岗位,奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪,相信45分钟绝对连开头都没讲完。今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…- 1
- 0
-
故障复盘 – 丰田5WHY法 – 学会从试错的经历中复盘
复盘,原本是围棋中的一个术语。 指下完棋后,重新在棋盘上走一遍,看看棋子下得好的地方和不好之处,哪些地方可以有不同甚至是更好的下棋方法等。这种重复棋局且带有思考的过程,就称为复盘或复局。 图源:https://www.piqsels.com 这样做的目的不仅可以找出双方攻守的漏洞,还可以让各自加深印象、总结经验、提高棋艺水平。 放在IT人的工作当中,亦是如此。 “在故障中成长,在复盘中强大”,IT…- 4
- 0
-
Flink 作业问题分析和调优实践
简介: 本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个部分分享:原理剖析、性能定位、经典场景调优、内存调优。 摘要:本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个部分分享: 原理剖析 性能定…- 1
- 0
-
入门同学对ITIL管理十大误解
一、ITIL是国外的管理最佳实践不适合中国国情ITIL是IT服务管理领域的最佳实践,是一种IT部门进行日常工作管理的方法论,既然他是一种管理方法就没有地域国情的限制,只要IT部门有管理的动作都可以参考ITIL的相关流程。产生这以误解多半是因为没有领会ITIL对IT管理的精髓,而是停留在简单的流程层面。同样说ITIL 只适合与大型IT组织或公司,适合于管理比较成熟的机构,也是类似的误解,ITIL是I…- 1
- 0
-
Flink SQL – 如何写出简单高效的 Flink SQL实战
一、Flink SQL InsightFlink 作为流批一体计算引擎,给大家提供了统一的 API,统一的算子描述,以及统一的调度。但 Flink 算子的底层仍有一些细微的差别。对于一个批算子而言,它的输入是一个有限数据集。批算子会基于完整数据集进行计算,计算过程中如果内存装不下,数据会 Spill 到磁盘。对于流算子而言,它的输入是一个无限数据集。与批算子不同,流算子不能在收集到所有输入数据之后…- 1
- 0
-
运维工具 – 大众点评评论文本挖掘基础案例实践
文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取(TF-IDF)机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…- 2
- 0
-
运维工具 – EXCEL 日常数据分析 – 透视表基本操作
一、基本操作1、创建数据透视表2、更改数据源3、转换为普通表格4、刷新所有数据透视表5、数据透视表排序6、数据透视表插入公式7、套用模板8、使用切片器9、恢复03经典数据透视表样式 1、创建数据透视表 2、更改数据源 3、数据透视表转换为普通表格 4、数据透视表刷新 5、数据透视表排序 6、数据透视表插入公式 7、套用设计模板 8、使用切片器 9、恢复经典数据透视表样式 07及以上版本制作的数据透…- 2
- 0
-
数据治理 – XX业务数据分析体系的架构与实践
导读:讲述在业务快速迭代发展过程中,为了让大数据更好地赋能业务,高效的为用户提供有业务价值的数据产品和服务,百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程,包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。 全文9911字,预计阅读时间24分钟。 文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…- 1
- 0
-
故障治理 – 稳定性保障6步走:高可用系统大促作战指南!
一、前言 年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。 跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做? 除了口口相传的历史经验,我们还能做些什么?又有什么理论依据? 二、怎样的系统算是稳定? 首先回答另一个问题,怎样的系统算是稳定的? Google SRE中(SR…- 4
- 0
-
数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战
孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation),因此该算法简单、高效,在工业界应用较多。 Isolation Forest算法的逻辑很直观,算法采用二叉树对数据进行分裂,样本选取、特征选取、分裂点选取都采用随机化的方式。如果某个样本是异常值,可能需要很少次…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!