-
故障复盘 – 3个核心5要素有效提高故障复盘质量
对于故障,复盘是一件非常重要的事情,因为我们的成长基本上就是从故障中总结各种经验教训,从而可以获得最大的提升。 在亚马逊和阿里,面对故障的复盘有不一样的流程,虽然在内容上差不多,但细节上有很多不同。亚马逊内部面对 S1 和 S2 的故障复盘,需要那个团队的经理写一个叫 COE(Correction of Errors)的文档。这个 COE 文档,基本上包括以下几方面的内容。 故障处理的整个过程。就…- 1
- 0
-
IT服务管理 – ITIL培训- 问题管理
问题管理关键点要有个专业业务专家进行管控,问题管理管控的是风险,实施会遇到很多困难,核心是要帮助相关团队,与研发团队一起管控风控,不是管控研发团队。否则就遇到无法推动痛点 问题管理主要活动 – 问题控制 问题管理主要活动 – 错误控制 问题管理主要活动 – 主动问题控制 问题角色 – 问题经理- 0
- 0
-
故障治理 – 回顾近年数据中心十大灾难事件
数据中心的存在,就是为了保障计算的安全与可连续性。然而,仅仅最近三年中,数据中心发生了十余件故障乃至灾难。详见: 《盘点:近年数据中心十大灾难事件》 数据中心系统庞杂,运维安全本就不易,近年来的极端气候、技术发展等因素,也为数据中心高可靠性带来了新挑战,我们应该如何预防与应对? 数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现,电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…- 18
- 0
-
【运维工具】Flink SQL 实践13 维表 join 的性能优化之路(上)附源码
文章目录 Toggle 1.序篇2.背景及应用场景介绍3.来一个实战案例4.flink sql lookup join4.1.lookup join 定义4.2.上述案例解决方案4.3.关于维表使用的一些注意事项4.4.再说说维表常见的性能问题及优化思路4.5.lookup join 的具体性能优化方案4.6.基于 redis connector 的批量访问机制优化5.总结与展望 1.序篇 源码公…- 12
- 0
-
经验教训 – 网络安全经验经验,帮你降低损失风险
对于很多首席信息安全官来说,即将到来的2023年是一个很好的时机,可以反思他们在2022年里学到的经验和教训,以及如何将它们应用到未来。 动荡的2022年即将结束,在这一年,埃隆·马斯克收购了Twitter,俄乌冲突,许多员工重返办公室。人们还看到,一些安全主管因隐瞒数据泄露而被判入狱。 这些事件以及更多事件改变了业务格局,迫使首席信息安全官在不确定领域前行。Trustwave公司的首席信息官Ko…- 9
- 0
-
经验教训 – 软件Bug引发的十多次严重后果
你知道吗,由于软件故障(bug),美国经济每年在浪费生产力、返工和实际毁坏上损失了数十亿美元。本文列举了一些由软件 Bug 引发重大事故,其结果是大量金钱损失,甚至人员死亡。 1. 爱国者导弹 1991 年 2 月第一次海湾战争期间,部署在沙特宰赫兰的美国爱国者导弹系统未能成功追踪和拦截来袭的伊拉克飞毛腿导弹。结果飞毛腿导弹击中美国军营。 损失:28 名士兵死亡,100 多人受伤 故障原因:时间计…- 7
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据应用技术)。曾荣获:华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作:《python自动化运维:技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…- 11
- 0
-
PYTHON基础技能 – Python中20个不为人知的高级特性
文章目录 Toggle 引言特性1:生成器表达式特性2:列表解析增强赋值特性3:字典推导式与合并特性4:集合操作的高效性特性5:装饰器的深层理解特性6:偏函数的应用特性7:闭包的内部机制特性8:无限序列的生成特性9:迭代器协议的自定义特性10:生成器yield的暂停与恢复特性11:自定义with语句特性12:类的动态创建特性13:描述符的理解特性14:os.path的高级路径处理特性15:date…- 0
- 0
-
PYTHON基础技能 – Python数据类型转换中的隐藏宝藏
文章目录 Toggle 1. 什么是数据类型?2. 数据类型转换的重要性3. 常见的数据类型转换4. 示例 1:从字符串到整数5. 示例 2:从字符串到浮点数6. 示例 3:从整数到字符串7. 更高级的数据类型转换8. 示例 4:布尔值转换9. 示例 5:列表与字符串之间的转换11. 示例 6:列表与元组之间的转换12. 示例 7:列表与集合之间的转换13. 示例 8:字典键值对的转换14. 示例…- 0
- 0
-
系统稳定性保障 – 迄今见过最易懂的混沌工程落地实践
一、背景 从 2010 年 Netflix 上线 Chaos Mokey 的第一个版本到现在,虽然混沌工程发展已历时十年,但其实只在少数大厂里面有较成熟的落地,对绝大部分研发同学来说,混沌工程还是一个比较陌生的领域。 分布式和微服务化已经成为主流的系统架构设计方案,大规模分布式系统的可用性保障能力越来越成为关注的重点。混沌工程也开始如雨后春笋般在各大企业内部萌芽生长,但大部分还处于初期的探索阶段,…- 4
- 0
-
系统稳定性保障 – 美团AIOps在事件管理的硬核实践
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景 在《AIOps在…- 9
- 0
-
故障复盘 – 复盘步骤与经验方法
复盘是一种回顾和分析过去行为、决策和结果的过程,目的是从过去的经历中学习并做出改进。 故障复盘在实践中可能会遇到以下痛点: 数据收集不完整:故障发生时,如果没有完整的日志记录、监控数据或其他关键信息,很难准确地追溯故障原因。 参与人员配合度不高:复盘需要涉及各个相关部门,如果团队间协作不畅或不愿意承担责任,可能导致复盘无法深入。 事后诸葛亮现象:复盘时容易忽略当时决策的局限性,过于理想化地看待问题…- 5
- 0
-
故障复盘 – 复盘工具 AAR(After Action Review/事后回顾)
AAR最早是美国陆军所进行的一项任务后的检视方法,对美国陆军来说,使用这种方法的好处是当新的理解被产生时,可以马上响应到行动上,他们使用AAR解决了许多问题。美国陆军使用AAR的成功因素包括:结构化、有目地的对谈;打破层级的藩篱;能迅速反映至行动中;将学习的成果记录下来等。在美国陆军的成功使用经验之后,Analog Devices公司T&IPD (Transportation & …- 12
- 0
-
最佳实践 – 测试定位问题思路
为什么定位问题如此重要? 可以明确一个问题是不是真的“bug” 很多时候,我们找到了问题的原因,结果发现这根本不是bug。原因明确,误报就会降低 多个系统交互,可以明确指出是哪个系统的缺陷,防止“踢皮球”,提高问题解决的效率 增强开发对测试的信任度,沟通更有效,配合的更好,开发修改bug时效增强 更有效的了解系统的内部逻辑、数据流处理流程,更能提高测试人员的水平,缺陷修复后,影响的测试范围评估更精…- 10
- 0
-
IT服务治理 – 阿里为什么能抗住90秒100亿?负载均衡架构实践
本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。 基本概念 在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个最基础的概念进行介绍。 1)什么是分布式? 系统中的多个模块在不同服务器上部署,即可称为分布式系统,如Tomcat和数据库分别部…- 2
- 0
-
IT服务治理 – 唯品会基于 Clickhouse 存储日志的实践 
1、背景 唯品会日志系统dragonfly 1.0是基于EFK构建,于2014年服务至今已长达7年,支持物理机日志采集,容器日志采集,特殊分类日志综合采集等,大大方便了全公司日志的存储和查询。 随着公司的业务发展,日志应用场景逐渐遇到了一些瓶颈,主要表现在应用数量和打印的日志越来越多,开发需要打印更多日志,定位业务问题,做出运营数据分析;另外外部攻击问题和审计要求,需要更多安全相关的日志数据要上报…- 4
- 0
-
实践案例 – 货拉拉全链路监控体系的落地与实践
今天分享的主题是货拉拉全链路监控体系的落地与实践,以下是分享大纲。 分享大纲 文章目录 Toggle 一、监控演进史1、行业2、货拉拉1)监控1.0时期2)监控2.0时期3)监控3.0时期二、货拉拉监控体系整体架构三、监控埋点1、JAVA SDK图谱2、什么是字节码增强技术?1)字节码增强技术的应用 – 热修复Log4j2漏洞2)Java Agent技术3)字节码增强框架4)字节码增强…- 17
- 0
-
思维认知 – 对于管理语言,很重要的一点是:便于理解,不容易产生歧义
张一鸣在字节跳动九周年年会上,引述了员工的一段报告来讽刺一些人不讲人话: 底层逻辑是打通信息屏障,创建行业新生态。顶层设计是聚焦用户感知赛道,通过差异化和颗粒度达到引爆点。交付价值是在垂直领域采用复用打法达成持久收益。抽离透传归因分析作为抓手为产品赋能,体验度量作为闭环的评判标准。亮点是载体,优势是链路。思考整个生命周期,完善逻辑考虑资源倾斜。方法论是组合拳达到平台化标准。 是不是每个字都认识,但…- 5
- 0
-
宝贵的人生建议 – 凯文·凯利:给子女,100条建议
一、永远不要为你不想成为的人工作 1. 如果你不想投资于一家公司,就不要在这家公司工作。因为当你工作时,你是在投入自己拥有的一切:你的时间。 2. 在同意参加一场工作会议之前,你必须先看会议日程,并知道需要做出什么样的决定。如果不需要做出任何决定,你可以跳过这场会议。3. …- 3
- 0
-
Python 日常数据分析 – EXCEL实战- 批量替换单元格
from pathlib import Path import xlwings as xw src_folder = Path(‘文件夹’) file_list = list(src_folder.glob(‘*.xlsx’)) app = xw.App(visible=False, add_book=False) for i in file_lis…- 0
- 0
-
火爆的AIGC应用!入门指引实践
码字不易,SD保姆教程,从原理功能到案例输出展示,最后简述ControlNet的使用技巧,图文约1万5千字左右,阅读时长约20分钟~ 文章目录 Toggle Stable Diffusion的基本介绍一、基础介绍1. 提示词2. 符号的使用3. 图像的输出二、界面部分1. 采样迭代步数2. 采样方法的介绍3. 提示词相关性4. 随机种子三、Checkpoint,VAE,embedding和lora…- 1
- 0
-
运维稳定性 – 故障处理的系统稳定性与可观测性能力实践
笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨分享。本文主要内容包括: 可观测性在整个商业体系中的位置和价值 如何快速发现故障,使用哪类指标告警 SRE 在谈论故障定位的时候,谈的是什么 如何找到故障直接原因,找到止损依据 如何让可观测性系统呈现观…- 1
- 0
-
德鲁克管理7大原则,每一条都是精华
德鲁克的著作影响了数代追求创新以及最佳管理实践的学者和企业家们,各类商业管理课程也都深受彼得·德鲁克思想的影响。今天就跟大家分享一下现代管理学之父的管理之道: 第一,管理者必须要卓有成效。卓有成效是管理者能够做到而且必须做到的事。并不是只有高管才是管理者,所有知识工作者都应该像管理者一样工作和思考。对组织负有责任,能影响组织经营成果的人就是管理者。不要认为卓有成效高不可攀,卓有成效是可以学会的。每…- 4
- 0
-
IT数字化转型 – 华为:数字化转型,从战略到执行PPT摘录
传统企业通过制造先进的机器来提升生产效率,但是未来,如何结构性地提升服务和运营效率,如何用更低的成本获取更好的产品,成了时代性的问题。数字化转型归根结底就是要解决企业的两大问题:成本和效率,并围绕“多打粮食,增加土地肥力”而开展。 数字化转型势在必行,这已成为所有企业CIO的共识。但在现实中,很多数字化转型计划还是陷入重重困难,其原因大多在于企业内部对数字化转型的认知还不够透彻。尤其是对于那些业务…- 0
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


















