-
IT服务管理:故障治理 – 运维故障排查处理思路
在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、…- 17
- 0
-
2023.11.27滴滴系统崩了 P0级故障?
昨天(11月26日)晚上,不少用户向潮新闻记者帮反映“滴滴系统崩了,还车还不了。” 今天(11月27日)早上,滴滴发布最新通告,致歉的同时表示,系统已修复。 原文如下: 经技术团队连夜修复,滴滴网约车等服务已恢复,用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行,希望能为缓解早高峰压力努力多做一点点。 11月27日晚间因系统故障导致App服务异常…- 16
- 0
-
故障治理 – 京东科技之全链路故障诊断-智能运维实践
讲师介绍 张静,京东科技智能运维算法高级经理。硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队致力于京东智能运维算法迭代,把智能算法能力落地京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破,提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文,申请智能运维发明专利50余项,IEEE国际会议论文收录9篇。 分…- 1
- 0
-
[经验分享]远离故障的十大原则
故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项:可用性。可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归。我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉!1、变更要有回滚,在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障,变更请谨慎7、搭建…- 3
- 0
-
故障复盘 – 复盘工具 5Why法
文章目录 Toggle 5Why法案例1:生产设备突然停机案例2:网络服务器宕机案例3:APP闪退问题 5Why法 5Why法是一种深度追问、寻找问题根本原因的分析方法,通过连续问五个“为什么”,逐步揭示问题的本质。以下是三个应用5Why法进行故障复盘的案例: 案例1:生产设备突然停机 What(什么):生产设备突然停机,无法正常运转。 Why1(为什么):因为电机过热导致自动保护开关跳闸。 Wh…- 2
- 0
-
运维工具 – 大众点评评论文本挖掘基础案例实践
文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取(TF-IDF)机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…- 11
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 3
- 0
-
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而,就在 5 月 24 日,这个服务在巴西南部区域发生了长达 10 小时的宕机,影响了数千名客户。事后调查发现,竟然是因为一个简单的拼写错误,导致了 17 个生产数据库被误删。 事件背景起源于,Azure DevOps 工程师有时需要对生产数据库的快照进行保存,以调查报告的问…- 1
- 0
-
经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合一起,出问题往往是最不起眼功能环节,就是一棵螺丝钉 第 2 课:愚蠢的自动化强依赖于流程工具与自动化工具,应急时缺少了走火通道 第 3 课:现在是 2023年,数据库仍然很棘手灾难恢复后最耗时就是数据关系重建,数据完整性、一致性处理 第 4 课:分阶段慢慢部署变更需要遵循最小灰度原则 第 5 课:为…- 2
- 0
-
故障复盘 – 复盘工具 KPT法
文章目录 Toggle KPT法故障复盘案例案例1:服务器宕机事件案例2:网络通信故障案例3:软件系统bug导致用户数据异常 KPT法故障复盘案例 KPT法(Keep/Problem/Try)是一种简洁实用的复盘方法,分别对应保留(维持好的做法)、问题(识别现存问题)和尝试(提出改进措施)三个方面。下面是三个应用KPT法进行故障复盘的案例: 案例1:服务器宕机事件 Keep(保留):在此次服务器宕…- 2
- 0
-
最佳实践 – 测试定位问题思路
为什么定位问题如此重要? 可以明确一个问题是不是真的“bug” 很多时候,我们找到了问题的原因,结果发现这根本不是bug。原因明确,误报就会降低 多个系统交互,可以明确指出是哪个系统的缺陷,防止“踢皮球”,提高问题解决的效率 增强开发对测试的信任度,沟通更有效,配合的更好,开发修改bug时效增强 更有效的了解系统的内部逻辑、数据流处理流程,更能提高测试人员的水平,缺陷修复后,影响的测试范围评估更精…- 2
- 0
-
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方说你的系统有问题,但你认为没问题,又无法自证? 这一切都源自于你的系统没有做好监控和告警: 没有监控或者没有一个好的监控,导致你无法快速判断系统是不是健康的;没有告警或者没有一个精准的告警,当系统出问题时不能及时通知到…- 3
- 0
-
经验教训 – Google 20年的11条运维经验教训
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠…- 1
- 0
-
故障治理 – 回顾近年数据中心十大灾难事件
数据中心的存在,就是为了保障计算的安全与可连续性。然而,仅仅最近三年中,数据中心发生了十余件故障乃至灾难。详见: 《盘点:近年数据中心十大灾难事件》 数据中心系统庞杂,运维安全本就不易,近年来的极端气候、技术发展等因素,也为数据中心高可靠性带来了新挑战,我们应该如何预防与应对? 数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现,电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…- 10
- 0
-
CMDB是配置管理库它应该长得怎么样?数据资产体系如何建设?
一、认识数据资产 二、数据治理-方法论 三、CMDB平台建设 四、B站SRE资产平台建设之路 一、认识数据资产 1. 数据资产——企业IT价值 如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。 建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。 运营数…- 2
- 0
-
故障复盘 – 复盘工具 PREP模型复盘法
文章目录 Toggle PREP模型定义与特征使用PREP复盘法的电商平台问题复盘案例案例1:订单支付失败率高案例2:退货率居高不下案例3:客户投诉处理效率低 PREP模型定义与特征 PREP模型是一种结构化沟通和表述工具,也被广泛应用于问题复盘和决策分析中。PREP代表四个关键步骤: P(Point): 表达观点或问题的核心点,明确你要讨论的主题或需要解决的问题是什么。 R(Reaso…- 1
- 0
-
实践案例 – 告警治理 腾讯业务监控的修炼之路
概述 本文作为监控告警产品专题系列第一篇文章,涉及的主要内容为监控产品设计的相关基础知识,算是整个系列文章的一个索引。主要内容有: • 关于监控告警的一些概念• 立体化监控体系的阐述老鸟们可以关注后续的文章(文末有三期内容预告,关键词:IAAS, CMDB, 组件监控)业务运维 vs 产品经理以前做 QQ 业务运维的时候,有一类平台是自己天天会用,那这类平台是什么呢?就是监控告警平台,每…- 2
- 0
-
故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时!值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险
宕机时时有,但持续 24 小时以上的却并不多见。 近日,位于澳大利亚悉尼的微软 Azure 服务突发中断,导致用户在超过 24 小时内无法访问 Azure、Microsoft 365 和 Power Platform 服务。而后微软针对此次事故发布了一份初步分析报告,引发众人关注。 这份报告将原因归咎于“电力骤降导致一个可用区内的一个数据中心的部分冷却装置处于脱机状态”。由于冷却装置无法正常工作,…- 4
- 0
-
经验教训 – 摘录多年运维监控报警优化经验总结文章
整个文章的关键在于ITIL的持续运营阶段 运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时发布下一代版本,而老系统还需要过渡很长时间,工作量直接翻倍,大家只能勉强应付一线运维工作,团队成员开始陆续离职,而新人又无法在短时间内上手,整体情况不断恶化,持续半年左右才缓过劲来。 下面两张截图是我挑选的两个团队一周报警数的对比图,前者的单日报警量最高是 …- 1
- 0
-
IT运维管理(活着)与IT运营管理(活得好)定义与区别
最近在一个项目中,用户提出“IT运维管理”感觉范围太窄了,我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢?好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。 文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…- 3
- 0
-
故障复盘 – 复盘工具 SCQA模型复盘法
SCQA模型法SCQA模型是源自芭芭拉·明托在《金字塔原理》中提出的一种结构化表达和分析问题的工具,它由四个元素组成: S(Situation): 情景 — 描述当前的背景、现状或已知的事实情况,通常是大家都熟悉的环境或事件。 C(Complication): 冲突或问题 — 描述当前情景中存在的问题、矛盾、挑战或困境,它是对现状的一种偏离或打破平衡的因素。 Q(Question): 提问 — 提…- 2
- 0
-
2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习
Facebook大故障原因:一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统、以及严密的数据中心安全 Facebook故障是一系列不幸的事件酿成的! 一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全,所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示,周一故障的根本原因是例行维护工作出…- 3
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!