-
故障复盘 – 复盘工具 AAR(After Action Review/事后回顾)
AAR最早是美国陆军所进行的一项任务后的检视方法,对美国陆军来说,使用这种方法的好处是当新的理解被产生时,可以马上响应到行动上,他们使用AAR解决了许多问题。美国陆军使用AAR的成功因素包括:结构化、有目地的对谈;打破层级的藩篱;能迅速反映至行动中;将学习的成果记录下来等。在美国陆军的成功使用经验之后,Analog Devices公司T&IPD (Transportation & …- 6
- 0
-
2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习
Facebook大故障原因:一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统、以及严密的数据中心安全 Facebook故障是一系列不幸的事件酿成的! 一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全,所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示,周一故障的根本原因是例行维护工作出…- 3
- 0
-
IT服务治理 – AIOps 在腾讯的探索和实践
1 从一个 NLP 故事说起 首先我想从一个 NLP 小的故事来说起。 在二十世纪三四十年代,人们大量尝试用机器的方式去理解自然语言,开始是用类似于左图一样的语法树的基于规则的方式处理的,但后来逐渐地变化为以统计的方式去做。 到了二十世纪七十年代之后,基于规则的句法分析逐渐地走到了尽头。 1972年的时候,自然语言处理领域大师贾里尼克加入了IBM。1974年左右,他在 IBM 提出了基于…- 2
- 0
-
实践案例 – 360容器平台监控实践
背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发…- 1
- 0
-
故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例,以及,能从中学习到什么经验与教训? 文章目录 Toggle 事实是什么?原因是什么?影响是什么?评论与观点?能学到什么? 事实是什么? 11月12日,也就是双十一后的第一天,阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页,全球范围内所有可用区 x 所有服…- 2
- 0
-
运维生产故障有哪些?运维常见问题最佳实践
运维生产故障是指在运维过程中出现的各种问题和故障,可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类,下面是一些常见的运维生产故障分类和其常见类型: 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括:– 服务器故障:例如硬盘故障、内存故障等。– 网络设备故障:例如…- 9
- 0
-
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理
服务端作为顺风车技术部内最大的工程团队,随着人员的扩张和迭代,流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率,另一方面,我们也希望在一次次的实战中不断的总结,探索出适用于我们团队的最佳实践。 基于此,我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范,包括研发流程、稳定性、性能成本等多个方面。 本文给出其中稳定性相关的规范,这些规范都是顺风车成立五…- 3
- 0
-
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训
文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发,尤其是后端研发,每年在618或者双11的时候压力特别大,他们祈求服务不要出故障,交易能正常进行,而且期望用户体验非常棒而不是卡顿404等。 但是有时候就是事与愿违,比如在2015年11月11日傍晚,大部分用户反馈购物失败的情况,负责双…- 1
- 0
-
PYTHON基础技能 – Python自动化办公的14个实用脚本
文章目录 Toggle 引言1. 文本文件批量重命名2. Excel数据清洗3. PDF合并器4. 图片压缩工具5. 文本内容替换6. 数据抓取与解析7. 数据导出到CSV8. 邮件自动发送9. 文件夹监控与同步10. 数据库操作11. 日志记录12. 数据可视化13. PDF拆分器14. 实战案例:自动化报表生成 引言 在日常工作中,重复性的任务不仅耗时,还容易出错。Python凭借其简洁易学的…- 2
- 0
-
大规模运行 Apache Airflow 的经验和教训
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已经在生产中运行了两年多的 Airflow,用于各种工作流,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时,我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…- 1
- 0
-
故障发生最重要的是快速恢复故障
故障发生时在故障发生时,最重要的是快速恢复故障。 而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中,一旦发生故障就会出现“多米诺骨牌效应”。也就是说,系统会随着一个故障开始一点一点地波及到其它系统,而且这个过程可能会很快。 一旦很多系统都在报警,要想快速定位到故障源就不是一件简单的事了。 在亚马逊内部,每个开发团队至少都会有一位 oncall 的工程师。在 oncall 的时候,工程师…- 2
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 4
- 0
-
实践案例 – vivo监控系统这样演进才稳妥
一、业务背景 当今时代处在信息大爆发的时代,信息借助互联网的潮流在全球自由的流动,产生了各式各样的平台系统和软件系统,越来越多的业务也会导致系统的复杂性。 当核心业务出现了问题影响用户体验,开发人员没有及时发现,发现问题时已经为时已晚,又或者当服务器的CPU持续增高,磁盘空间被打满等,需要运维人员及时发现并处理,这就需要一套有效的监控系统对其进行监控和预警。 如何对这些业务和服务器进行监控和维护是…- 5
- 0
-
运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业…- 4
- 0
-
ITIL 服务管理框架,实践成功案例
1. IBM:IBM采用了ITIL框架来改进其IT服务管理流程,提高了服务交付效率和客户满意度。2. 英国政府:英国政府采用ITIL框架来统一和标准化其IT服务管理实践,提高了服务质量和效率。3. 西门子:西门子使用ITIL框架来优化其IT服务管理流程,提高了服务响应时间和问题解决能力。4. 谷歌:谷歌采用ITIL框架来管理其全球范围内的IT服务,确保高可用性和稳定性。5. 微软:微软使用ITIL…- 0
- 0
-
【运维工具】flink sql 实践思路案例
文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT:实时 & 离线公共画像维表?概念区别离线公共画像维表实时公共画像维表WHY:为什么建设实时公共画像维表?直播间画像维表主播 & 观众用户画像维表HOW + WHO:怎样建设?用什么建设?直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…- 2
- 0
-
经验教训 – 2020.02.23 微盟花23亿买下一个惨痛教训
2月23日晚7点左右,微盟多个小程序显示出现未知错误,多次刷新仍未恢复正常。 基于微盟的商家小程序也都随之宕机,一度无法打开。从23日晚间起,宕机超过24小时,线上生意基本停摆的商家不在少数。 对此,官方一开始回应称设备物理故障,正在紧急抢修和修复。 2月25日,微盟集团(2013.HK)发布关于系统故障的公告,称SaaS(软件即服务)业务数据遭到员工人为破坏,并表示已向上海警方报…- 2
- 0
-
PYTHON基础技能 – Python的10个文件对比与合并高效策略
在日常编程或数据分析工作中,经常需要处理多个文件的对比与合并任务。Python因其强大的文件处理能力和丰富的库支持,成为了处理这类任务的理想选择。下面,我们将逐步探索10种高效的文件对比与合并策略,每一步都配有详细的代码示例和解释。 文章目录 Toggle 1. 基础文件读写2. 文件内容对比3. 基于行的合并4. 去重合并5. CSV文件合并6. 按列合并CSV7. 大文件高效对比8. 文本文件…- 1
- 0
-
可观测性(Observability) – 监控和可观测性区别
文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…- 4
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 36
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 3
- 0
-
监控中心 NOC 是什么 ?怎么来?
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。 它的名字有点儿高大上——Alibaba Global Operations Center,阿里巴巴全球运行指挥中心。 GOC从何而来? 要掰扯一下GOC的诞生历程,还得从“远古”的2012年说起。 在2012年及以前,阿…- 3
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 2
- 0
-
FLINK SQL 实践 – 14 维表 lookup join 实战
背景及应用场景介绍:博主期望你能了解到,flink sql 提供了轻松访问外部存储的 lookup join(与上节不同,上节说的是流与流的 join)。lookup join 可以简单理解为使用 flatmap 访问外部存储数据然后将维度字段拼接到当前这条数据上面 来一个实战案例:博主以曝光用户日志流关联用户画像(年龄、性别)维表为例介绍 lookup join 应该达到的关联的预期效果。 fl…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!