全部标签

自动化

系统稳定性保障 – 字节跳动混沌工程故障演练实践总结

什么是混沌工程在生产环境中实际运行分布式系统，难免会有各种不可预料的突发事件发生。同时，云原生的发展，不断推进着微服务的进一步解耦，海量的数据与用户规模也带来了基础设施的大规模分布式演进。分布式系统天生有着各种相互依赖，可以出错的地方数不胜数，处理不好就会导致业务受损，或者是其他各种无法预期的异常行为。在复杂的分布式系统中，无法阻止这些故障的发生，我们应该致力于在这些异常行为被触发之前，尽可能…
安全运维
- 70
- 0
aqzt24年12月21日
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践

文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统（ATTA）04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…
安全运维
- 78
- 0
aqzt24年12月21日
SRE实战手册 – 技能宝典

先聊一聊SRE的工作职责，聊一下我所理解的SRE的核心目标；初步看一下稳定性建设的工作范畴，看一看从宏观上如何划分我们的工作内容；然后我们由此进入今天的主题：故障管理，我将按照我的理解对故障管理进行拆解和分析；再后面，围绕故障管理，我们深入聊一下SRE的体系建设，如何通过体系建设来更好地做故障管理；最后我们再简单做下对未来的展望，共同畅想一下SRE工作的未来。文章目录 Toggle 一、SRE的…
安全运维
- 19
- 0
aqzt24年12月21日
故障复盘 – 故障复盘哪三大关键问题？

这是很多企业/团队都要面对的问题，有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点：故障复盘的三大关键问题：怎么有效降低故障的影响？事故处理的流程和原则有哪些？相关管理制度怎么设置比较合理？故障复盘的四大注意项： 1.事故复盘不是给人定责的，要有系统思维将优化项实际落地才能推动系统优化； 2.事故报告的重点应该是事故提升项，监控、定位、根因、架构四个部分都必须涉及； 3.事…
安全运维
- 4
- 0
aqzt24年12月21日
【运维工具】flink sql 实践思路案例

文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT：实时 & 离线公共画像维表？概念区别离线公共画像维表实时公共画像维表WHY：为什么建设实时公共画像维表？直播间画像维表主播 & 观众用户画像维表HOW + WHO：怎样建设？用什么建设？直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…
安全运维
- 5
- 0
aqzt24年12月21日
CMDB是配置管理库它应该长得怎么样？数据资产体系如何建设？

一、认识数据资产二、数据治理-方法论三、CMDB平台建设四、B站SRE资产平台建设之路一、认识数据资产 1. 数据资产——企业IT价值如图所示，未进行数据资产化建设时，数据可能呈现离散状态，数据生产和消费不统一，容易出现数据孤岛或零利益的情况。建设数据资产化后，我们整合不同渠道数据，构造统一的数据源，或数据采集、存储、分析的流程链路，进而统一对应的数据结构、数据关系和消费出口。运营数…
安全运维
- 54
- 0
aqzt24年12月21日
经验教训 – 24年史上最大规模宕机事件的10个重要教训

网络安全公司CrowdStrike旗下的猎鹰传感器（Falcon Sensor）的一次软件更新引发了一场全球危机，导致全球安装有Windows系统计算机出现大规模的蓝屏死机（blue screen of death,即BSOD），结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃，直接影响了数百万用户，成为历史上最大的 IT 故障。初步统计，宕机事件给财富 500 强企业造成高达 54 亿美元的损…
安全运维
- 4
- 0
aqzt24年12月21日
IT运维治理 – 美团点评数据库智能运维探索与实践

讲师介绍：赵应钢，曾就职于百度、新浪、去哪儿网等，10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员，DBA团队(北京)负责人，负责MySQL、KV服务的平台建设和技术保障工作。演讲大纲： ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要：传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…
安全运维
- 28
- 0
aqzt24年12月21日
故障复盘 – 4个重要运作机制

故障复盘的重要性无需多说，每一次故障都是宝贵的学习机会，本人接手故障复盘工作已经半年有余，从一开始的手足无措，慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验，并结合工作经历总结而来，仅供参考。文章目录 Toggle 一、故障复盘目的二、故障复盘原则三、故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …
安全运维
- 78
- 0
aqzt24年12月21日
运维稳定性 – 虎牙APM可观测平台建设实践

随着虎牙业务量的大规模增长，分布式应用服务架构日益复杂，排障定位变得越来越困难，原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台，结合虎牙直播业务特性，也紧靠业界标准做了高度自研扩展，帮助研发和运维提高工作效率，保障线上应用服务稳定运行。本次分享将通过以下几个部分来介绍整体思路和实践过程：分享概要一、项目背景 – 从当时痛点来思考关键切入点二、方案实践 …
安全运维
- 6
- 0
aqzt24年12月21日
故障治理 – 从行业巨头重大事故，炼成系统稳定性治理最全方略(系统稳定性保障)

系统的稳定性，主要决定于整体的系统架构设计，然而也不可忽略编程的细节，正所谓“千里之堤，溃于蚁穴”，一旦考虑不周，看似无关紧要的代码片段可能会带来整体软件系统的崩溃。稳定性的工作，一般都是水下的工作。就像冰山，真正强大的系统下，要有更加强大的底层支撑，水面下的问题才是真正需要解决的问题。当然不一样的工作内容，水下的工作是不同的，对于盖楼来说，可能就是地基的深度。对于我们写业务逻辑来说，水下的工作…
安全运维
- 108
- 0
aqzt24年12月21日
混沌工程与SRE的结合(中国移动)

中国移动信息技术中心技术专家，中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》，他提到：随着企业数智化转型的浪潮，业务“上云”进度越来越快，团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定，磐基引入SRE体系，在落地过程遇到管理、规划、质量把控等方面问题，在本次分享中重点介绍了以上问题如何规避、解决、优化，即如何结合混沌工程的方式来这些解决痛点。并认为：混…
安全运维
- 6
- 0
aqzt24年12月21日
系统稳定性保障 – 哪儿网故障演练实践经验

大家好，我是来自去哪儿网的刘志志，19年加入去哪儿网，主要参与CI/CD平台建设，负责故障演练平台的开发。今天的分享主要分为以下三个部分：一、背景&价值如图所示，左边是近期发生的一件影响较大的事故：Facebook服务宕机。持续时长约7小时，造成了次日超过60亿美金的市值下跌，损失数额巨大。右边所展示的则是我们公司中某个业务线的服务调用关系。可以看到，整个链路非常复杂，如果其中某个链路…
安全运维
- 6
- 0
aqzt24年12月21日
故障治理 – 运行无间：阿里巴巴运维保障体系的一种最佳实践

阿里巴巴全球运行指挥中心，GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE，我们相当于阿里巴巴的SRE。今天我的分享分为四个部分： 1、稳定性现状及挑战 2、运维…
安全运维
- 83
- 0
aqzt24年12月21日
故障复盘 – 什么样的原则review 监控告警

某企业内部故障统计数据显示85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警，往往需要增加数百上千个监控项，这样加下去，真的能提升业务异常的监控效率吗？到底告警要怎样加才是有效的？ TakinTalks社区的4位专家，分别给出了这些注意事项，总结如下： 1.业务视角的告警比其他告警更重要，是评判告警该不该加的重要标准。 2.告警要紧贴业务，而业务分核心与非核心，围绕核心用户旅程…
安全运维
- 21
- 0
aqzt24年12月21日
故障复盘 – 哈啰出行高质量故障复盘法

一、故障和复盘真的都是坏事吗？提到复盘，大多数人第一时间想到的是线上出了故障，这下又要有人背锅了；或者是为那个可怜的兄弟暗暗担心；也或者是因为跟自己无关，所以松了一口气。那么故障和复盘真的都是坏事吗？我们该如何理解它呢？我从以下三点讲一下我对故障和复盘的理解。 1.1 正视故障发生的必然性 – 有好也有坏在聊复盘之前，先聊下我对线上故障的看法，…
安全运维
- 3
- 0
aqzt24年12月21日
经验教训 – 网络安全经验经验，帮你降低损失风险

对于很多首席信息安全官来说，即将到来的2023年是一个很好的时机，可以反思他们在2022年里学到的经验和教训，以及如何将它们应用到未来。动荡的2022年即将结束，在这一年，埃隆·马斯克收购了Twitter，俄乌冲突，许多员工重返办公室。人们还看到，一些安全主管因隐瞒数据泄露而被判入狱。这些事件以及更多事件改变了业务格局，迫使首席信息安全官在不确定领域前行。Trustwave公司的首席信息官Ko…
安全运维
- 13
- 0
aqzt24年12月21日
PYTHON基础技能 – Python提升工作效率的7个实用秘籍

文章目录 Toggle 秘籍一：自动化文件操作秘籍二：高效的数据处理秘籍三：文本处理利器 —— 正则表达式秘籍四：自动化Excel操作秘籍五：Web自动化爬虫秘籍六：自动化邮件发送秘籍一：自动化文件操作处理大量的文件时，手动操作不仅耗时还容易出错。Python可以帮你自动完成这些任务。示例：批量重命名文件 import osdef rename_files(directo…
安全运维
- 4
- 0
aqzt24年12月21日
系统稳定性保障 – 货拉拉微服务架构故障演练实践

文章目录 Toggle 一、背景二、体系全览三、工具体系故障演练平台架构故障演练能力全景控制爆炸半径演练自动化四、管理体系故障演练类型故障演练流程五、运营体系运营数据六、未来展望一、背景随着货拉拉微服务架构、容器化技术广泛使用，软件架构的复杂度在不断提升，由服务之间的依赖所带来的不确定性也呈指数级增长。在这样的依赖网中，任何一环出现非预期或者异常的变化，都可能对其他服务造成非常大的影响。因此，…
安全运维
- 15
- 0
aqzt24年12月21日
实践案例 – 告警治理腾讯业务监控的修炼之路

概述本文作为监控告警产品专题系列第一篇文章，涉及的主要内容为监控产品设计的相关基础知识，算是整个系列文章的一个索引。主要内容有： • 关于监控告警的一些概念• 立体化监控体系的阐述老鸟们可以关注后续的文章（文末有三期内容预告，关键词：IAAS, CMDB, 组件监控）业务运维 vs 产品经理以前做 QQ 业务运维的时候，有一类平台是自己天天会用，那这类平台是什么呢？就是监控告警平台，每…
安全运维
- 15
- 0
aqzt24年12月21日
经验教训 – Google 20年的11条运维经验教训

时光荏苒，Google 的用户为搜索而来，为免费的 GB Gmail 而去，我们的机群和网络也随之发展壮大。如今，就计算能力而言，我们的规模是 20 年前的 1000 多倍；就网络而言，我们的规模是 20 年前的 10000 多倍，而且我们在每台服务器上花费的精力比以前少得多，同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统，再到默认提供可靠…
安全运维
- 6
- 0
aqzt24年12月21日
运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

尚梦宸，中国信息通信研究院云计算与大数据研究所审计与治理部工程师。一、构建新时代“大运维”体系什么是“大运维”体系？它是运维发展过程中的一个阶段。在初始阶段，运维主要是辅助研发，运维方式主要是以手工为主，同时需要人工不断维护更新。随着数字技术发展及信息化的快速全面突破，研发侧逐渐向运维侧偏移，出现了自动化运维及研发与运维的协同，也即我们说的 DevOps。 DevOps 更多关注…
安全运维
- 12
- 0
aqzt24年12月21日
经验教训 – 2012.08.01 兵败DevOps！一个Bug损失4.6亿美金，不得不看的惨痛教训！

缺乏最佳实践的 DevOps，会给你的企业带来缓慢的发布周期，甚至是灾难性的错误。本文向你介绍一些能够充分使用 DevOps 的小技巧。本文会分享一些有趣的 DevOps 原则，并通过应用展示它们给高效的项目交付与转化所带来的好处。这里所提及的概念都源于 John Willis，他有着丰富的 IT 管理经验，同时也是 DevOps 运动的最初倡导者。当一个组织考虑去实践 DevOps 的时候…
安全运维
- 1
- 0
aqzt24年12月21日
IT运维管理（活着）与IT运营管理（活得好）定义与区别

最近在一个项目中，用户提出“IT运维管理”感觉范围太窄了，我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢？好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…
安全运维
- 6
- 0
aqzt24年12月21日