全部标签

服务器

最佳实践 – 技术如何从小白到管理，怎么支撑业务快速发展？

一、背景技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设，能够在百人，千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队，快速拿出成果，支撑业务的快速发展。二、痛点从小团队人员快速扩张，团队文化稀释，人员效能下降，目标逐渐弱化。各自团队管理方式及标准不统一，人员管理及协同逐渐混乱。组织扩大后，难以有效关注个人，无法准确评判个人的成长，贡献等。三、目标通…
安全运维
- 4
- 0
aqzt24年12月21日
经验教训 – 3.29 #微信QQ出现功能异常#，冲上热搜，妥妥的第一

包括微信语音、账号登录、朋友圈，以及微信支付，都无法正常使用。有网友表示，电脑版微信大概是在早上10:00左右恢复登录，和小雷登录的时间相吻合。据腾讯的最新财报显示，微信及WECHAT月活数高达13.1亿，如此大用户量的产品出现故障无疑对大众生活工作带来了不少的影响。不过有一说一，大厂们服务器故障，似乎每年都得上演那么几次。轻微一些的，有像B站前阵子那样，视频短暂崩溃了半小时。严重点的，…
安全运维
- 6
- 0
aqzt24年12月21日
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘：技术架构的脆弱性与教训

2024年12月11日，OpenAI经历了一场全球范围的服务中断，持续时间超过四个小时，影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16，直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思，揭示了当前技术体系中潜在的脆弱性。文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施造成影响 ChatGPT：在下午5:4…
安全运维
- 20
- 0
aqzt24年12月21日
故障复盘 – 复盘工具六顶思考帽复盘法

六顶思考帽不是思考者的类型。每个思考者都应该会用所有的帽子。白色思考帽：资料与信息获得客观信息和认识，保证思维尊重事实。红色思考帽：直觉与感情决策时恰当的情感、直觉和预感黄色思考帽：积极与乐观进行统一的、逻辑的、深刻的负面论证。黑色思考帽：逻辑与批判进行统一的、逻辑的、不断的正面探索。绿色思考帽：创新与冒险不断实施出新奇的探索，寻求新的方法。蓝色的思考帽：系统与控…
安全运维
- 7
- 0
aqzt24年12月21日
2015.5·27支付宝大规模宕机事故反思学习

事故背景支付宝拥有超过4万亿年交易总额，是中国第一大第三方交易平台，约占中国整体社会消费金额的六分之一。2014年年11月，就有用户反映，支付宝钱包目前无法转账和提现，当用户使用这两项功能时会提示出现未知错误或创建交易失败，该问题在移动客户端以及电脑网页端均存在。事故经过2015年5月27日下午4点半左右，陆续有多个地区网友反映，支付宝出现网络故障，账号无法登录或转账。打开余额宝后，不能显示余额…
安全运维
- 11
- 0
aqzt24年12月21日
实践案例 – 苏宁基于 ClickHouse 的大数据全链路监控实践

文章目录 Toggle 简介苏宁大数据全链路监控平台1. 苏宁全链路监控平台介绍2. 如何实现将 ClickHouse 纳入到全链路监控平台ClickHouse 慢查询监控1. 实时慢查询监控2. 历史慢查询监控3. MergeTree 监控4. 慢查询归因分析ClickHouse 集群状态监控1. 集群、节点状态监控2. 集群、节点、分片 QPS 和连接数监控3. 集群、节点、分片可用性监控4.…
安全运维
- 12
- 0
aqzt24年12月21日
阿里云的史诗级故障，缓解了程序员的精神内耗？

在大部分人的认知中，服务器宕机，产品“崩了”这种事故，往往是因为流量太大，短期内访问量达到峰值。比如微博上明星突然官宣、双十一付尾款的关键时间点…… 双十一当晚，大家还在调侃着“今年服务器没崩溃，纯粹是因为流量比往年惨淡”的时候。没想到第二天，阿里系产品突然接连因“崩了”挂上热搜。淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克等多个阿里系App出现无法访问或服务异常的情况，简直让人瞠…
安全运维
- 8
- 0
aqzt24年12月21日
故障治理 – 从行业巨头重大事故，炼成系统稳定性治理最全方略(系统稳定性保障)

系统的稳定性，主要决定于整体的系统架构设计，然而也不可忽略编程的细节，正所谓“千里之堤，溃于蚁穴”，一旦考虑不周，看似无关紧要的代码片段可能会带来整体软件系统的崩溃。稳定性的工作，一般都是水下的工作。就像冰山，真正强大的系统下，要有更加强大的底层支撑，水面下的问题才是真正需要解决的问题。当然不一样的工作内容，水下的工作是不同的，对于盖楼来说，可能就是地基的深度。对于我们写业务逻辑来说，水下的工作…
安全运维
- 111
- 0
aqzt24年12月21日
PYTHON基础技能 – Python虚拟环境管理的17个必备知识

文章目录 Toggle 1. 什么是虚拟环境？为什么需要虚拟环境？示例代码：创建虚拟环境输出结果：2. 如何激活虚拟环境？Windows 系统：Linux/MacOS 系统：输出结果：3. 如何退出虚拟环境？输出结果：4. 安装和卸载包安装包：卸载包：输出结果：5. 查看已安装的包输出结果：6. 升级包输出结果：7. 创建和使用 requirements 文件创建 requirements 文件：…
安全运维
- 8
- 0
aqzt24年12月21日
2024.1.8 wind万得P0级故障复盘

今日资本市场大事件当属WIND金融终端宕机事件。万得旗下WIND金融终端今晨无法正常登录，出现全面故障。万得方面在今日开市前发公告称，登录故障系因“公司的主干网络线路故障，施工人员正在抢修”。这或是万得成立28年来第一次大面积宕机。据财联社记者获悉，下午13时左右，WIND手机端的行情板块可以查看个股数据。下午16时左右，电脑终端已能成功登录进主界面，但相关功能查询仍存在较为明显的数据延迟现象…
安全运维
- 9
- 0
aqzt24年12月21日
2015.05.28 事件回顾，深入解析和反思携程宕机事件

携程网宕机事件还在持续，截止 28 号晚上 8 点，携程首页还是指向一个静态页面，所有动态网页都访问不了。关于事故根源，网上众说纷纭。作为互联网运维老兵，尝试分析原因，谈谈网友的看法携程微博：5月29日1：30分，经携程技术排查，确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多，验证应用与服务之间的功能是否正常运行，花了较长时间。携程官方网站及APP已于28日23:29全面…
安全运维
- 10
- 0
aqzt24年12月21日
经验教训 – 2020.11.25 亚马逊云服务事故

source: https://www.reportdoor.com/aws-outage-has-taken-down-a-big-chunk-of-the-internet/ 今天，我们以亚马逊去年的一个事故报告（AWS PES#11201）为例子，聊一聊如何从事故报告中学习。文章目录 Toggle 读前须知亚马逊云服务事故报告的简要介绍读前须知从外部的官方报告中学习，我们需要…
安全运维
- 4
- 0
aqzt24年12月21日
故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’

墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事情发生，那么它更有可能发生文章目录 Toggle 墨菲定律暗示我们，如果担心某种情况会发生，那么它更有可能发生，久而久之就一定会发生。这警示我们，在互联网公司，对生成环境发生的任何怪异现象和问题都不要轻视，对其背后的原因一定要调查清楚。同样，海恩法则也强调任何严重的事故背后都是很多次小问题…
安全运维
- 19
- 0
aqzt24年12月21日
【运维工具】flink sql 基础实践 – 常见的疑问点

文章目录 Toggle 1.前言2.状态原理2.1.状态、状态后端、Checkpoint 三者之间的区别及关系？2.2.把状态后端从 FileSystem 变为 RocksDB 后，Flink 任务状态存储会发生那些变化？2.3.什么样的业务场景你会选择 filesystem，什么样的业务场景你会选 rocksdb 状态后端？2.4.Flink SQL API State TTL 的过期机制是 o…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验

腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事，因为阿里云双十一大故障的官方故障复盘至今仍然是拖欠着的。公有云厂商想要真正成为 —— 提供水与电的公共基础设施，那就需要承担起责任，接受公众监督 —— 云厂商有义务披露自己故障原因，并提出切实的可靠性改进方案与措施。那么我们就来看一看这份复盘报告，看看里面有哪些信息，以及可以从中学到什么教训。事实是什么？原因是什么？影响…
安全运维
- 16
- 0
aqzt24年12月21日
故障复盘 – 复盘工具时间线分析法复盘

时间线分析法是一种通过构建事件时间轴来回顾和分析过程的方法。复盘时，将关键事件、决策点、里程碑等标注在时间线上，直观呈现项目或活动的全过程。文章目录 Toggle 案例1：大促活动期间服务器崩溃案例2：商品详情页加载缓慢案例3：订单配送延迟案例1：大促活动期间服务器崩溃时间线：促销活动前两周，技术团队进行系统压力测试和优化。活动前一天，服务器负载测试达标，系统上线。活动开始后两小时，访…
安全运维
- 9
- 0
aqzt24年12月21日
故障发生最重要的是快速恢复故障

故障发生时在故障发生时，最重要的是快速恢复故障。而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中，一旦发生故障就会出现“多米诺骨牌效应”。也就是说，系统会随着一个故障开始一点一点地波及到其它系统，而且这个过程可能会很快。一旦很多系统都在报警，要想快速定位到故障源就不是一件简单的事了。在亚马逊内部，每个开发团队至少都会有一位 oncall 的工程师。在 oncall 的时候，工程师…
安全运维
- 13
- 0
aqzt24年12月21日
经验教训 – 2022年6月21日 Cloudflare 服务故障报告

文章目录 Toggle 简介背景事件时间线（按 UTC）和影响这次事件技术描述及其发生过程补救及后续步骤总结简介 2022 年 6 月 21 日，Cloudflare 发生了一次服务故障事件，影响到我们 19 个数据中心的流量。不幸的是，这 19 个数据中心处理的流量在我们的全球流量中占较大比例。这次服务故障事件的起因是我们在一个长期项目中所做的一项更改。该项目旨在提高我们最忙碌的一些数据中心的…
安全运维
- 10
- 0
aqzt24年12月21日
故障复盘 – 2023.11.12 阿里云的史诗级故障，从这故障中我们能学到什么

时隔一年阿里云又出大故障，并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例，以及，能从中学习到什么经验与教训？文章目录 Toggle 事实是什么？原因是什么？影响是什么？评论与观点？能学到什么？事实是什么？ 11月12日，也就是双十一后的第一天，阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页，全球范围内所有可用区 x 所有服…
安全运维
- 9
- 0
aqzt24年12月21日
【运维工具】一文搞懂 Hadoop 生态系统的组件

Hadoop概述 Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop是可扩展的，它可以方便地从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性，软件库本身也提供数据保护，并可以在应用层做失败处理，从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。图…
安全运维
- 5
- 0
aqzt24年12月21日
经验教训 – 24年史上最大规模宕机事件的10个重要教训

网络安全公司CrowdStrike旗下的猎鹰传感器（Falcon Sensor）的一次软件更新引发了一场全球危机，导致全球安装有Windows系统计算机出现大规模的蓝屏死机（blue screen of death,即BSOD），结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃，直接影响了数百万用户，成为历史上最大的 IT 故障。初步统计，宕机事件给财富 500 强企业造成高达 54 亿美元的损…
安全运维
- 5
- 0
aqzt24年12月21日
故障复盘 – 复盘工具 AAR（After Action Review/事后回顾）

AAR最早是美国陆军所进行的一项任务后的检视方法，对美国陆军来说，使用这种方法的好处是当新的理解被产生时，可以马上响应到行动上，他们使用AAR解决了许多问题。美国陆军使用AAR的成功因素包括：结构化、有目地的对谈；打破层级的藩篱；能迅速反映至行动中；将学习的成果记录下来等。在美国陆军的成功使用经验之后，Analog Devices公司T&IPD (Transportation & …
安全运维
- 17
- 0
aqzt24年12月21日
最佳实践 – 运维服务器故障排查与定位常用命令

整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障，最小化的减少故障给业务带来的影响。文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…
安全运维
- 81
- 0
aqzt24年12月21日
经验教训 – 2022.08.02 微博为何总是宕机

8月3日早晨，“微博崩了”话题登上热搜榜，话题阅读量高达4.7亿，讨论量也达到了4.1万。不少网友表示虽然平时天天骂微博，但真和微博失联了几个小时，感觉和世界脱节了一样。没想到这年头竟然能在微博热搜上看到 “微博崩了”这个词条。微博回应宕机原因据@微博客服消息，8月2日晚22时06分起，由于自动扩容系统故障，导致北京永丰等地机房的宽带容量超限，影响了部分省份移动端用户访问，期间PC端用户可正…
安全运维
- 12
- 0
aqzt24年12月21日