-
故障复盘 – 复盘由来
所谓复盘,是从围棋中借来的一个术语。围棋中的本义是,当我们下完一盘棋之后,要重新在棋盘上走一遍,看看哪些子下得好,哪些子下得不好,哪些地方可以有不同甚至是更好的下法,等等。这个重新走一遍并且思考的过程,就称为复盘,也称为复局。通过复盘,棋手可以发现棋路的不同变化,找到更好的下法,总结新的套路,最终甚至可以形成棋谱(固定的某种情况下最优的应对招式),从而实现自己棋力的提升。中国围棋元老陈祖德曾经在演…- 0
- 0
-
【经典手册】常用SQL查询
sql是所有数据库查询的语言,sql由于本身结构化的特点,非常容易入手。针对不同的数据库,如hivesql、mysql、sqlserver、oracle等,sql语法会有所不同,但是总体上大同小异,只是细微处的差别。 SQL的学习方式非常多,在这里分享最捷径的一种:用7张图片搞定数据分析相关的SQL语句问题。 具体分了七类讲解: 基础查询 字符串\数字\日期时间 聚合数据查询 子查询 联接\组合查…- 2
- 0
-
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了,终于有人发现curl的这个Bug了”
雷军每天都把卓越网的链接全部点击一遍,检查错误。作为软件工程师,雷军深知:软件工程没有银子弹,凡是可能出错的地方就一定会出错。 “24年了,终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具,用来请求 Web 服…- 3
- 0
-
-
实践案例 – 告警治理 – 腾讯亿万量级告警是如何做到全、准、快的?
文章目录 Toggle 自我介绍监控的意义监控的手段监控的本质监控系统的目标——全、快、准全链路监控监控的速度统一上报协议准:智能监控海量监控的困扰ROOT智能监控系统降维策略时间相关性分析权重面积分析质量体系:生态构建天网体系天网:质量体系Q&AQ1:主动、被动、旁路,这三种在整个告警量的范围内,比例分别是怎样的?这三路产生的效果分别怎样?Q2:请教一下,报警之后就可以做自愈吗?Q3:有…- 3
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 37
- 0
-
3步高效解决问题实践
利用「假设思考」来解决问题的3步流程。通常我们解决问题有2种思考模式:1种是零基思考,就是没有基准的思考——即跳出既定的框架去思考问题。我们常说的从0到1或者突破式创新就属于这种思考方式。另1种是假设思考,这是我们工作中最常用到的思考模式。即根据现象提出假设,然后再针对假设进行评估和验证。这里介绍的3个步骤解决问题,就是利用假设思维来进行推导的。其 实流程很简单: 第一步:根据问题设定课题这里当设…- 0
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 2
- 0
-
运维稳定性 – 虎牙APM可观测平台建设实践
随着虎牙业务量的大规模增长,分布式应用服务架构日益复杂,排障定位变得越来越困难,原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台,结合虎牙直播业务特性,也紧靠业界标准做了高度自研扩展,帮助研发和运维提高工作效率,保障线上应用服务稳定运行。 本次分享将通过以下几个部分来介绍整体思路和实践过程: 分享概要 一、项目背景 – 从当时痛点来思考关键切入点 二、方案实践 …- 1
- 0
-
Flink SQL – 在各大厂(阿里,腾讯,美团,饿了么)实践
阿里 双11数据大屏背后的秘密:大规模流式增量计算及应用。 双11数据大屏背后的秘密:大规模流式增量计算及应用-云栖社区-阿里云 阿里主要用Flink干啥。 阿里主要用Flink干些啥? 阿里双十一。 争分夺秒:阿里实时大数据技术全力助战双11 腾讯 实时平台的搭建。 腾讯实时计算平台Oceanus建设实践 美团 美团属于storm转flink比较早的。 美团DB数据同步到数据仓库的架构与实…- 3
- 0
-
运维工具 – PYTHON 日常数据分析 – EXCEL常用高级函数处理技巧
文章目录 Toggle 案例01 批量制作数据透视表举一反三 为一个工作簿的所有工作表制作数据透视表案例02 使用方差分析对比数据的差异举一反三 绘制箱形图识别异常值举一反三 使用自定义区间绘制直方图 案例01 批量制作数据透视表 代码文件:批量制作数据透视表.py – 数据文件:商品销售表(文件夹) import os import xlwings as xw import pand…- 0
- 0
-
运维工具 – EXCEL 日常数据分析 – 透视表深入数据分析
1、各部门人数占比2、各个年龄段人数和占比3、各个部门各年龄段占比4、各部门学历统计5、按年份统计各部门入职人数 1、各部门人数占比 统计每个部门占总人数的百分比 2、各个年龄段人数和占比 公司员工各个年龄段的人数和占比各是多少呢? 3、各个部门各年龄段占比 分部门统计本部门各个年龄段的占比情况 4、各部门学历统计 各部门大专、本科、硕士和博士各有多少人呢? 5、按年份统计各部门入职人数 每年各部…- 0
- 0
-
运维工具 – excel 日常数据分析 – 常用字段后面三位变0了怎么样恢复原来的数字经验
第一种,输入12位以上数字变成 E1乱码 点击选择要输入身份证的那一栏, 右键 – 设置单元格式 – 数字 – 文本 – 确定 然后再输入就OK了。 在公司、学校,经常会遇到需要在Excel录入身份证号的场景,但录入完毕会发现身份证号成了科学统计法,再…- 1
- 0
-
【运维工具】 Flink SQL 使用 union 代替 join、cogroup 经验
文章目录 Toggle 需求场景分析需求场景source 输入以及特点sink 输出以及特点source、sink 样例数据实现方案cogroup上述实现可能会存在的问题点逆推链路union总结 需求场景分析 需求场景 需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至…- 0
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 10
- 0
-
PYTHON基础技能 – Python错误处理:20个异常捕获与日志记录的高级实践
今天我们要深入探讨一个让程序更加健壮的关键技能——错误处理与日志记录。想象一下,你的代码就像一名探险家,在未知的代码丛林中探索,而错误处理就是那把指南针,帮助我们在遇到困难时找到正确的方向。日志记录,则是探险日记,记录下每一次的挑战与胜利。让我们一步步成为处理Python程序中意外情况的高手吧! 文章目录 Toggle 1. 基础:认识try-except2. 多重异常捕获3. 使用else和fi…- 0
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 5
- 0
-
PYTHON基础技能 – Python字典的18种方法
今天我们来深入探讨一下Python字典(Dictionary)。字典是Python中非常强大且常用的数据结构,它以键值对的形式存储数据,提供了高效的数据访问方式。本文将通过18种方法,帮助你全面理解和掌握Python字典的使用。 文章目录 Toggle 1. 创建字典2. 访问字典中的值3. 更新字典中的值4. 添加新的键值对5. 删除字典中的键值对6. 检查键是否存在7. 获取字典的所有键8. …- 0
- 0
-
经验教训 – 24年史上最大规模宕机事件的10个重要教训
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了一场全球危机,导致全球安装有Windows系统计算机出现大规模的蓝屏死机(blue screen of death,即BSOD),结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃,直接影响了数百万用户,成为历史上最大的 IT 故障。初步统计,宕机事件给财富 500 强企业造成高达 54 亿美元的损…- 2
- 0
-
可观测性(Observability)- 事件日志
日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能,然而也很少人会把日志作为多么关键功能来看待。日志就像阳光与空气,无可或缺却不太被重视。程序员们会说日志简单,其实这是在说“打印日志”这个操作简单,打印日志的目的是为了日后从中得到有价值的信息,而今天只要稍微复杂点的系统,尤其是复杂的分布式系统,就很难只依靠 tail、grep、awk 来从日志中挖掘信息了,往往还要有…- 6
- 0
-
故障复盘 – 复盘工具 SCQA模型复盘法
SCQA模型法SCQA模型是源自芭芭拉·明托在《金字塔原理》中提出的一种结构化表达和分析问题的工具,它由四个元素组成: S(Situation): 情景 — 描述当前的背景、现状或已知的事实情况,通常是大家都熟悉的环境或事件。 C(Complication): 冲突或问题 — 描述当前情景中存在的问题、矛盾、挑战或困境,它是对现状的一种偏离或打破平衡的因素。 Q(Question): 提问 — 提…- 5
- 0
-
故障发生最重要的是快速恢复故障
故障发生时在故障发生时,最重要的是快速恢复故障。 而快速恢复故障的前提是快速定位故障源。因为在很多分布式系统中,一旦发生故障就会出现“多米诺骨牌效应”。也就是说,系统会随着一个故障开始一点一点地波及到其它系统,而且这个过程可能会很快。 一旦很多系统都在报警,要想快速定位到故障源就不是一件简单的事了。 在亚马逊内部,每个开发团队至少都会有一位 oncall 的工程师。在 oncall 的时候,工程师…- 7
- 0
-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

















