-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
-
实践案例 – 告警定级为告警治理核心,告警智能定级原理探索
很多大规模复杂在线服务系统,比如 Google、Amazon、Microsoft 和大型商业银行,包含数以千计的分布式组件,并同时支持大量用户使用。为了保障高质量服务和良好的用户体验,这些公司引入监控系统,智能收集服务组件的监控数据,比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据,确保在服务异常时产生告警。这也带来一个问题,大型服务系统通常会不间断地被捕捉到大量告…- 2
- 0
-
实践案例 – 告警治理 – 腾讯亿万量级告警是如何做到全、准、快的?
文章目录 Toggle 自我介绍监控的意义监控的手段监控的本质监控系统的目标——全、快、准全链路监控监控的速度统一上报协议准:智能监控海量监控的困扰ROOT智能监控系统降维策略时间相关性分析权重面积分析质量体系:生态构建天网体系天网:质量体系Q&AQ1:主动、被动、旁路,这三种在整个告警量的范围内,比例分别是怎样的?这三路产生的效果分别怎样?Q2:请教一下,报警之后就可以做自愈吗?Q3:有…- 4
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 44
- 0
-
3步高效解决问题实践
利用「假设思考」来解决问题的3步流程。通常我们解决问题有2种思考模式:1种是零基思考,就是没有基准的思考——即跳出既定的框架去思考问题。我们常说的从0到1或者突破式创新就属于这种思考方式。另1种是假设思考,这是我们工作中最常用到的思考模式。即根据现象提出假设,然后再针对假设进行评估和验证。这里介绍的3个步骤解决问题,就是利用假设思维来进行推导的。其 实流程很简单: 第一步:根据问题设定课题这里当设…- 0
- 0
-
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践
大规模Zabbix万台应用监控场景下,针对告警、可靠性工程实践经验;通过Zabbix二次开发,集成运维平台、工单、值班、自愈系统,通告警服务化、数据化,为业务保驾护航,保障稳定性工程落地。 京东集团是一家定位于以技术为本,业务为基,多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门,负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…- 3
- 0
-
运维稳定性 – 虎牙APM可观测平台建设实践
随着虎牙业务量的大规模增长,分布式应用服务架构日益复杂,排障定位变得越来越困难,原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台,结合虎牙直播业务特性,也紧靠业界标准做了高度自研扩展,帮助研发和运维提高工作效率,保障线上应用服务稳定运行。 本次分享将通过以下几个部分来介绍整体思路和实践过程: 分享概要 一、项目背景 – 从当时痛点来思考关键切入点 二、方案实践 …- 2
- 0
-
Flink SQL – 在各大厂(阿里,腾讯,美团,饿了么)实践
阿里 双11数据大屏背后的秘密:大规模流式增量计算及应用。 双11数据大屏背后的秘密:大规模流式增量计算及应用-云栖社区-阿里云 阿里主要用Flink干啥。 阿里主要用Flink干些啥? 阿里双十一。 争分夺秒:阿里实时大数据技术全力助战双11 腾讯 实时平台的搭建。 腾讯实时计算平台Oceanus建设实践 美团 美团属于storm转flink比较早的。 美团DB数据同步到数据仓库的架构与实…- 3
- 0
-
运维工具 – PYTHON 日常数据分析 – EXCEL常用高级函数处理技巧
文章目录 Toggle 案例01 批量制作数据透视表举一反三 为一个工作簿的所有工作表制作数据透视表案例02 使用方差分析对比数据的差异举一反三 绘制箱形图识别异常值举一反三 使用自定义区间绘制直方图 案例01 批量制作数据透视表 代码文件:批量制作数据透视表.py – 数据文件:商品销售表(文件夹) import os import xlwings as xw import pand…- 0
- 0
-
运维工具 – EXCEL 日常数据分析 – 透视表深入数据分析
1、各部门人数占比2、各个年龄段人数和占比3、各个部门各年龄段占比4、各部门学历统计5、按年份统计各部门入职人数 1、各部门人数占比 统计每个部门占总人数的百分比 2、各个年龄段人数和占比 公司员工各个年龄段的人数和占比各是多少呢? 3、各个部门各年龄段占比 分部门统计本部门各个年龄段的占比情况 4、各部门学历统计 各部门大专、本科、硕士和博士各有多少人呢? 5、按年份统计各部门入职人数 每年各部…- 0
- 0
-
运维工具 – excel 日常数据分析 – 常用字段后面三位变0了怎么样恢复原来的数字经验
第一种,输入12位以上数字变成 E1乱码 点击选择要输入身份证的那一栏, 右键 – 设置单元格式 – 数字 – 文本 – 确定 然后再输入就OK了。 在公司、学校,经常会遇到需要在Excel录入身份证号的场景,但录入完毕会发现身份证号成了科学统计法,再…- 1
- 0
-
【运维工具】 Flink SQL 使用 union 代替 join、cogroup 经验
文章目录 Toggle 需求场景分析需求场景source 输入以及特点sink 输出以及特点source、sink 样例数据实现方案cogroup上述实现可能会存在的问题点逆推链路union总结 需求场景分析 需求场景 需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至…- 0
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 11
- 0
-
PYTHON基础技能 – Python错误处理:20个异常捕获与日志记录的高级实践
今天我们要深入探讨一个让程序更加健壮的关键技能——错误处理与日志记录。想象一下,你的代码就像一名探险家,在未知的代码丛林中探索,而错误处理就是那把指南针,帮助我们在遇到困难时找到正确的方向。日志记录,则是探险日记,记录下每一次的挑战与胜利。让我们一步步成为处理Python程序中意外情况的高手吧! 文章目录 Toggle 1. 基础:认识try-except2. 多重异常捕获3. 使用else和fi…- 2
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 9
- 0
-
PYTHON基础技能 – Python字典的18种方法
今天我们来深入探讨一下Python字典(Dictionary)。字典是Python中非常强大且常用的数据结构,它以键值对的形式存储数据,提供了高效的数据访问方式。本文将通过18种方法,帮助你全面理解和掌握Python字典的使用。 文章目录 Toggle 1. 创建字典2. 访问字典中的值3. 更新字典中的值4. 添加新的键值对5. 删除字典中的键值对6. 检查键是否存在7. 获取字典的所有键8. …- 0
- 0
-
经验教训 – 24年史上最大规模宕机事件的10个重要教训
网络安全公司CrowdStrike旗下的猎鹰传感器(Falcon Sensor)的一次软件更新引发了一场全球危机,导致全球安装有Windows系统计算机出现大规模的蓝屏死机(blue screen of death,即BSOD),结果数千架航班被迫停飞、医院陷入混乱、支付系统崩溃,直接影响了数百万用户,成为历史上最大的 IT 故障。初步统计,宕机事件给财富 500 强企业造成高达 54 亿美元的损…- 2
- 0
-
可观测性(Observability)- 事件日志
日志用来记录系统运行期间发生过的离散事件。相信没有哪一个生产系统能够缺少日志功能,然而也很少人会把日志作为多么关键功能来看待。日志就像阳光与空气,无可或缺却不太被重视。程序员们会说日志简单,其实这是在说“打印日志”这个操作简单,打印日志的目的是为了日后从中得到有价值的信息,而今天只要稍微复杂点的系统,尤其是复杂的分布式系统,就很难只依靠 tail、grep、awk 来从日志中挖掘信息了,往往还要有…- 11
- 0
-
故障复盘 – 复盘工具 SCQA模型复盘法
SCQA模型法SCQA模型是源自芭芭拉·明托在《金字塔原理》中提出的一种结构化表达和分析问题的工具,它由四个元素组成: S(Situation): 情景 — 描述当前的背景、现状或已知的事实情况,通常是大家都熟悉的环境或事件。 C(Complication): 冲突或问题 — 描述当前情景中存在的问题、矛盾、挑战或困境,它是对现状的一种偏离或打破平衡的因素。 Q(Question): 提问 — 提…- 6
- 0
-
经验教训 – 可乐可乐危机事件
1999年6月可口可乐遭遇灭顶之灾,比利时和法国的一些中小学生因饮用美国饮料可口可乐而中毒,比利时政府禁止销售可口可乐饮料,可口可乐公司对此进行了危机公关,虽然此次处理危机的力度并不弱,但决策节奏显然慢了半拍。 1999年6月初,比利时和法国的一些中小学生饮用美国饮料可口可乐,发生了中毒。 一周后,比利时政府颁布禁令,禁止本国销售可口可乐公司生产的各种品牌的饮料。 已经拥有113年历史的可口可乐公…- 11
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 74
- 0
-
运维工具 – 异常数据分析实践,批量拆分列数据或批量汇总数据
Excel的分列功能可以将一列数据按照指定的分隔符拆分为多列,本节则要利用Python编程实现类似的功能,对多个工作簿中的列进行拆分。 from pathlib import Path import xlwings as xw import pandas as pd src_folder = Path('\\每月统计表\\') file_list = list(src_fold…- 1
- 0
-
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方说你的系统有问题,但你认为没问题,又无法自证? 这一切都源自于你的系统没有做好监控和告警: 没有监控或者没有一个好的监控,导致你无法快速判断系统是不是健康的;没有告警或者没有一个精准的告警,当系统出问题时不能及时通知到…- 21
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
















