-
【运维工具】 Flink SQL 使用 union 代替 join、cogroup 经验
文章目录 Toggle 需求场景分析需求场景source 输入以及特点sink 输出以及特点source、sink 样例数据实现方案cogroup上述实现可能会存在的问题点逆推链路union总结 需求场景分析 需求场景 需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至…- 0
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 11
- 0
-
PYTHON基础技能 – Python错误处理:20个异常捕获与日志记录的高级实践
今天我们要深入探讨一个让程序更加健壮的关键技能——错误处理与日志记录。想象一下,你的代码就像一名探险家,在未知的代码丛林中探索,而错误处理就是那把指南针,帮助我们在遇到困难时找到正确的方向。日志记录,则是探险日记,记录下每一次的挑战与胜利。让我们一步步成为处理Python程序中意外情况的高手吧! 文章目录 Toggle 1. 基础:认识try-except2. 多重异常捕获3. 使用else和fi…- 2
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 9
- 0
-
PYTHON基础技能 – Python的10个文件对比与合并高效策略
在日常编程或数据分析工作中,经常需要处理多个文件的对比与合并任务。Python因其强大的文件处理能力和丰富的库支持,成为了处理这类任务的理想选择。下面,我们将逐步探索10种高效的文件对比与合并策略,每一步都配有详细的代码示例和解释。 文章目录 Toggle 1. 基础文件读写2. 文件内容对比3. 基于行的合并4. 去重合并5. CSV文件合并6. 按列合并CSV7. 大文件高效对比8. 文本文件…- 2
- 0
-
系统稳定性保障 – 哪儿网故障演练实践经验
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的开发。今天的分享主要分为以下三个部分: 一、背景&价值 如图所示,左边是近期发生的一件影响较大的事故:Facebook服务宕机。持续时长约7小时,造成了次日超过60亿美金的市值下跌,损失数额巨大。右边所展示的则是我们公司中某个业务线的服务调用关系。可以看到,整个链路非常复杂,如果其中某个链路…- 5
- 0
-
可观测性(Observability) – 三要素日志、追踪、度量
随着分布式架构渐成主流,可观测性(Observability)一词也日益频繁地被人提起。最初,它与可控制性(Controllability)一起,是由匈牙利数学家 Rudolf E. Kálmán 针对线性动态控制系统提出的一组对偶属性,原本的含义是“可以由其外部输出推断其内部状态的程度”。 在学术界,虽然“可观测性”这个名词是近几年才从控制理论中借用的舶来概念,不过其内容实际在计算机科学中已有多…- 4
- 0
-
故障复盘 – 复盘工具 六顶思考帽复盘法
六顶思考帽不是思考者的类型。每个思考者都应该会用所有的帽子 。 白色思考帽:资料与信息 获得客观信息和认识,保证思维尊重事实。 红色思考帽:直觉与感情 决策时恰当的情感、直觉和预感 黄色思考帽:积极与乐观 进行统一的、逻辑的、深刻的负面论证。 黑色思考帽:逻辑与批判 进行统一的、逻辑的、不断的正面探索。 绿色思考帽:创新与冒险 不断实施出新奇的探索,寻求新的方法。 蓝色的思考帽:系统与控…- 2
- 0
-
经验教训 – 可乐可乐危机事件
1999年6月可口可乐遭遇灭顶之灾,比利时和法国的一些中小学生因饮用美国饮料可口可乐而中毒,比利时政府禁止销售可口可乐饮料,可口可乐公司对此进行了危机公关,虽然此次处理危机的力度并不弱,但决策节奏显然慢了半拍。 1999年6月初,比利时和法国的一些中小学生饮用美国饮料可口可乐,发生了中毒。 一周后,比利时政府颁布禁令,禁止本国销售可口可乐公司生产的各种品牌的饮料。 已经拥有113年历史的可口可乐公…- 11
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 69
- 0
-
运维工具 – 异常数据分析实践,批量拆分列数据或批量汇总数据
Excel的分列功能可以将一列数据按照指定的分隔符拆分为多列,本节则要利用Python编程实现类似的功能,对多个工作簿中的列进行拆分。 from pathlib import Path import xlwings as xw import pandas as pd src_folder = Path('\\每月统计表\\') file_list = list(src_fold…- 1
- 0
-
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方说你的系统有问题,但你认为没问题,又无法自证? 这一切都源自于你的系统没有做好监控和告警: 没有监控或者没有一个好的监控,导致你无法快速判断系统是不是健康的;没有告警或者没有一个精准的告警,当系统出问题时不能及时通知到…- 21
- 0
-
实践案例 – 360容器平台监控实践
背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发…- 1
- 0
-
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。 同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。 滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部…- 2
- 0
-
数字化运营基础技能 – pandas实战 – 数据清洗
这篇文章我会先给你讲解数据清洗的重要性,然后我会跟你列举数据清洗的四大准则,最后,我会用一个实战案例带你学会如何使用Python进行数据清洗。 也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了,接下来,咱们详细看一看。 文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…- 1
- 0
-
数字化转型-IT运营为什么改变很重要
IT当前的运营模式在受到挑战。IT的复杂性和变化率的增长暴露了当前工作方式的局限性。在当今的环境中,可以全面管理IT服务和产品生命周期的数字管理系统对于成功至关重要。组织需要专门针对新数字化现实来设计的运营模型。 本文介绍ITIL® 4如何与IT4IT ™标准一起使用,来统一管理新的数字现实。 这两个框架的结合实现了更加简化和自动化的交付模型:一种利用了敏捷和DevOps方法的模型。 ITIL与I…- 19
- 0
-
排查 K8S 问题的经验和技巧
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。 排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中,可以通过学习和实践来积累经验,并结合官方文档和社区资源进行学习和交流。同时,也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…- 1
- 0
-
FLINK SQL 实践 – 14 维表 lookup join 实战
背景及应用场景介绍:博主期望你能了解到,flink sql 提供了轻松访问外部存储的 lookup join(与上节不同,上节说的是流与流的 join)。lookup join 可以简单理解为使用 flatmap 访问外部存储数据然后将维度字段拼接到当前这条数据上面 来一个实战案例:博主以曝光用户日志流关联用户画像(年龄、性别)维表为例介绍 lookup join 应该达到的关联的预期效果。 fl…- 10
- 0
-
数字化运维 – PYTHON 日常数据分析 – EXCEL常用聚合函数处理技巧
文章目录 Toggle 案例01 对一个工作簿中的所有工作表分别求和举一反三 对一个工作簿中的所有工作表分别求和并将求和结果写入固定单元格案例02 批量统计工作簿的最大值和最小值 案例01 对一个工作簿中的所有工作表分别求和 代码文件:对一个工作簿中的所有工作表分别求和.py – 数据文件:采购表.xlsx import os import xlwings as xw import p…- 0
- 0
-
告警服务治理 – 简单有效经验分享
Facebook 深入探讨的问题是:“人类应当留意哪些 IT 告警?” Facebook 的产品工程师 Brian Smith 首先向我们介绍了 Facebook 用来确定 IT 事件应否入人类法眼(这一过程被称为 SAR,即信号、可行动性和关联性)的准则的初步定义。 信号 — 这是误报吗?一定是信号不足! 可行动性 — 收到这一告警时,能立即采取措施吗? 关联性 — 收到这一告警时,有其他告警传…- 0
- 0
-
【运维工具】Flink SQL 实践6 flink sql 约会 calcite
文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥?3.2.flink sql 为什么选择 calcite?4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…- 1
- 0
-
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理
服务端作为顺风车技术部内最大的工程团队,随着人员的扩张和迭代,流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率,另一方面,我们也希望在一次次的实战中不断的总结,探索出适用于我们团队的最佳实践。 基于此,我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范,包括研发流程、稳定性、性能成本等多个方面。 本文给出其中稳定性相关的规范,这些规范都是顺风车成立五…- 5
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 3
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
















