-
故障复盘 – 遇到P0级别故障如何做故障复盘?
其实现在的计算机系统是一个极其复杂,而且依赖很多的分布式系统,出现事故是在所难免的,关键是如何对待事故。是把它视为人为错误(Human Error)导致,找到那个事故负责人,然后对他进行处罚,希望达到不再犯错的目的,还是接受事故是不可避免的事实,进而从各种系统架构设计上/流程设计和执行上进行容错性处理,把每次事故当作一次学习和改进的机会。这是一个传统IT公司和高绩效公司的关键区别之一,看看以下案例…- 21
- 0
-
PYTHON基础技能 – 文本清洗和预处理的 15 项技术
文本清洗和预处理是自然语言处理(NLP)中的重要步骤。无论你是处理社交媒体数据、新闻文章还是用户评论,都需要先对文本进行清洗和预处理,以确保后续的分析或建模能够顺利进行。本文将详细介绍15项Python文本清洗和预处理技术,并通过实际代码示例来帮助你更好地理解和应用这些技术。 文章目录 Toggle 1. 去除空白字符2. 转换为小写3. 去除标点符号4. 分词5. 去除停用词6. 词干提取7. …- 5
- 0
-
数字化运营基础技能 – python学习路线图经典版
关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:一类是提供各种资源的推荐,比如书单、教程、以及学习的先后顺序;另一类是提供具体的学习内容,知识点或实际案例。 但很多繁琐而又杂乱的内容,除了给初学者增加理解和认识的噪音外,真正能够起到明确的方向指引导的,确实不多。以至于很多人一开始没有明确的方向就一头扎进去,学了很久却不知道自己到底在学什么,或者自己学了很久不知道能够做什么。…- 2
- 0
-
系统稳定性保障 – 混沌工程 – 持续保障系统稳定性和高可用:腾讯游戏混沌工程实践
最近一两年,我们可以发现混沌工程这个技术变得十分火热,大家都知道它变成了一个新的风口。常说做事情要顺势而为,我们希望能够抓住这个机会,所以我最近一年的工作主要是将混沌工程这一技术在腾讯游戏落地。 文章目录 Toggle 一、什么是混沌工程1、混沌工程的定义2、混沌工程的作用1)故障预防2)故障发现3)故障响应4)故障定位5)故障恢复6)复盘改进二、混沌工程平台建设1、流程设计1)实验前2)实验中3…- 5
- 0
-
ITIL是什么?itil 是运维管理最佳实践, 是IT界的MBA
ITIL是什么?IT界的MBA ITIL到底是什么呢?为什么需要它呢?适合哪些人呢?…… 01被称为IT界MBA的ITIL到底是什么?ITIL最早是英国商务部开发的一套面向信息技术日常运维管理的最佳实践,在2000年时ITIL官方在全球大力推广,最终ITIL在运维管理领域一枝独秀,成为全球公认的运维管理最佳实践。 服务战略的原则第一句话:但凡看到有人提价值创造,我脑子里没有别的,就只有这句话。“客…- 1
- 0
-
运维工具 – i基于Centos7+Apache2.4+Mysql5.7+PHP7.3环境安装itop3
https://sourceforge.net/projects/itop/files/itop/3.0.1/ 文章目录 Toggle Centos7安装itop3.o1.关闭防火墙与SELinux2.安装php7.3卸载之前的php安装扩展源“安装php7.3启动php3.安装apache启动httpd4.安装mysql5.7安装扩展源安装mysql查看mysql默认password…- 2
- 0
-
IT服务治理 – SRE工具链建设思路与实践
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据应用技术)。曾荣获:华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作:《python自动化运维:技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…- 24
- 0
-
实践案例 – 苏宁 AI 监控运维保障建设实践
文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景 建设背景 近些年,苏宁一直基于云技术对外提供服务、产品、内容…- 39
- 0
-
实践案例 – vivo监控系统这样演进才稳妥
一、业务背景 当今时代处在信息大爆发的时代,信息借助互联网的潮流在全球自由的流动,产生了各式各样的平台系统和软件系统,越来越多的业务也会导致系统的复杂性。 当核心业务出现了问题影响用户体验,开发人员没有及时发现,发现问题时已经为时已晚,又或者当服务器的CPU持续增高,磁盘空间被打满等,需要运维人员及时发现并处理,这就需要一套有效的监控系统对其进行监控和预警。 如何对这些业务和服务器进行监控和维护是…- 5
- 0
-
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而,就在 5 月 24 日,这个服务在巴西南部区域发生了长达 10 小时的宕机,影响了数千名客户。事后调查发现,竟然是因为一个简单的拼写错误,导致了 17 个生产数据库被误删。 事件背景起源于,Azure DevOps 工程师有时需要对生产数据库的快照进行保存,以调查报告的问…- 2
- 0
-
Python 日常数据分析 – EXCEL实战- 批量拆分列
from pathlib import Path import xlwings as xw import pandas as pd src_folder = Path('文件夹') file_list = list(src_folder.glob('*.xlsx')) app = xw.App(visible=False, add_book=False) f…- 1
- 0
-
人工智能 – 摘录互联网TOP10好用AI办公软件盘点
当今社会,人工智能技术的快速发展正在改变着我们的生活方式。在办公场景中,人工智能技术也被广泛应用。越来越多的AI办公软件涌现出来,为我们提供了更加高效便捷的工作方式。从智能办公到自动化流程,这些AI办公软件正在以惊人的速度改变着我们的办公方式。 在本文中,我们将盘点多款AI办公软件,探索它们的特点和优势,带你领略AI办公的魅力。 本文提及的 AI办公软件列表:ChatGPT、boardmix AI…- 13
- 0
-
Flink SQL – 字节跳动Flink实践与优化
本文由 Apache Flink Committer,字节跳动架构研发工程师李本超分享,以四个章节来介绍 Flink 在字节的应用实战。 内容如下: 整体介绍 实践优化 流批一体 未来规划 一、整体介绍 文章目录 Toggle 2018 年 12 月 Blink 宣布开源,经历了约一年的时间 Flink 1.9 于 2019 年 8 月 22 发布。在 Flink 1.9 发布之前字节跳动内部基于…- 37
- 0
-
Flink SQL – 如何写出简单高效的 Flink SQL实战
一、Flink SQL InsightFlink 作为流批一体计算引擎,给大家提供了统一的 API,统一的算子描述,以及统一的调度。但 Flink 算子的底层仍有一些细微的差别。对于一个批算子而言,它的输入是一个有限数据集。批算子会基于完整数据集进行计算,计算过程中如果内存装不下,数据会 Spill 到磁盘。对于流算子而言,它的输入是一个无限数据集。与批算子不同,流算子不能在收集到所有输入数据之后…- 1
- 0
-
IT服务管理 – ITIL培训- 变更管理规范与原则
70%+生产故障都来源于变更、发布,生产环境离不开它,效率与质量如何平衡就需要流程与工具相结合进行严格管控;有效的业务监控与业务验收能降低60%+故障 变更管理活动 变更管理活动 – 记录变更单 变更管理活动 – 处理人接收 变更管理活动 – 变更定义风险等级 变更管理活动 – 变更审核 变更管理活动 – 变更通知 变更管理活动 R…- 1
- 0
-
【运维工具】Flink SQL 实践10 用 cumulate window 计算累计指标
文章目录 Toggle 1.序篇2.应用场景介绍3.预期的效果4.解决方案介绍4.1.flink 1.13 之前4.2.flink 1.13 及之后4.3.cumulate window 原理解析4.4.cumulate window 怎么解决 tumble window + early-fire 的问题5.总结 1.序篇 源码公众号后台回复1.13.2 cumulate window 的奇妙解析…- 0
- 0
-
【运维工具】Flink SQL 实践5 自定义 protobuf format
文章目录 Toggle 1.序篇-本文结构2.背景篇-为啥需要 protobuf format3.目标篇-protobuf format 预期效果4.难点剖析篇-目前有哪些实现5.实现篇-实现的过程5.1.flink format 工作原理5.2.flink protobuf format 实现6.总结与展望篇6.1.总结6.2.展望 1.序篇-本文结构 protobuf 作为目前各大公…- 0
- 0
-
故障治理 – 稳定性保障6步走:高可用系统大促作战指南!
一、前言 年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。 跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做? 除了口口相传的历史经验,我们还能做些什么?又有什么理论依据? 二、怎样的系统算是稳定? 首先回答另一个问题,怎样的系统算是稳定的? Google SRE中(SR…- 7
- 0
-
经验教训 – 2020.02.23 微盟花23亿买下一个惨痛教训
2月23日晚7点左右,微盟多个小程序显示出现未知错误,多次刷新仍未恢复正常。 基于微盟的商家小程序也都随之宕机,一度无法打开。从23日晚间起,宕机超过24小时,线上生意基本停摆的商家不在少数。 对此,官方一开始回应称设备物理故障,正在紧急抢修和修复。 2月25日,微盟集团(2013.HK)发布关于系统故障的公告,称SaaS(软件即服务)业务数据遭到员工人为破坏,并表示已向上海警方报…- 2
- 0
-
PYTHON基础技能 – 一文搞懂Python局部变量与全局变量的12大陷阱
今天我们要来聊聊一个让人又爱又恨的话题——局部变量与全局变量的八大迷雾。在Python的世界里,变量就像是你的小宠物,有时候它们乖乖听话,但一不小心就给你挖了个大坑!别担心,今天我们就一起把这些陷阱挖出来,填平它,让你的编程之路畅通无阻! 文章目录 Toggle 1. 基础篇:什么是局部和全局变量?2. 修改全局变量的第一坑:你以为你能改?3. 正确修改全局变量:要用global关键字!4. 局部…- 1
- 0
-
PYTHON基础技能 – Python提升工作效率的7个实用秘籍
文章目录 Toggle 秘籍一:自动化文件操作秘籍二:高效的数据处理秘籍三:文本处理利器 —— 正则表达式秘籍四:自动化Excel操作秘籍五:Web自动化爬虫秘籍六:自动化邮件发送 秘籍一:自动化文件操作 处理大量的文件时,手动操作不仅耗时还容易出错。Python可以帮你自动完成这些任务。 示例:批量重命名文件 import osdef rename_files(directo…- 1
- 0
-
PYTHON基础技能 – Python字典去重与过滤的9种方法
处理字典数据时经常会遇到需要去除重复项或根据特定条件过滤元素的情况。别担心,这九个技巧将让你的数据处理能力大大提升! 文章目录 Toggle 方法1:基础去重方法2:基于列表推导的去重方法3:利用集合进行键的去重方法4:条件过滤方法5:使用filter()函数方法6:利用itertools.groupby()的高级去重方法7:结合set()和列表推导去重键值对方法8:使用pandas库(适用于复杂…- 0
- 0
-
经验教训 – 2024.7.19 Windows蓝屏致损150亿美元 “黑天鹅”事件引发的思考
Windows蓝屏致损150亿美元,受灾者仅获赔10美元引热议,程序员激辩用Rust能否改写史上最大IT故障结局? “就算是 Rust,也救不了这次 CrowdStrike 的中断事故。” 距离 Windows 大范围蓝屏事件,已经过去了 6 天。 这 6 天来,国内外技术网站仍对此事热议不断,“罪魁祸首” CrowdStrike 的名字被频繁提及,与之伴随的无一不是质疑和谴责: CrowdStr…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

















