-
2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习
Facebook大故障原因:一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统、以及严密的数据中心安全 Facebook故障是一系列不幸的事件酿成的! 一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全,所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示,周一故障的根本原因是例行维护工作出…- 3
- 0
-
运维工具 – 数据构造实例
生成随机数 fruits = ['apple', 'orange', 'apple', 'apple'] * 10 print(fruits) N = len(fruits) df = pd.DataFrame({'fruit': fruits, 'basket_id'…- 1
- 0
-
IT服务治理 – AIOps 在腾讯的探索和实践
1 从一个 NLP 故事说起 首先我想从一个 NLP 小的故事来说起。 在二十世纪三四十年代,人们大量尝试用机器的方式去理解自然语言,开始是用类似于左图一样的语法树的基于规则的方式处理的,但后来逐渐地变化为以统计的方式去做。 到了二十世纪七十年代之后,基于规则的句法分析逐渐地走到了尽头。 1972年的时候,自然语言处理领域大师贾里尼克加入了IBM。1974年左右,他在 IBM 提出了基于…- 7
- 0
-
实践案例 – 故障治理 阿里智能化故障治理流程探索和实践
阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品/技术/运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。 本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。 …- 2
- 0
-
稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并进行总结和展望。 01 行业背景 稳定性建设是一件很让大家头疼事情,就像我刚开始入职做 SRE 时一样,面对稳定性建设总是觉得无从下手。Google 的 SRE 提供了一些指导方向,Google SRE 这本书的核心是引导大家如何科学地进行稳定性建设。在此基础上,我们决定在腾讯大规模采用基于 SLO…- 6
- 0
-
大模型,方向比速度更重要
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,是因为有人需要鞋,而不是因为鞋匠需要钱。” 国产大模型,再添新劲旅。9月7日,在腾讯一年一度的全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯将迈入“全面拥抱大模型”时代。同时,其自主研发的通用大模型——混元也正式对外发布,揭开了外界猜测已久的腾讯大模型面纱。坦白…- 3
- 0
-
阿里大模型通义千问开源
从官网中介绍,通义千问有以下几个优点: 训练时使用了大规模的高质量数据:使用了超过2.2万亿token进行预训练 更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。 支持8K长度上下文:允许用户输入更长的prompt。 评测能力有大幅提升:通义千问在多个评测数据集上具有显著优势,甚至超出12-13…- 2
- 0
-
运维原则 – 谷歌SRE的7条基本原则
拥抱合理的风险最大化系统的稳定性不仅毫无意义,而且会适得其反。不切实际的可靠性目标限制了新功能交付给用户的速度,而且用户通常不会注意到极端的可用性(比如99.99999%),因为他们的体验是由最不稳定的组件决定的。 拥有100%的可用性需求严重限制了团队向系统交付更新和改进的能力。想要交付许多新特性的服务所有者应该选择不那么严格的SLOs,从而让他们在出现无关紧要的bug时可以继续交付。 服务所有…- 2
- 0
-
FLINK SQL 实践 – (十六):flink sql 开发利器之 Zeppelin
文章目录 Toggle 1.序篇2.Apache Zeppelin 平台效果3.安装部署篇3.1.安装 flink3.2.下载 zeppelin 的 tar 包3.3.在 zeppelin 中配置 flink 环境信息 1.序篇 上节介绍了 flink sql 的企业级开发利器 Dlink。本节就来介绍下 Apache Zeppelin。 本节主要介绍一下博主在本地部署 Apache Zeppel…- 2
- 0
-
故障治理 – 京东科技之全链路故障诊断-智能运维实践
讲师介绍 张静,京东科技智能运维算法高级经理。硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队致力于京东智能运维算法迭代,把智能算法能力落地京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破,提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文,申请智能运维发明专利50余项,IEEE国际会议论文收录9篇。 分…- 1
- 0
-
-
【运维工具】Flink SQL 实践3 – 自定义 redis 数据汇表
本文主要介绍了 flink sql redis 数据汇表的实现过程。 如果想在本地测试下: 在公众号后台回复 flink sql 知其所以然(三)| sql 自定义 redis 数据汇表获取源码(源码基于 1.13.1 实现) flink sql 知其所以然(三)| sql 自定义 redis 数据汇表获取源码(源码基于 1.13.1 实现) flink sql 知其所以然(三)| sql 自定义…- 0
- 0
-
经验教训 – 运维工程师 不得不看的日常经验,帮你远离故障
1. 测试使用 当初学习Linux的使用,从基础到服务到集群,都是在虚拟机做的,虽然老师告诉我们跟真机没有什么差别,可是对真实环境的渴望日渐上升,不过虚拟机的各种快照却让我们养成了各种手贱的习惯,以致于拿到服务器操作权限时候,就迫不及待的想去试试。 记得上班第一天,老大把root密码交给我,由于只能使用putty,我就想使用xshell,于是悄悄登录服务器尝试改为xshell+密钥登录,因为没有测…- 1
- 0
-
[运维工具] 数据分析与数据运营 – excel 常规处理实例
简单的读取excel 数据 import xlwings as xw import pandas as pd app=xw.App(visible=True,add_book=False) wb=app.books.open('D:\Excel\8.1.1节\超市销售数据2020-9.xlsx') sht=wb.sheets('销售数据') data_pd=…- 2
- 0
-
PYTHON基础技能 – Python正则表达式的10个实用模式
小伙伴们,今天我们要一起探索的是Python中的一个超级神器——正则表达式(Regex),它就像是字符串处理的瑞士军刀,小巧却强大无比。别看它名字听起来高深莫测,其实掌握了几个核心模式,你也能成为字符串处理的大师。来,让我们一边玩一边学,轻松掌握这10个超实用的Python正则表达式技巧! 文章目录 Toggle 1. 基本匹配:从Hello World开始2. 贪心与非贪心:吃多与适可而止3. …- 2
- 0
-
PYTHON基础技能 – 使用 Pandas 进行时间序列分析的 11 个关键点
今天我们来聊聊如何用 Pandas 库进行时间序列分析。Pandas 是 Python 中最强大的数据处理库之一,非常适合处理时间序列数据。这篇文章将带你逐步了解时间序列分析的基础知识,以及如何用 Pandas 实现。 文章目录 Toggle 1. 时间序列数据简介2. 设置日期为索引3. 数据重采样4. 插值方法5. 移动平均6. 季节性分解7. 时间序列滞后8. 自相关和偏自相关函数9. 差分…- 0
- 0
-
PYTHON基础技能 – Python增强办公效率的11个实用代码段
文章目录 Toggle 引言1. 快速生成批量文件夹2. 批量重命名文件3. Excel 数据处理4. PDF 文档合并5. 文本内容替换6. 发送邮件自动化7. 数据可视化8. Excel 数据批量处理9. 自动化生成报告10. 文件压缩与解压11. 实战案例:自动化数据处理与报告生成总结 引言 在日常工作中,许多任务可以通过编程自动化来提高效率。本文将介绍一些实用的 Python 脚本,用于批…- 6
- 0
-
PYTHON基础技能 – Python条件表达式优化的15个实例
文章目录 Toggle 引言1. 基础:三元运算符2. 简化比较操作3. 列表或空值处理4. 避免重复计算5. 字符串操作进阶技巧与应用6. 多条件判断7. 列表推导中的应用8. 初始化变量9. 函数返回值优化继续深入:条件表达式的高级应用与实战案例10. 错误处理简化11. 高级:嵌套条件12. 利用条件表达式进行列表过滤13. 逻辑与短路特性14. 实战案例:动态配置设置15. 最后的思考:平…- 0
- 0
-
数字化运营基础技能 – 会员数字化运营实践案例
导入库 import time # 时间库 import numpy as np # numpy库 import pandas as pd # pandas库 import pymysql # mysql连接库 from sklearn.ensemble import RandomForestClassifier # RF库 # from pyecharts import Bar3D # 老版本代…- 1
- 0
-
故障复盘 – 复盘工具 KPT法
文章目录 Toggle KPT法故障复盘案例案例1:服务器宕机事件案例2:网络通信故障案例3:软件系统bug导致用户数据异常 KPT法故障复盘案例 KPT法(Keep/Problem/Try)是一种简洁实用的复盘方法,分别对应保留(维持好的做法)、问题(识别现存问题)和尝试(提出改进措施)三个方面。下面是三个应用KPT法进行故障复盘的案例: 案例1:服务器宕机事件 Keep(保留):在此次服务器宕…- 7
- 0
-
2015.5·27支付宝大规模宕机事故反思学习
事故背景支付宝拥有超过4万亿年交易总额,是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。2014年年11月,就有用户反映,支付宝钱包目前无法转账和提现,当用户使用这两项功能时会提示出现未知错误或创建交易失败,该问题在移动客户端以及电脑网页端均存在。 事故经过2015年5月27日下午4点半左右,陆续有多个地区网友反映,支付宝出现网络故障,账号无法登录或转账。打开余额宝后,不能显示余额…- 6
- 0
-
运维工具 – 数据合并实例
data=df.merge(df3,how='left',on='order_sn') v="{} vs{}ss {}".format("hello", "world", "world") import pandas as pd df1 = pd.DataFrame({'…- 0
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 39
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

















