-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 2
- 0
-
经验教训 – 2022.08.02 微博为何总是宕机
8月3日早晨,“微博崩了”话题登上热搜榜,话题阅读量高达4.7亿,讨论量也达到了4.1万。不少网友表示虽然平时天天骂微博,但真和微博失联了几个小时,感觉和世界脱节了一样。没想到这年头竟然能在微博热搜上看到 “微博崩了”这个词条。 微博回应宕机原因 据@微博客服 消息,8月2日晚22时06分起,由于自动扩容系统故障,导致北京永丰等地机房的宽带容量超限,影响了部分省份移动端用户访问,期间PC端用户可正…- 1
- 0
-
服务稳定性保障的五大误解
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日,这个方向实际仍然有很多基本的概念都没有对齐。 今天这篇文章就罗列下那些混淆不清的概念,期望有一天大家沟通时不是鸡同鸭讲,各说各话。 文章目录 Toggle 误解一:服务可用性误解二:故障误解三:根本原因误解四:根因定位误解五:业务监控总结 误解一:服务可用性 听过很多技术分享,看过很多平台的承诺,上来都是讲我们的服务稳定性99.9…- 1
- 0
-
2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿近1亿)。24号收到了来自阿里云的一则赔偿短信(详见下文),赔偿对象为视频点播服务。 然而,尽管阿里云已经开始采取补偿行动,对于受到影响的用户而言,恢复信心可能需要更多时间。故障事件引起的不便和对服务可靠性的担忧,可能需要云服务商通过更强有力的行动和更有效的沟通,来重新赢得用户的信任和支持。 故障赔…- 6
- 0
-
HIVE SQL:工作中常用HSQL语句大全 二
1、 hive书写顺序 — 1)hive书写顺序 select ……from ……where ……group by……having……order by……limit — 2)sql执行顺序(having –过滤分组) from ……where ……group by ……having ……select ……order by……limit 2…- 1
- 0
-
Flink SQL – 唯品会flink实践与优化
文章目录 Toggle 一 、发展概览二、Flink 容器化实践三、Flink SQL 平台化建设四、应用案例五、未来规划 一 、发展概览 平台支持公司内部所有部门的实时计算应用。主要的业务包括实时大屏、推荐、实验平台、实时监控和实时数据清洗等。 1.1 集群规模 平台现有异地双机房双集群,具有 2000 多的物理机节点,利用 k8s 的 namespaces,labels 和 taints 等,…- 1
- 0
-
Flink SQL 抖音实时数仓保障及治理实践与优化
文章目录 Toggle 一、实时数仓场景介绍二、实时数仓场景初探三、典型场景实践四、未来规划 一、实时数仓场景介绍 为了数据湖更好的落地,我们在落地之前与业务做了一些深入的沟通,并根据不同业务的特点主要分为了三个场景: 1)场景一典型的业务主要是短视频和直播,它的数据量级一般都比较大,例如大流量的日志数据,其计算周期一般是自然的天、小时或者分钟级别的,实时性的要求一般是五分钟内,主要诉求是批流的复…- 14
- 0
-
数字化运维 – PYTHON 日常数据分析 – EXCEL使用回归分析预测未来值案例
文章目录 Toggle 使用回归分析预测未来值举一反三 使用回归方程计算预测值 使用回归分析预测未来值 回归分析(英语:Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我…- 0
- 0
-
运维工具 – excel 日常数据分析 – 常用字符处理经验
从日志系统导出数据之后,我们需要对日志系统的数据进行截取,提取出我们需要的信息,需要用到字符串截取和查找函数,函数说明如下: 字符串截取left函数语法:left(text,num_chars),从左侧开始截取部分字符串 right函数语法:right(text,num_chars),从右侧开始截取部分字符串 其中:text表示要截取的字符串,num_chars表示要截取的字符数 mid函数语法:…- 0
- 0
-
【运维工具】Flink SQL 实践7 不会连最适合 flink sql 的 ETL 和 group agg 场景都没见过吧?
文章目录 Toggle 1.序篇-本文结构2.背景篇-大家不了解 flink sql 什么?3.目标篇-本文能帮助大家了解 flink sql 什么?4.实战篇-简单的 query 案例和运行原理4.1.场景问题:有哪些场景适合 flink sql?4.2.语法\运行问题4.2.1.ETL4.2.2.去重场景4.2.3.group 聚合场景4.2.3.1.简单聚合场景4.2.3.2.去重聚合场景4…- 0
- 0
-
故障治理 – 大促不慌,浅谈蘑菇街的稳定性保障
无相:开发了类似于全链路监控的工具,用于提升整条链路的稳定性。后开始负责全站稳定性工具和平台相关的工作,并参与了全流程加速系统的开发。 蘑菇街是一个电商平台,每年会做四次大促,3.21、6.18、双11、双12。大促保障涉及到流量评估、依赖梳理、单链路压测、全链路压测等。蘑菇街大促的基本流程,基本是按照系统峰值评估、依赖关系梳理、单链路压测、系统扩容、全链路压测等几个环节展开的。 在保障大促稳定性…- 1
- 0
-
IT服务治理 之 发布管理 – 对于研发自测上线项目,测试同学可以做点啥?
在软件研发过程中,不可避免的存在由研发自测后上线的项目。在这种完全由研发同学独立完成开发、测试、发布上线的项目,测试同学可以提前为研发同学做点啥? 我们算法测试团队,提出了四步曲的设想。 第一步:定标准 定标准,即明确可研发自测上线的范围。业界对研发自测的标准非常多,我们建议遵循以下三个维度来制定: 1. 影响面 对核心链路有影响,则测试介入 对公司核心业务有影响,则测试介入 2. 复杂度 涉及复…- 11
- 0
-
PYTHON基础技能 – 构建Python机器学习模型的8个步骤
文章目录 Toggle 引言步骤一:定义问题步骤二:收集数据步骤三:数据预处理步骤四:特征工程步骤五:划分数据集步骤六:选择模型步骤七:训练模型步骤八:评估模型总结 引言 本文旨在系统地介绍构建机器学习模型的基本步骤,并通过一个具体的实战案例——股票价格预测,展示这些步骤的实际应用。通过遵循这些步骤,读者可以更好地理解和掌握机器学习模型构建的全过程。 步骤一:定义问题 首先,我们需要明确要解决的问…- 1
- 0
-
PYTHON基础技能 – Python中9个常见字典与异常处理错误与解决方案
文章目录 Toggle 第一部分:字典基础与常见错误1. 创建字典的误解2. 字典访问未初始化键3. 字典更新时的键冲突异常处理入门4. 不处理异常的危险5. 使用finally清理资源第二部分:高级技巧与实战案例6. 字典推导式的高级用法7. Python 3.5+:字典解构合并8. 异常链:提供更详细的错误信息9. 自定义异常实战案例:数据分析预处理 第一部分:字典基础与常见错误 1. 创建字…- 0
- 0
-
PYTHON基础技能 – 15个Python进阶操作系统交互高级命令
今天我们要来探索那些让程序与操作系统无缝对接的高级命令!让我们一起把Python变成操作系统的隐形指挥官吧! 文章目录 Toggle 1. 系统调用:os模块的魔法杖2. 目录间的舞蹈:os.path3. 文件的搬运工:shutil4. 文件的读写艺术家:open()5. 批处理文件名:glob6. 进程的交响乐:multiprocessing7. 定时任务:schedule8. 环境变量的探秘:…- 0
- 0
-
PYTHON基础技能 – Python中提升文件操作速度的7个秘诀
文章目录 Toggle 引言1. 使用with语句安全地处理文件2. 批量处理文件3. 使用缓冲区提高读写速度4. 使用二进制模式处理大文件5. 利用多线程或进程加速文件处理6. 使用pickle模块进行高效序列化7. 使用csv模块高效处理CSV文件实战案例:日志文件分析总结 引言 在Python编程中,高效且安全地处理文件是一项重要技能。本文将探讨几种优化文件处理的方法,包括使用with语句、…- 1
- 0
-
系统稳定性保障 – 字节跳动混沌工程故障演练实践总结
什么是混沌工程 在生产环境中实际运行分布式系统,难免会有各种不可预料的突发事件发生。同时,云原生的发展,不断推进着微服务的进一步解耦,海量的数据与用户规模也带来了基础设施的大规模分布式演进。分布式系统天生有着各种相互依赖,可以出错的地方数不胜数,处理不好就会导致业务受损,或者是其他各种无法预期的异常行为。 在复杂的分布式系统中,无法阻止这些故障的发生,我们应该致力于在这些异常行为被触发之前,尽可能…- 3
- 0
-
可观测性(Observability) – 监控和可观测性区别
文章目录 Toggle 监控定义如何使用监控监控的缺陷可观测性可观测性的背景可观测性的理解可观测性的意义使用场景可观测性的要求收集数据metriclogtraceprofile接入简单/无侵入式关联数据关联哪些数据关联数据的意义如何关联数据标准化/结构化数据(metric/log/trace等)空间上的关联时间上的关联设计模型仪表板展示场景覆盖全面可观测性构建的扩展观测性分析平台业务画像智能化、定…- 4
- 0
-
故障复盘 – 复盘优势与局限
复盘的优势主要包括: 经验提炼:复盘可以帮助个体或团队深入剖析过去的行为和决策过程,提取有效的方法论和经验教训,避免重复犯同样的错误,同时也巩固和传播成功的实践经验。 技能提升:对于股票交易或其他需要技能和判断力的活动而言,复盘是提升专业技能和盘感的有效手段,投资者可以通过复盘分析市场走势、个股表现以及自己买卖决策的合理性,从而提高投资水平。 风险控制:复盘有助于识别潜在的风险点和失误之处,通过提…- 0
- 0
-
2015.05.28 事件回顾,深入解析和反思携程宕机事件
携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈网友的看法 携程微博:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面…- 3
- 0
-
IT服务治理 – 唯品会大数据建设思路与实践
诸超 | 唯品会云计算总监 文章目录 Toggle 唯品会大数据整体规划数据平台的建设大数据对于技术运营大数据在唯品会特卖模式的业务价值 唯品会大数据整体规划 大数据无非是数据的收集、计算和存储。整个数据的实时接入,包括各种各样的log,我们的系统把这些东西离线、实时地收集进来。 如何规划系统的资源,才能做到高效的调度和利用?这是一大改变期,有了这样一个平台以后,如何做各个数据的分析和计算?不能只…- 2
- 0
-
故障治理 – 运行无间:阿里巴巴运维保障体系的一种最佳实践
阿里巴巴全球运行指挥中心,GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE,我们相当于阿里巴巴的SRE。 今天我的分享分为四个部分: 1、稳定性现状及挑战 2、运维…- 3
- 0
-
监控工具 – zabbix ha 官方推荐高可用集群
#CentOS 安装#安装 epel-release 依赖:yum install epel-release #安装 DNF 包:yum install dnf —————-#Fedora 安装:dnf install dnf 2,初始化yum update -ysed -i ‘s/SELINUX=enforcing/SELINUX=di…- 0
- 0
-
SRE实战手册 – 技能宝典
先聊一聊SRE的工作职责,聊一下我所理解的SRE的核心目标;初步看一下稳定性建设的工作范畴,看一看从宏观上如何划分我们的工作内容;然后我们由此进入今天的主题:故障管理,我将按照我的理解对故障管理进行拆解和分析;再后面,围绕故障管理,我们深入聊一下SRE的体系建设,如何通过体系建设来更好地做故障管理;最后我们再简单做下对未来的展望,共同畅想一下SRE工作的未来。 文章目录 Toggle 一、SRE的…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!