全部标签

机器学习

系统稳定性建设（13） – AI赋能稳定性思路

在当今数字化时代，从云端服务到智能工厂，从金融交易系统到医疗信息系统，各种复杂系统如同现代社会的“神经网络”，其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障，轻则造成不便，重则引发重大经济损失甚至危及生命安全。因此，系统稳定性治理成为了一个至关重要的课题。而近年来，人工智能（AI）技术的迅猛发展，为系统稳定性治理带来了前所未有的机遇，它如同一位“智能守护者”，正悄然改变着我们对系统稳定性的…
安全运维
- 4
- 0
aqzt2月11日
系统稳定性建设（6） – 研发路上对稳定性治理的一些总结与思考

我是在 2014 年入职饿了么，从前端和 PHP 一直做到后端架构和团队，从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队；2018 年从业务研发团队抽身，6 个人组起一个小组投身机器学习，试图结合实际的业务场景通过技术改造业务；2019 年回归到平台（中台）研发，负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…
安全运维
- 3
- 0
aqzt2月11日
系统稳定性建设（12） – 线上监控指标全解(线上问题排查指南)

前言本文将从基础设施（CPU、内存、网络、磁盘）、服务内部（JVM、线程池、连接池等）、中间件（MySQL、Redis、MQ等）、服务治理（注册中心、熔断、分布式事务、服务间调用）、业务指标（支付成功率、转化漏斗）、用户体验（页面性能、用户反馈）等全维度出发，讲解线上应用的全方面监控参数，大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…
安全运维
- 15
- 0
aqzt2月11日
系统稳定性建设（3） – 高可用稳定性建设实践指南

文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点或极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…
安全运维
- 7
- 0
aqzt2月11日
安全运维体系建设

安全运维体系建设是一个综合性的过程，涉及多个方面，包括安全体系、业务稳定性、规范标准体系、运维知识体系、运维能力体系、监控体系、资源成本体系、效能体系以及团队建设等。以下是对这些方面的详细阐述：
安全资讯
- 4.2k
- 0
网络收集1月9日
运维工具 – 唯品会王玉：老司机教你如何调教Presto和ClickHouse，应对业务难题！

导读：大家好，我是来自唯品会实时平台 OLAP 团队的王玉，主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu，这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作，并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。本文主要介绍唯品会 OLAP 的演进，包括 Presto 智能化和容器化实践，以及 Clickhouse 在实验平台海量数据存储和计…
安全运维
- 6
- 0
aqzt24年12月21日
系统稳定性保障 – 字节跳动混沌工程故障演练实践总结

什么是混沌工程在生产环境中实际运行分布式系统，难免会有各种不可预料的突发事件发生。同时，云原生的发展，不断推进着微服务的进一步解耦，海量的数据与用户规模也带来了基础设施的大规模分布式演进。分布式系统天生有着各种相互依赖，可以出错的地方数不胜数，处理不好就会导致业务受损，或者是其他各种无法预期的异常行为。在复杂的分布式系统中，无法阻止这些故障的发生，我们应该致力于在这些异常行为被触发之前，尽可能…
安全运维
- 30
- 0
aqzt24年12月21日
IT服务治理 – 腾讯运维的 AI 实践思路指引

讲师简介张戎机器学习研究员社交网络运营部我是一个做机器学习的人，目前接触运维的时间并不长，大约半年左右。主要做社交网络的运维、监控和异常检测方面的工作。本文将按照下面四大块内容分享。 1. 时间序列异常检测监控领域做运维，最基础的是时间序列的异常检测。如果是基于机器学习的智能运维，主要分三个场景：第一步是发现问题，如果我们无法发现问题就无法定位问题、甚至解决问题。既然提到发现问题，最…
安全运维
- 2
- 0
aqzt24年12月21日
数字化运营基础技能 – python学习路线图经典版

关于Python数据分析，其实网上能够找到的学习资源很多，主要分为两类：一类是提供各种资源的推荐，比如书单、教程、以及学习的先后顺序；另一类是提供具体的学习内容，知识点或实际案例。但很多繁琐而又杂乱的内容，除了给初学者增加理解和认识的噪音外，真正能够起到明确的方向指引导的，确实不多。以至于很多人一开始没有明确的方向就一头扎进去，学了很久却不知道自己到底在学什么，或者自己学了很久不知道能够做什么。…
安全运维
- 2
- 0
aqzt24年12月21日
IT服务治理 – AIOps 在腾讯的探索和实践

1 从一个 NLP 故事说起首先我想从一个 NLP 小的故事来说起。在二十世纪三四十年代，人们大量尝试用机器的方式去理解自然语言，开始是用类似于左图一样的语法树的基于规则的方式处理的，但后来逐渐地变化为以统计的方式去做。到了二十世纪七十年代之后，基于规则的句法分析逐渐地走到了尽头。 1972年的时候，自然语言处理领域大师贾里尼克加入了IBM。1974年左右，他在 IBM 提出了基于…
安全运维
- 4
- 0
aqzt24年12月21日
系统稳定性保障 – 美团AIOps在事件管理的硬核实践

文中所提及的事件并不仅限于故障，还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景在《AIOps在…
安全运维
- 3
- 0
aqzt24年12月21日
故障治理 – 运行无间：阿里巴巴运维保障体系的一种最佳实践

阿里巴巴全球运行指挥中心，GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE，我们相当于阿里巴巴的SRE。今天我的分享分为四个部分： 1、稳定性现状及挑战 2、运维…
安全运维
- 29
- 0
aqzt24年12月21日
大规模运行 Apache Airflow 的经验和教训

Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify，我们已经在生产中运行了两年多的 Airflow，用于各种工作流，包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时，我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…
安全运维
- 1
- 0
aqzt24年12月21日
实践案例 – 告警定级为告警治理核心，告警智能定级原理探索

很多大规模复杂在线服务系统，比如 Google、Amazon、Microsoft 和大型商业银行，包含数以千计的分布式组件，并同时支持大量用户使用。为了保障高质量服务和良好的用户体验，这些公司引入监控系统，智能收集服务组件的监控数据，比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据，确保在服务异常时产生告警。这也带来一个问题，大型服务系统通常会不间断地被捕捉到大量告…
安全运维
- 2
- 0
aqzt24年12月21日
最佳实践 – 技术如何从小白到管理，怎么支撑业务快速发展？

一、背景技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设，能够在百人，千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队，快速拿出成果，支撑业务的快速发展。二、痛点从小团队人员快速扩张，团队文化稀释，人员效能下降，目标逐渐弱化。各自团队管理方式及标准不统一，人员管理及协同逐渐混乱。组织扩大后，难以有效关注个人，无法准确评判个人的成长，贡献等。三、目标通…
安全运维
- 2
- 0
aqzt24年12月21日
运维工具 – 阿里超大规模 Flink 集群运维实践（实时监控必备工具之一）

一、演进历史和运维挑战阿里的实时计算经历了近 10 年的快速发展，总体来说可以分成三大时代： 1.0 时代：2013 年到 2017 年，三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代：2017 年集团合并了三大实时计算引擎，Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎，实现了大一统。在接下来的 4 年里，集团所有实时计算业…
安全运维
- 4
- 0
aqzt24年12月21日
Flink SQL – 网易云音乐flink实践与优化

文章目录 Toggle 一、背景简介二、云音乐的实时计算 Notebook 服务三、性能优化四、运维监控增强五、未来规划一、背景简介 1.Flink in Music 先简单的介绍下云音乐的现状，目前音乐这边的客户端日志，服务端日志大概在每日大千亿条左右，维度表数据源像 Redis，MySQL 这些大概有上百个。而服务的实时计算任务开发的人员有上百名，其中不仅包扩数据开发工程师，分析师，也包括算…
安全运维
- 1
- 0
aqzt24年12月21日
新的工业革命即将开始?

工业革命是指从18世纪末到19世纪中叶，以及20世纪初的一系列重大技术、经济和社会变革的过程。虽然没有一个确切的定义，但通常认为工业革命经历了三次主要的阶段，每一次都具有不同的特征和影响。一、第一次工业革命（1760年-1840年）第一次工业革命发生在18世纪末到19世纪初，主要集中在英国。以下是第一次工业革命的特征：1. 蒸汽动力的应用：蒸汽机的发明和应用是第一次工业革命的核心。蒸…
安全运维
- 1
- 0
aqzt24年12月21日
数字化运维 – PYTHON 日常数据分析 –新闻文本分类实战

文章目录 Toggle 文本数据载入及清洗把数据集分为训练集和测试集中文分词引入停用词文本特征提取（词库表示法）机器学习建模文本特征提取(TF-IDF)N-gram模型文本数据载入及清洗搜狗新闻数据源：http://www.sogou.com/labs/resource/ca.php 我们从搜狗下载的数据是类似XML的带标签对的数据，因此需要使用正则表达式或者BeautifulSoup等工具处…
安全运维
- 1
- 0
aqzt24年12月21日
【运维工具】flink sql 实践思路案例

文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT：实时 & 离线公共画像维表？概念区别离线公共画像维表实时公共画像维表WHY：为什么建设实时公共画像维表？直播间画像维表主播 & 观众用户画像维表HOW + WHO：怎样建设？用什么建设？直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…
安全运维
- 2
- 0
aqzt24年12月21日
【运维工具】一文搞懂 Hadoop 生态系统的组件

Hadoop概述 Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop是可扩展的，它可以方便地从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性，软件库本身也提供数据保护，并可以在应用层做失败处理，从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。图…
安全运维
- 1
- 0
aqzt24年12月21日
[运维工具]每秒几十亿实时处理，阿里巴巴超大规模 Flink 集群运维揭秘

今天主要讲三块：第一，阿里 Flink 发展的历史背景，怎么来的，现状规模到底什么样第二，阿里 Flink 运维管控平台第三，阿里 Flink 平台运维技术解决方案文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案一、阿里 Flink 集群运维挑战首先说一下流计算，批计算就是数据集是有限的，每次的计算都可以拿到一样的结果，在…
安全运维
- 2
- 0
aqzt24年12月21日
运维工具 – 大众点评评论文本挖掘基础案例实践

文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取（TF-IDF）机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…
安全运维
- 14
- 0
aqzt24年12月21日
PYTHON基础技能 – 构建Python机器学习模型的8个步骤

文章目录 Toggle 引言步骤一：定义问题步骤二：收集数据步骤三：数据预处理步骤四：特征工程步骤五：划分数据集步骤六：选择模型步骤七：训练模型步骤八：评估模型总结引言本文旨在系统地介绍构建机器学习模型的基本步骤，并通过一个具体的实战案例——股票价格预测，展示这些步骤的实际应用。通过遵循这些步骤，读者可以更好地理解和掌握机器学习模型构建的全过程。步骤一：定义问题首先，我们需要明确要解决的问…
安全运维
- 2
- 0
aqzt24年12月21日