-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 11
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 2
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 17
- 0
-
中国数据智能产业研究
技能收集: 毕业设计 基于网络爬虫的新闻采集和订阅系统的设计与实现 https://github.com/BillBillBillBill/NewsCrawler 基于LSTM网络与自注意力机制对中文评论进行细粒度情感分析 https://github.com/viewlei/fsauor2018 基于Python的南京二手房数据采集及可视化分析 https://github.com/zqm23…- 7
- 0
-
IT服务治理 – 唯品会大数据建设思路与实践
诸超 | 唯品会云计算总监 文章目录 Toggle 唯品会大数据整体规划数据平台的建设大数据对于技术运营大数据在唯品会特卖模式的业务价值 唯品会大数据整体规划 大数据无非是数据的收集、计算和存储。整个数据的实时接入,包括各种各样的log,我们的系统把这些东西离线、实时地收集进来。 如何规划系统的资源,才能做到高效的调度和利用?这是一大改变期,有了这样一个平台以后,如何做各个数据的分析和计算?不能只…- 3
- 0
-
实践案例 – 腾讯织云智能监控实践
监控系统经历大数据转型后迎来 AI 浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到 IAAS 层的立体化监控理念和数据化 DevOps 理念。同时分享织云在 AIOps 领域的智能检测、根因分析和 ROOT 根源分析实践场景,展望未来监控转型方向。 听众受益 了解监控发展变化的背景和趋势;腾讯织云的海量监控架构;腾讯织云的智能化应用场景。 讲师介绍: 吴树生…- 1
- 0
-
稳定性的灯塔:腾讯 SRE 质量运营体系建设实践
本文将从整体角度出发,探讨腾讯 SRE 质量运营体系是如何构建和实践的,以及建设过程中经验和思考,并进行总结和展望。 01 行业背景 稳定性建设是一件很让大家头疼事情,就像我刚开始入职做 SRE 时一样,面对稳定性建设总是觉得无从下手。Google 的 SRE 提供了一些指导方向,Google SRE 这本书的核心是引导大家如何科学地进行稳定性建设。在此基础上,我们决定在腾讯大规模采用基于 SLO…- 1
- 0
-
故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例,以及,能从中学习到什么经验与教训? 文章目录 Toggle 事实是什么?原因是什么?影响是什么?评论与观点?能学到什么? 事实是什么? 11月12日,也就是双十一后的第一天,阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页,全球范围内所有可用区 x 所有服…- 2
- 0
-
故障复盘 – 哈啰出行高质量故障复盘法
一、故障和复盘真的都是坏事吗?提到复盘,大多数人第一时间想到的是线上出了故障,这下又要有人背锅了;或者是为那个可怜的兄弟暗暗担心;也或者是因为跟自己无关,所以松了一口气。那么故障和复盘真的都是坏事吗?我们该如何理解它呢?我从以下三点讲一下我对故障和复盘的理解。 1.1 正视故障发生的必然性 – 有好也有坏在聊复盘之前,先聊下我对线上故障的看法,…- 1
- 0
-
故障治理 – 京东科技之全链路故障诊断-智能运维实践
讲师介绍 张静,京东科技智能运维算法高级经理。硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队致力于京东智能运维算法迭代,把智能算法能力落地京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破,提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文,申请智能运维发明专利50余项,IEEE国际会议论文收录9篇。 分…- 1
- 0
-
IT服务治理 什么是关键时效 MOT
什么是关键时刻 关键时刻(MOT)——Moments of truth,用户和公司之间发生了交互关系的瞬间。 案例:在一年当中,每一个北欧航空的乘客平均每人接触五名员工,会对北欧航空公司产生五次印象,每一次十五秒钟,总共五千万次。而这五千万次的“关键时刻”决定了公司将来的成败。 关键时刻的意义 将组织结构翻转过来变成倒金字塔结构位于金字塔底端的蓝领和白领员工,他们都是真正在战场上作战的士兵,最了解…- 1
- 0
-
经验教训 – 2012.08.01 兵败DevOps!一个Bug损失4.6亿美金,不得不看的惨痛教训!
缺乏最佳实践的 DevOps,会给你的企业带来缓慢的发布周期,甚至是灾难性的错误。本文向你介绍一些能够充分使用 DevOps 的小技巧。 本文会分享一些有趣的 DevOps 原则,并通过应用展示它们给高效的项目交付与转化所带来的好处。 这里所提及的概念都源于 John Willis,他有着丰富的 IT 管理经验,同时也是 DevOps 运动的最初倡导者。 当一个组织考虑去实践 DevOps 的时候…- 1
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践
讲师介绍 刘天斯,腾讯游戏营销SRE负责人,腾讯T12级技术专家,国家工程实验室兹聘专家(工业大数据应用技术)。曾荣获:华章最有价值作者、中国十大杰出IT博主、WOT十大优秀讲师、OpsWorld金牌讲师、TOP100优秀出品人、中国数据质量杰出专家奖、DAMA中国数据治理专家奖。个人著作:《python自动化运维:技术与实践》《循序渐进学Docker》《第一次使用Docker就上手》《破解数据治…- 11
- 0
-
故障复盘 – 2024.12.11 OpenAI全球服务宕机复盘:技术架构的脆弱性与教训
2024年12月11日,OpenAI经历了一场全球范围的服务中断,持续时间超过四个小时,影响了ChatGPT、API、Sora等多个重要产品。宕机事件发生在当天太平洋时间下午3:16,直到晚上7:38才得以完全恢复。这一事件引发了行业对云服务架构的深刻反思,揭示了当前技术体系中潜在的脆弱性。 文章目录 Toggle 造成影响故障原因应急措施故障时间线预防措施 造成影响 ChatGPT:在下午5:4…- 4
- 0
-
系统稳定性保障 – 迄今见过最易懂的混沌工程落地实践
一、背景 从 2010 年 Netflix 上线 Chaos Mokey 的第一个版本到现在,虽然混沌工程发展已历时十年,但其实只在少数大厂里面有较成熟的落地,对绝大部分研发同学来说,混沌工程还是一个比较陌生的领域。 分布式和微服务化已经成为主流的系统架构设计方案,大规模分布式系统的可用性保障能力越来越成为关注的重点。混沌工程也开始如雨后春笋般在各大企业内部萌芽生长,但大部分还处于初期的探索阶段,…- 3
- 0
-
可观测性(Observability) – 链路追踪
虽然 2010 年之前就已经有了 X-Trace、Magpie 等跨服务的追踪系统了,但现代分布式链路追踪公认的起源是 Google 在 2010 年发表的论文《Dapper : a Large-Scale Distributed Systems Tracing Infrastructure》,这篇论文介绍了 Google 从 2004 年开始使用的分布式追踪系统 Dapper 的实现原理。此后,…- 20
- 0
-
故障复盘 – 复盘工具 时间线分析法复盘
时间线分析法是一种通过构建事件时间轴来回顾和分析过程的方法。复盘时,将关键事件、决策点、里程碑等标注在时间线上,直观呈现项目或活动的全过程。 文章目录 Toggle 案例1:大促活动期间服务器崩溃案例2:商品详情页加载缓慢案例3:订单配送延迟 案例1:大促活动期间服务器崩溃 时间线: 促销活动前两周,技术团队进行系统压力测试和优化。 活动前一天,服务器负载测试达标,系统上线。 活动开始后两小时,访…- 4
- 0
-
运维工具 – 大众点评评论文本挖掘基础案例实践
文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取(TF-IDF)机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…- 17
- 0
-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
-
实践案例 – 苏宁 AI 监控运维保障建设实践
文章目录 Toggle 建设背景大规模时间序列分析与根因定位业务背景异常检测平台能力异常检测指标预测多维度分析自定义仪表盘时序预测方法1 DeepAR2 MQ-RNN3 MQ-CNN[2]集成方法根因定位运维知识图谱背景构建流程1. 样本构建2. 因果发现3. 因果推理大规模海量日志分析的 818 保障阶段一阶段二阶段三阶段四阶段五愿景 建设背景 近些年,苏宁一直基于云技术对外提供服务、产品、内容…- 31
- 0
-
故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
故障时间:10月23日下午。 故障现象:语雀出现重大服务故障,持续 7 个多小时。 直接原因:数据存储运维团队在进行升级操作时,新的运维升级工具出现 bug。 具体细节:bug导致华东地区生产环境存储服务器被误下线,使语雀数据服务发生严重故障,造成大面积服务中断。 恢复过程: 因机器类别较老,无法直接操作上线,只能从备份系统中恢复存储数据。 数据恢复过程耗时较长,直到晚上 22 点,语雀的全部服务…- 43
- 0
-
运维工具 – 阿里超大规模 Flink 集群运维实践(实时监控必备工具之一)
一、演进历史和运维挑战 阿里的实时计算经历了近 10 年的快速发展,总体来说可以分成三大时代: 1.0 时代:2013 年到 2017 年,三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代:2017 年集团合并了三大实时计算引擎,Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的 4 年里,集团所有实时计算业…- 4
- 0
-
Flink SQL – 网易云音乐flink实践与优化
文章目录 Toggle 一、背景简介二、云音乐的实时计算 Notebook 服务三、性能优化四、运维监控增强五、未来规划 一、背景简介 1.Flink in Music 先简单的介绍下云音乐的现状,目前音乐这边的客户端日志,服务端日志大概在每日大千亿条左右,维度表数据源像 Redis,MySQL 这些大概有上百个。而服务的实时计算任务开发的人员有上百名,其中不仅包扩数据开发工程师,分析师,也包括算…- 2
- 0
-
数字化运维 – PYTHON 日常数据分析 –新闻文本分类实战
文章目录 Toggle 文本数据载入及清洗把数据集分为训练集和测试集中文分词引入停用词文本特征提取(词库表示法)机器学习建模文本特征提取(TF-IDF)N-gram模型 文本数据载入及清洗 搜狗新闻数据源:http://www.sogou.com/labs/resource/ca.php 我们从搜狗下载的数据是类似XML的带标签对的数据,因此需要使用正则表达式或者BeautifulSoup等工具处…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!