-
稳定性建设 – 治理思路
文章目录 Toggle 一、背景二、目标三、治理3.1 变更规范治理3.2 监控埋点治理3.3 服务流量治理3.4 服务容错治理3.5 服务依赖治理四、故障应急流程 一、背景 伴随公司和业务的快速发展,服务稳定性也越来越重要,特别是对于基础架构或者重要的业务团队,我们的任何服务出现问题,都可能影响到依赖我们的服务,所以我们应该以更高的稳定性要求作为我们的目标。 业务发展看似并不一定需要稳定性建设,…- 1
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 11
- 0
-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 0
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 17
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 16
- 0
-
稳定性建设 – 架构优化的关键策略
SRE实战中稳定性保障与架构优化的关键策略。讲师首先分析了SRE当前遇到的困境,提出了三个核心策略:采集更丰富的数据、积累更丰富的经验以及从劣化场景中逐步消灭风险。 接着,讲师介绍了经验库的概念,它是一种用来积累和产品化经验的模块,具有查打一体的特点,能够实时诊断性能容量问题。通过数据、基因库和量化策略,识别并解决技术风险。 案例中,优化部署架构,使用70%的硬件支撑高流量,消除高峰时段超时。另一…- 9
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 5
- 0
-
数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战
孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation),因此该算法简单、高效,在工业界应用较多。 Isolation Forest算法的逻辑很直观,算法采用二叉树对数据进行分裂,样本选取、特征选取、分裂点选取都采用随机化的方式。如果某个样本是异常值,可能需要很少次…- 2
- 0
-
运维工具 – 异常数据分析实践,文件归类功能
工作中经常会将不同格式的文件放置在同一个文件夹中,久而久之,文件夹会变得杂乱无章,不利于文件的检索。本节要使用Python编写程序,根据文件的扩展名将文件分类整理到不同的文件夹中。下图所示为用于举例的文件夹“要分类的文件”,可以看到该文件夹中文件的扩展名多种多样,有exl、ppt、docx等。 import os import shutil src_folder = 'd:\\要分类的文…- 0
- 0
-
IT服务管理:故障治理 – 运维故障排查处理思路
在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、…- 31
- 0
-
经验教训 – 2022年6月21日 Cloudflare 服务故障报告
文章目录 Toggle 简介背景事件时间线(按 UTC)和影响这次事件技术描述及其发生过程补救及后续步骤总结 简介 2022 年 6 月 21 日,Cloudflare 发生了一次服务故障事件,影响到我们 19 个数据中心的流量。不幸的是,这 19 个数据中心处理的流量在我们的全球流量中占较大比例。这次服务故障事件的起因是我们在一个长期项目中所做的一项更改。该项目旨在提高我们最忙碌的一些数据中心的…- 2
- 0
-
经验教训 – 2020.10.16 微盟宕机8天,赔偿1.5亿!电商技术专家,总结6条经验
微盟经历了8天的至暗时刻,数据修复工作终于有了进展,并于3月1日对外发布公告: 截止到3月1日晚8点,在腾讯云团队协助下,经过7*24小时的努力,我们数据已经全面找回,由于此次数据量规模非常大,为了保证数据一致性和线上体验,我们将于3月2日凌晨2点进行系统上线演练,将于3月3日上午9点数据恢复正式上线。 此次事故给商家经营造成了严重的影响,公司管理层对此深感自责和愧疚,我们准备了1.5亿元人民币赔…- 2
- 0
-
阿里云的史诗级故障,缓解了程序员的精神内耗?
在大部分人的认知中,服务器宕机,产品“崩了”这种事故,往往是因为流量太大,短期内访问量达到峰值。 比如微博上明星突然官宣、双十一付尾款的关键时间点…… 双十一当晚,大家还在调侃着“今年服务器没崩溃,纯粹是因为流量比往年惨淡”的时候。没想到第二天,阿里系产品突然接连因“崩了”挂上热搜。 淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克等多个阿里系App出现无法访问或服务异常的情况,简直让人瞠…- 2
- 0
-
有趣视频 – 怎么教育孩子?穷人与富人的人生七年
这本书可能试图揭示出社会阶层之间的巨大差距以及机会不平等的问题。它可能会通过比较穷困潦倒的人和富有的人七年来在财富、职业、教育、健康等方面的变化来实现这一目标。 书中可能会提出一些令人深思的观点,例如社会阶层之间的差距是如何形成的,机会不平等是如何导致贫富差距的加剧的,以及如何才能缩小这种差距等等。 总之,“穷人与富人的人生七年”这本书可能会引起人们对社会阶层和贫富差距的关注,并引发对这些问题的思…- 0
- 0
-
运维稳定性 – 软件测试的价值
阿里十年总结之软件测试的价值 最近拜读了很多集团测试大佬总结过往工作经验写下的文字。我想,自己从事测试工作已经十几年,绝大部分工作历程是在阿里度过的,经历了测试团队的分分合合,见过山川大海,也走过土丘洼地。借此机会,也对“软件测试的价值”做个探讨,也希望有机会跟团队一起走出当前的周期。 质量是什么? 质量是一种奢侈品 以前跟同事聊天时说,一个创业团队是不需要测试的。包括太禅老师文章中关于“来往”的…- 3
- 0
-
运维生产故障有哪些?运维常见问题最佳实践
运维生产故障是指在运维过程中出现的各种问题和故障,可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类,下面是一些常见的运维生产故障分类和其常见类型: 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括:– 服务器故障:例如硬盘故障、内存故障等。– 网络设备故障:例如…- 13
- 0
-
运维工具 – PYTHON 日常数据分析 – 按模版输出统一清单
from openpyxl import load_workbook workbook = load_workbook('file.xlsx') worksheet = workbook['Sheet1'] data = {} for row in range(2, worksheet.max_row + 1): date = worksheet&…- 0
- 0
-
-
ITIL工具 – 中小企业最流行的 8 款轻量级在线 BUG 管理工具
文章目录 Toggle 1、Excel2、PingCode3、Worktile4、Bugzilla5、禅道6、Jira7、ClickUp8、Zoho bug Tracker 1、Excel 过去很多年,国内好一点的团队会用 excel 或者 word 文档来记录和管理缺陷问题。当然,现在依然有团队还在使用这些工具进行 bug 管理。用 excel 或者 word 文档来进行管理的优点是:上手容易,…- 2
- 0
-
故障治理 – 优酷双11猫晚技术质量保障
阿里QA导读:大家还记得天猫双11狂欢夜(猫晚)吗?小编依然还会经常听到真实力老酷guy腾格尔老师钢铁硬核版的《丑八怪》。与往年猫晚相比,今年是最“国际化”的一届,整场晚会通过优酷进行了全球直播覆盖,在这样的双11猫晚的特殊场景下,如何完成质量保障工作,让全球直播也能“如丝般顺滑”,让不同地域、不同设备的用户都能享受极致的体验? 本文为阿里文娱测试开发专家 宫浩 在【阿里文娱2019双11猫晚技术…- 2
- 0
-
【运维工具】Flink SQL 基础实践 – 深入分析 Flink SQL 工作机制
本文整理自 Flink Forward 2020 全球在线会议中文精华版,由 Apache Flink PMC 伍翀(云邪)分享,社区志愿者陈婧敏(清樾)整理。旨在帮助大家更好地理解 Flink SQL 引擎的工作原理。文章主要分为以下四部分: 1、Flink SQL Architecture 2、How Flink SQL Works? 3、Flink SQL Optimizations 4、S…- 0
- 0
-
[经验分享]远离故障的十大原则
故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项:可用性。可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归。我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉!1、变更要有回滚,在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障,变更请谨慎7、搭建…- 4
- 0
-
CMDB是配置管理库它应该长得怎么样?数据资产体系如何建设?
一、认识数据资产 二、数据治理-方法论 三、CMDB平台建设 四、B站SRE资产平台建设之路 一、认识数据资产 1. 数据资产——企业IT价值 如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。 建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。 运营数…- 28
- 0
-
PYTHON基础技能 – Python金融数据分析:10个金融数据挖掘的技巧
文章目录 Toggle 文章引言1. 数据清洗2. 异常值检测3. 数据标准化4. 特征选择5. 时间序列分析6. 移动平均7. 自相关和偏自相关8. ARIMA模型9. 回归分析10. 机器学习模型实战案例:股票价格预测总结 文章引言 在金融数据分析中,数据的质量直接影响到最终分析结果的准确性与可靠性。从数据清洗、异常值检测到数据标准化,再到特征选择以及各种预测模型的应用,每个步骤都是确保最终预…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!