全部标签

安全运维

稳定性保障 – 故障应急体系构建及应用实践（2）

本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践，包括业务SRE的定义、应急管理、大促稳定性保障等方面，具体内容如下： 1. 业务SRE定义 – SRE概念：SRE是结合软件工程和IT运维原则，通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色，业务SRE则专注于特定业务系统的可靠性和效率。 – 工作内容：确保业务系统稳定可用，优化性能提升用户体验，定…
安全运维
- 19
- 0
aqzt24年12月21日
PYTHON基础技能 – 用一行代码完成的26个日常任务

Python以其简洁优雅著称，能够用最少的代码行数实现强大的功能。本文特别为Python初学者设计，旨在展示Python如何以一行代码解决常见的编程任务，让你体验Python的极简美学。通过这些实例，你不仅能够学习到Python的基础知识，还能掌握一些高效编码的小技巧。文章目录 Toggle 1. 计算列表平均值2. 列表转字符串3. 查找最大值4. 检查是否全是数字5. 反转字符串6. 平方一…
安全运维
- 5
- 0
aqzt24年12月21日
PYTHON基础技能 – 使用 Pandas 进行时间序列分析的 11 个关键点

Pandas 是 Python 中最强大的数据处理库之一，非常适合处理时间序列数据。这篇文章将带你逐步了解时间序列分析的基础知识，以及如何用 Pandas 实现。文章目录 Toggle 1. 时间序列数据简介2. 设置日期为索引3. 数据重采样4. 插值方法5. 移动平均6. 季节性分解7. 时间序列滞后8. 自相关和偏自相关函数9. 差分操作10. 平稳性检验11. ARIMA 模型实战案例：…
安全运维
- 2
- 0
aqzt24年12月21日
可观测性（Observability）- 聚合度量

度量（Metrics）的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景：舰船的驾驶舱或者卫星发射中心的控制室，在整个房间最显眼的位置，布满整面墙壁的巨型屏幕里显示着一个个指示器、仪表板与统计图表，沉稳端坐中央的指挥官看着屏幕上闪烁变化的指标，果断决策，下达命令……如果以上场景被改成指挥官双手在键盘上飞舞，双眼紧盯着日志或者追踪系统，试图判断出系统工作是否正常。这光想像一下，都能感觉到一股…
安全运维
- 10
- 0
aqzt24年12月21日
故障复盘 – 为什么要复盘

复盘可以帮助我们避免犯同样的错误，固化流程、校验方向，认清问题背后的问题，发现和产生新的想法与知识。除了提升能力之外，它还对提升个人品性和组织性格有巨大作用。三思而后行，一个习惯复盘的个人和企业，品性会更加低调和踏实，避免浮躁和冒进带来的危害。为什么要复盘？这个问题更应该这么问：为什么不复盘？在某种程度上说，复盘是我们能够提高能力的唯一手段。它可以帮助我们避免犯同样的错误，固化流程、校验方向，认清…
安全运维
- 4
- 0
aqzt24年12月21日
【经典手册】常用SQL查询

sql是所有数据库查询的语言，sql由于本身结构化的特点，非常容易入手。针对不同的数据库，如hivesql、mysql、sqlserver、oracle等，sql语法会有所不同，但是总体上大同小异，只是细微处的差别。 SQL的学习方式非常多，在这里分享最捷径的一种：用7张图片搞定数据分析相关的SQL语句问题。具体分了七类讲解：基础查询字符串\数字\日期时间聚合数据查询子查询联接\组合查…
安全运维
- 6
- 0
aqzt24年12月21日
经验教训 – 软件工程没有银子弹,凡是可能出错的地方就一定会出错“24年了，终于有人发现curl的这个Bug了”

雷军每天都把卓越网的链接全部点击一遍，检查错误。作为软件工程师，雷军深知：软件工程没有银子弹，凡是可能出错的地方就一定会出错。 “24年了，终于有人发现curl的这个Bug了” 本文最初发布于 Daniel Stenberg 的个人博客。 curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具，用来请求 Web 服…
安全运维
- 5
- 0
aqzt24年12月21日
ITIL实践案例 – ITIL 实施的重点及难点案例分享

如何理解ITIL相关重要流程： ITIL 重点与难点案例：
安全运维
- 10
- 0
aqzt24年12月21日
实践案例 – 百分点大数据技术团队：万亿级大数据监控平台建设实践

随着互联网业务的迅速发展，用户对系统的要求也越来越高，而做好监控为系统保驾护航，能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目，完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控，沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术…
安全运维
- 9
- 0
aqzt24年12月21日
2023.12.3 腾讯视频崩了,会员没了?

“看到一半说会员没了，我昨天刚充的会员……” 12月3日晚，“腾讯视频崩了”和“腾讯会员没了”两个话题热搜爆了！有不少网友发微博称腾讯视频的会员突然没有了，想观看会员频道影片也无法观看。还有网友表示，腾讯视频崩了，会员都没了，网名也变成腾讯网友了。相关话题登上热搜后，引发了不少网友吐槽。“还以为我手机出问题了，又是重新登陆又是清理垃圾又是重启手机的，结果问题在腾讯这儿…
安全运维
- 87
- 0
aqzt24年12月21日
数字化运营基础技能 – 数据清洗实战:使用pandas清洗亚马逊电商销售数据

文章目录 Toggle 数据准备数据解释清洗过程1.将 Excel 转化成 Pkl 格式文件2.了解数据概况3.数据清洗的 3 个准则4.删除空值记录5.删除负值记录6.保存数据7.代码下载总结网站推荐数据源获取学习网站数据准备清洗的是一份亚马逊黑色星期五电商节的销售数据，数据保存在 Excel 文件中数据解释先来看一下表里面的前 10 行数据：数据示例以下是每个数据列的含义以及数据范…
安全运维
- 13
- 0
aqzt24年12月21日
工作中常用SQL语句实践

工作中我们基本上每天都要与数据库打交道，数据库的知识点呢也特别多，全部记住呢也是不可能的，实践一遍处理起来效率就更高 Student(S#,Sname,Sage,Ssex) 学生表 Course(C#,Cname,T#) 课程表 SC(S#,C#,score) 成绩表 Teacher(T#,Tname) 教师表问题： 1、查询“001”课程比“002”课程成绩高的所有学生的学号； select…
安全运维
- 0
- 0
aqzt24年12月21日
故障复盘 – 有效复盘常用五步法

这里跟大家分享极简复盘5步法。分别是1 回顾目标，2 评估结果，3 分析原因，4 总结经验，5 指导行动。如果你没有复盘的习惯，那么在一开始建议降低复盘的要求门槛，这样你更容易开始。所以我把每个步骤最核心要素总结出来，你只需要按照这个关键点进行梳理复盘即可。首先第1步：回顾目标，你需要把你的目标123写下来。然后第二步：评估结果你需要如实列出你每一项目标的完成情况，可以简单标记成完成或未完…
安全运维
- 10
- 0
aqzt24年12月21日
ITIL 服务管理框架,实践成功案例

1. IBM：IBM采用了ITIL框架来改进其IT服务管理流程，提高了服务交付效率和客户满意度。2. 英国政府：英国政府采用ITIL框架来统一和标准化其IT服务管理实践，提高了服务质量和效率。3. 西门子：西门子使用ITIL框架来优化其IT服务管理流程，提高了服务响应时间和问题解决能力。4. 谷歌：谷歌采用ITIL框架来管理其全球范围内的IT服务，确保高可用性和稳定性。5. 微软：微软使用ITIL…
安全运维
- 9
- 0
aqzt24年12月21日
经验教训 – 从10次宕机事件中，我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”

今年的灾难事件有几点是比较深刻体会：第 1 课：循环依赖会破坏你的运维工具流程工具与生产工具是结合一起，出问题往往是最不起眼功能环节，就是一棵螺丝钉第 2 课：愚蠢的自动化强依赖于流程工具与自动化工具，应急时缺少了走火通道第 3 课：现在是 2023年，数据库仍然很棘手灾难恢复后最耗时就是数据关系重建，数据完整性、一致性处理第 4 课：分阶段慢慢部署变更需要遵循最小灰度原则第 5 课：为…
安全运维
- 8
- 0
aqzt24年12月21日
【运维工具】Flink SQL 实践12 流 join 常用技巧

文章目录 Toggle 1.序篇2.背景及应用场景介绍3.先来一个实战案例4.flink sql join4.1.flink sql4.2.left join4.3.inner join4.4.right join4.5.full join4.6.regular join 的总结4.7.怎样才能解决 retract 导致数据重复下发到 kafka 这个问题呢？5.总结与展望2.背景及应用场景介绍3…
安全运维
- 17
- 0
aqzt24年12月21日
经验教训 – 3.29 #微信QQ出现功能异常#，冲上热搜，妥妥的第一

包括微信语音、账号登录、朋友圈，以及微信支付，都无法正常使用。有网友表示，电脑版微信大概是在早上10:00左右恢复登录，和小雷登录的时间相吻合。据腾讯的最新财报显示，微信及WECHAT月活数高达13.1亿，如此大用户量的产品出现故障无疑对大众生活工作带来了不少的影响。不过有一说一，大厂们服务器故障，似乎每年都得上演那么几次。轻微一些的，有像B站前阵子那样，视频短暂崩溃了半小时。严重点的，…
安全运维
- 17
- 0
aqzt24年12月21日
故障治理 – 全年配送0故障，盒马揭秘智能调度12个关键技术提高稳定性

文章目录 Toggle 一、稳定大于一切二、智能调度链路分析三、稳定性因素分析和实践1、DB依赖2、HSF依赖3、HSF服务提供4、tair依赖5、Metaq依赖6、精卫依赖7、DTS依赖8、开关9、监控10、灰度11、测试12、应急响应四、总结一、稳定大于一切盒马的线下作业稳定性要求极高，假如门店pos无法付款了，排起的支付长队伍能让人把门店闹翻，假如配送员无法揽收了，在家里预定的午餐材…
安全运维
- 13
- 0
aqzt24年12月21日
故障治理 – 企业变革与创新 | 亚马逊创新“永动机”七大教训

亚马逊高管发布新书解析亚马逊企业变革与创新。第一个教训：创新，要慢慢来；第二个教训：从用户需求出发；第三个教训：不要将创新当成兼职，第四个教训：记住书名，逆向工作方法；第五个教训：好意图不可靠，机制才是可靠的；第六个教训，优秀的运营会深入细节；第七个教训，深入细节不等于事无巨细地控制管理。企业变革与创新应该如何实现？文章目录 Toggle 1 企业变革与创新，要慢慢来2 从用户需要什么出发，而…
安全运维
- 9
- 0
aqzt24年12月21日
SRE工具链建设实践：一夜颠覆60%旧体系，腾讯的SRE运维转型实践（2）

一、前言之前在《云原生背景下的运维价值思考与实践(上)》里，重点介绍了云原生背景下运维转型的思考，围绕着整个 DevOps 交付链，贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段，通过我们的构建服务稳定性保障实践，利用 SRE 的思想与方法，不断去冲刺稳定性的终极目标：“提升 MTBF（平均故障时间间隔）、降低 MTTR（故障平均修复时间）”，很多小伙伴会有疑问，D…
安全运维
- 25
- 0
aqzt24年12月21日
PYTHON基础技能 – Python进程管理的15大实战策略

文章目录 Toggle 1. 理解进程与多进程2. 使用multiprocessing模块创建子进程3. 进程池管理4. 进程间通信：队列5. 锁与同步6. 管道通信7. 使用subprocess模块8. 进程监控与管理9. 进程优先级调整10. 异常处理与日志记录11. 并发模型的选择：进程 vs. 线程 vs. 协程12. 利用concurrent.futures简化多进程编程13. 进程死锁…
安全运维
- 9
- 0
aqzt24年12月21日
稳定性保障 – 故障应急体系构建及应用实践（1）

蚂蚁集团SRE技术专家刘凯宁在演讲中介绍了蚂蚁故障应急全流程体系，包括故障体系、应急体系、故障全生命周期及AI助力等方面，为保障线上系统稳定提供了全面的解决方案。 1. 蚂蚁故障体系 – 故障定义与等级：故障指服务中断、品质下降或用户体验受影响的情况，不包括用户方环境或自身操作问题。故障等级衡量影响度，数字越小级别越高，涵盖客诉量、资损金额等，由业务等相关方定义并定期更新。 ̵…
安全运维
- 13
- 0
aqzt24年12月21日
PYTHON基础技能 – 使用Python进行异常处理的11个最佳实践

异常处理是编程中不可或缺的一部分，它能够帮助开发者优雅地处理程序运行过程中可能出现的各种错误，从而避免程序崩溃。Python 提供了丰富的异常处理机制，使得开发者可以更灵活地应对不同的异常情况。本文将详细介绍 Python 中异常处理的基本概念与高级用法，包括如何使用 try-except 结构、捕获特定异常、使用 finally 释放资源、抛出自定义异常、同时捕获多种异常、使用 else 块、使…
安全运维
- 3
- 0
aqzt24年12月21日
PYTHON基础技能 – 设计Python函数参数的19个高级指南

今天我们将深入探讨如何设计Python函数的参数，让你的代码更加灵活、高效和易用。我们会从基础开始，逐步引入更高级的概念和技术，确保你能够全面掌握这些技巧。使用默认参数值理论知识：默认参数值允许你在调用函数时省略某些参数。这使得函数更加灵活，用户可以根据需要选择是否传递这些参数。示例代码： def greet(name, greeting=”Hello”):return…
安全运维
- 7
- 0
aqzt24年12月21日