-
故障治理 – 全年配送0故障,盒马揭秘智能调度12个关键技术提高稳定性
文章目录 Toggle 一 、稳定大于一切二、智能调度链路分析三、稳定性因素分析和实践1、DB依赖2、HSF依赖3、HSF服务提供4、tair依赖5、Metaq依赖6、精卫依赖7、DTS依赖8、开关9、监控10、灰度11、测试12、应急响应四、总结 一 、稳定大于一切 盒马的线下作业稳定性要求极高,假如门店pos无法付款了,排起的支付长队伍能让人把门店闹翻,假如配送员无法揽收了,在家里预定的午餐材…- 2
- 0
-
经验教训 – 2015.09.20 从Amazon最新云停机事故中学到的三个教训(亚马逊云宕机事件)
Amazon刚刚经历的云服务停机事故引发业界对云技术的又一番争论。 就在上周日上午时段,Amazon Web Services数据中心遭遇一起相当严重的意外事故。 美国东部时间清晨六点,该公司负责承载AWS东弗吉尼亚区域负载的名为DynamoDB的大规模NoSQL数据库发生使用率暴涨状况——顺带一提,东弗吉尼亚州区域为该公司历史最悠久、规模***的九个全球性区域之一。到当日上午七点五十二分,AWS…- 1
- 0
-
PYTHON基础技能 – Python中利用正则表达式的16个常见任务
文章目录 Toggle 1. 正则表达式是什么?2. 安装与导入3. 字符匹配4. 范围匹配5. 排除字符6. 字符集组合7. 位置锚定8. 分组与引用9. 非捕获组10. 替换文本11. 贪婪与非贪婪匹配12. 条件分支13. 重复限定符14. 特殊字符15. 边界限定符16. 标志位实战案例分析 1. 正则表达式是什么? 正则表达式是一种用于匹配字符串的语言。它由一系列字符和特殊符号组成,用来…- 3
- 0
-
PYTHON基础技能 – Python自动化办公的14个实用脚本
文章目录 Toggle 引言1. 文本文件批量重命名2. Excel数据清洗3. PDF合并器4. 图片压缩工具5. 文本内容替换6. 数据抓取与解析7. 数据导出到CSV8. 邮件自动发送9. 文件夹监控与同步10. 数据库操作11. 日志记录12. 数据可视化13. PDF拆分器14. 实战案例:自动化报表生成 引言 在日常工作中,重复性的任务不仅耗时,还容易出错。Python凭借其简洁易学的…- 3
- 0
-
系统稳定性保障 – 哪儿网故障演练实践经验
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的开发。今天的分享主要分为以下三个部分: 一、背景&价值 如图所示,左边是近期发生的一件影响较大的事故:Facebook服务宕机。持续时长约7小时,造成了次日超过60亿美金的市值下跌,损失数额巨大。右边所展示的则是我们公司中某个业务线的服务调用关系。可以看到,整个链路非常复杂,如果其中某个链路…- 2
- 0
-
系统稳定性保障 – 事件激励与约束 故障分计算思路
“阿里稳定分”不是一个官方术语,但我们可以基于阿里云对服务稳定性的重视和实践,构想一个类似的评估体系。阿里云对于服务稳定性的评估通常会涉及多个维度,包括但不限于可用性、性能、容灾能力、故障恢复速度、监控与预警能力等。以下是一个基于这些维度的“阿里稳定分”评估标准和计算的构想,以及一个实践案例的详细说明。 文章目录 Toggle 评估标准计算方法实践案例计算“阿里稳定分”注意事项故障评估框架计算公式…- 8
- 0
-
运维工具 – 异常数据分析实践,10+个数据分析必会的数据模型
给大家整理了20种常用的分析模型 【注】资料、数据、代码、交流,文末获取。 文章目录 Toggle 1、5W2H分析2、3W黄金圈法则3、金字塔原理4、PEST5、SCQA模型6、RFM模型7、AARRR模型8、KANO模型9、波士顿矩阵10、A/B测试11、SWOT分析12、STP13、4P营销理论14、马斯洛需求层次理论15、波特五力竞争模型16、数据分析六步法17、PDCA循环18、AISA…- 1
- 0
-
运维工具 – 快手基于 Flink 构建实时数仓场景化实践(监控实施思路)
本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快手基于 Flink 构建实时数仓场景化实践》,内容包括: 快手实时计算场景快手实时数仓架构及保障措施快手场景问题及解决方案未来规划 GitHub 地址https://github.com/apache/flink欢迎大家给 Flink 点赞送 star~ 文章目录 Toggle 一、快手实时计算场景…- 2
- 0
-
经验教训 – 2021.07.13 B站宕机事故,我们是这样崩的
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 22:55 远程…- 3
- 0
-
故障最佳实践经验 – 一个简单代码错拼、误删 17 个生产级数据库,宕机10小时
微软 Azure DevOps 是一套应用程序生命周期服务,提供了从代码管理到持续集成、持续交付、测试、监控等一系列功能。然而,就在 5 月 24 日,这个服务在巴西南部区域发生了长达 10 小时的宕机,影响了数千名客户。事后调查发现,竟然是因为一个简单的拼写错误,导致了 17 个生产数据库被误删。 事件背景起源于,Azure DevOps 工程师有时需要对生产数据库的快照进行保存,以调查报告的问…- 2
- 0
-
人工智能 – 摘录互联网TOP10好用AI办公软件盘点
当今社会,人工智能技术的快速发展正在改变着我们的生活方式。在办公场景中,人工智能技术也被广泛应用。越来越多的AI办公软件涌现出来,为我们提供了更加高效便捷的工作方式。从智能办公到自动化流程,这些AI办公软件正在以惊人的速度改变着我们的办公方式。 在本文中,我们将盘点多款AI办公软件,探索它们的特点和优势,带你领略AI办公的魅力。 本文提及的 AI办公软件列表:ChatGPT、boardmix AI…- 10
- 0
-
Flink SQL – 在快手的扩展和实践
Flink SQL 在快手 功能扩展 性能优化 稳定性提升 未来展望 FFA 2021 直播回放 & 演讲 PDF 下载 文章目录 Toggle 一、Flink SQL 在快手二、功能扩展2.1 Group Window Aggregate 扩展2.1.1 支持多维分析2.1.2 引入高阶窗口函数2.2 Window Table-valued Function 扩展2.2.1 丰富 Win…- 3
- 0
-
IT服务管理 – ITIL培训- 变更管理规范与原则
70%+生产故障都来源于变更、发布,生产环境离不开它,效率与质量如何平衡就需要流程与工具相结合进行严格管控;有效的业务监控与业务验收能降低60%+故障 变更管理活动 变更管理活动 – 记录变更单 变更管理活动 – 处理人接收 变更管理活动 – 变更定义风险等级 变更管理活动 – 变更审核 变更管理活动 – 变更通知 变更管理活动 R…- 1
- 0
-
【运维工具】 Flink SQL 使用 union 代替 join、cogroup 经验
文章目录 Toggle 需求场景分析需求场景source 输入以及特点sink 输出以及特点source、sink 样例数据实现方案cogroup上述实现可能会存在的问题点逆推链路union总结 需求场景分析 需求场景 需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至…- 0
- 0
-
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训
文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发,尤其是后端研发,每年在618或者双11的时候压力特别大,他们祈求服务不要出故障,交易能正常进行,而且期望用户体验非常棒而不是卡顿404等。 但是有时候就是事与愿违,比如在2015年11月11日傍晚,大部分用户反馈购物失败的情况,负责双…- 3
- 0
-
混沌工程与SRE的结合(中国移动)
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混…- 2
- 0
-
PYTHON基础技能 – Python高手不可不知的12个文件处理窍门
文章目录 Toggle 引言1. 打开文件的基础方法2. 使用 with 语句自动管理文件3. 逐行读取文件4. 写入文件5. 追加内容到文件6. 读取二进制文件7. 使用 os 模块检查文件是否存在8. 重命名文件9. 删除文件10. 列出目录下的所有文件11. 处理 CSV 文件读取 CSV 文件写入 CSV 文件12. 使用 pandas 处理 CSV 文件读取 CSV 文件写入 CSV 文…- 1
- 0
-
系统稳定性保障 – 货拉拉微服务架构故障演练实践
文章目录 Toggle 一、背景二、体系全览三、工具体系故障演练平台架构故障演练能力全景控制爆炸半径演练自动化四、管理体系故障演练类型故障演练流程五、运营体系运营数据六、未来展望 一、背景 随着货拉拉微服务架构、容器化技术广泛使用,软件架构的复杂度在不断提升,由服务之间的依赖所带来的不确定性也呈指数级增长。在这样的依赖网中,任何一环出现非预期或者异常的变化,都可能对其他服务造成非常大的影响。因此,…- 6
- 0
-
故障复盘 – 复盘工具 多视角复盘法
这种方法鼓励团队成员从多个角度(如管理者、执行者、客户、竞争对手等视角)去审视同一个事件。 管理者视角:关注总体战略执行、资源配置、团队协调等方面的得失。 执行者视角:聚焦具体操作层面的问题,改进工作流程和技术能力。 客户视角:深入了解客户需求和体验,优化产品和服务。 竞争对手视角:借鉴对手的优点,规避缺点,寻求竞争优势。 文章目录 Toggle 案例1:用户购物车功能异常案例2:退款流程繁琐,用…- 2
- 0
-
2015.05.28 事件回顾,深入解析和反思携程宕机事件
携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈网友的看法 携程微博:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面…- 5
- 0
-
IT服务治理 – 腾讯运维的 AI 实践思路指引
讲师简介 张戎 机器学习研究员社交网络运营部 我是一个做机器学习的人,目前接触运维的时间并不长,大约半年左右。 主要做社交网络的运维、监控和异常检测方面的工作。本文将按照下面四大块内容分享。 1. 时间序列异常检测 监控领域做运维,最基础的是时间序列的异常检测。如果是基于机器学习的智能运维,主要分三个场景: 第一步是发现问题,如果我们无法发现问题就无法定位问题、甚至解决问题。 既然提到发现问题,最…- 2
- 0
-
实践案例 – 百分点大数据技术团队:万亿级大数据监控平台建设实践 
随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。 本文主要从监控系统整体设计和技术…- 1
- 0
-
故障最佳实践经验 – 微软 Azure 澳洲数据中心宕机超 24 小时!值得思考自动化、智能化等工具失效后运维人员是否还依然能管控好生产风险
宕机时时有,但持续 24 小时以上的却并不多见。 近日,位于澳大利亚悉尼的微软 Azure 服务突发中断,导致用户在超过 24 小时内无法访问 Azure、Microsoft 365 和 Power Platform 服务。而后微软针对此次事故发布了一份初步分析报告,引发众人关注。 这份报告将原因归咎于“电力骤降导致一个可用区内的一个数据中心的部分冷却装置处于脱机状态”。由于冷却装置无法正常工作,…- 9
- 0
-
实践案例 – 预案管理 故障预案6板斧
故障处理trouble shooting是每个SRE要做的日常,特别是处在快速成长期的大型互联网系统,模块多、变更多、访问量大、用户环境复杂,不就是这坏就是那坏,SRE就像一个医师,需要在故障时协同研发动各种手术去修复系统,常用的修复的方法一般会提前梳理准备好,我们称作预案。 经过无数次的故障处理,发觉是有一些不变的套路的,每次故障处理基本都是围绕这几个套路在做排列组合,其中最常用的6个,我把他总…- 3
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!