稳定性建设 – 架构优化的关键策略

释放双眼,带上耳机,听听看~!

SRE实战中稳定性保障与架构优化的关键策略。讲师首先分析了SRE当前遇到的困境,提出了三个核心策略:采集更丰富的数据、积累更丰富的经验以及从劣化场景中逐步消灭风险。

接着,讲师介绍了经验库的概念,它是一种用来积累和产品化经验的模块,具有查打一体的特点,能够实时诊断性能容量问题。通过数据、基因库和量化策略,识别并解决技术风险。

案例中,优化部署架构,使用70%的硬件支撑高流量,消除高峰时段超时。另一个案例中,快速发现并优化业务和技术架构,两周内完成。通过分析一个银行的案例和一个新能源企业的案例,展示了系统响应时间的优化和故障频发的解决方法。

在新能源汽车应用中,通过识别和评估风险,成功将系统响应时间从600ms降低到239ms。具体策略包括优化缓存响应时间、解决消息容量不足问题以及合理分配资源。通过这些措施,用户体验提升,系统响应时间降低,集群容量提升,成功度过了五一高峰期。

稳定性建设 – 架构优化的关键策略

00:01 – 分享者介绍自己的经验和背景
01:20 – 介绍TTP社区和分享者将要分享的内容
02:57 – 强调需要平衡系统稳定性和业务发展,不能只关注故障处理
二、稳定性和架构优化的一些核心策略,包括采集更丰富的数据、积累更丰富的经验和从劣化的产业链上不断去消化风险。

06:56 – SR1同学处理类似问题,消耗很多精力
08:23 – 公司在风险管理上成本太高,只能解决紧急问题
09:21 – 稳定性保障与架构优化的策略,包括采集数据、积累经验、消化风险

三、如何利用数据和基因库优化技术架构、部署架构和业务架构,以及如何通过劣化场景的治理来解决技术风险。

13:50 – 数据库大表会影响整个库的稳定性,需要使用数据类型进行判断。
15:12 – 通过数据库表的读写比例和列数等数据维度,判断是否属于配置类数据。
16:54 – 通过记录数据采集要求,快速识别缺少的数据,提高数据丰富度和效率。
四、两个案例。在第一个案例中,通过数据基因库快速发现并优化了业务架构和技术架构,提高了系统的响应速度。在第二个案例中,通过评估风险的影响,确定了优先级较高的风险。

20:45 – 优化业务架构和技术架构,提高系统速度
21:56 – 系统高负荷运行,容易出现问题,需要保障系统稳定性
26:16 – 评估风险影响,确定优先级,保障系统稳定性
五、两个案例,分别是缓存响应时间超标和消息容量不足。通过数据和经验库的积累,以及量化的场景,可以优化部署架构和降低稳定性风险。
27:38 – 缓存响应时间超标和消息容量不足是关键问题
28:38 – 公司购买的机器和资源不足以支持多可用区架构
30:56 – 通过调整JVM参数、消息存储时间和云部署架构等措施,提高了系统响应时间和稳定性

给TA打赏
共{{data.count}}人
人已打赏
安全运维

中国数据智能产业研究

2024-12-21 17:15:56

安全运维

某公司安全审计项目实施方案

2025-2-20 21:31:10

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索