运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

释放双眼,带上耳机,听听看~!

尚梦宸,中国信息通信研究院云计算与大数据研究所审计与治理部工程师。

一、构建新时代“大运维”体系

什么是“大运维”体系?它是运维发展过程中的一个阶段。在初始阶段,运维主要是辅助研发,运维方式主要是以手工为主,同时需要人工不断维护 更新。

随着数字技术发展及信息化的快速全面突破,研发侧逐渐向运维侧偏移,出现了自动化运维及研发与运维的协同,也即我们说的 DevOps。

DevOps 更多关注的是研发和运维相互平衡、快速部署、快速交付等方式。再往后发展,可能更偏向于系统稳定性要求,就到了 SRE 大运维阶段,要求系统具备可靠性、可维护性及可拓展性的运维要求,运维目标也不断地向系统稳定性迁移。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

在新时代下,需要结合需求、设计、开发、测试以及运维五个阶段共同构建大运维体系,它的目标是稳定、高效、精细、安全四个方向。通过运维目标管理、组织管理、团队管理、服务能力、工具能力组成大运维的基础保障。

四大工程实践:通过稳定性保障、高效运维、精细化运维及安全运维去共同构建大运维体系。在新时代大运维阶段,需要从需求、设计、开发测试阶段共同去承担责任,叫做责任共担。

二、系统可靠性与连续性实践

近年来,国内外频繁出现系统稳定性事件,例如21年美联储、Twitter、fastly、B站等均发生过宕机事件。这些事情的频繁性发生表明,国内外对于系统稳定性的关注程度与日俱增。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

2021年4月,国务院第133次常务会议通过了《关键信息基础设施安全保护条例》,于21年9月1号正式开始实行。政策要求运营者应该保障关键信息的基础设施安全稳定性运行。从国家层面更加关注和重视性能稳定性的工作。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

随着信息系统规模能力升级及业务不断扩大,信息技术行业和科技密集型行业对系统稳定性要求也逐渐提高。

中国信通院在 21 年开展了稳定性相关的标准研究工作,将我们的技术经验结合业内的专家实践,最终形成了《研发运营系统可靠性与连续性工程(SRE)》标准。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

实际上,系统稳定不是绝对的,我们更多是从稳定性保障角度去考察系统稳定的能力。因此,在全新框架升级时,我们将稳定性的内容分为了 研发过程和 技术运营两部分。从研发过程来看,分为设计与开发、质量保障、部署发布三个阶段。技术运营更多是从故障发生的前、中、后三个阶段及后面的优化改进做全方位的考量。

从 21 年开始,我们围绕系统稳定性做了相关研究工作,包括编制《混沌工程实践指南》《信息系统稳定性保障能力建设指南》,从研究性角度帮大家整理了一套系统稳定性保障能力建设的路径,希望通过这种方式给大家提供稳定性保障的一些思路。

研发过程可靠性与连续性保障能力

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

从研发侧主要关注设计与开发、质量保障、部署发布等方面。

  • 设计与开发 :主要是稳定性准入与架构设计评审。稳定性准入是指从生产评估阶段就从指标体系容量规划、性能度量等角度提前介入,建设更加完备的保障系统;架构设计评审从架构的层面系统的高可用容灾能力及弹性能力等做评估。
  • 质量保障:主要从测试和代码质量等方面来考察。比如研发阶段的单元测试、集成测试及功能测试等内容;还有对代码的审查,确保代码质量的稳定性。
  • 部署发布:主要是通过发布策略、过程、质量及变更管理等方面,发布频率、发布要求,还有自动化工具的流程进行软件系统的部署以减少人为的干预、部署活动的成功率要求,变更管理方面的具体内容,去共同考虑整个研发系统稳定性。

技术运营过程可靠性与连续性保障能力

技术运营侧主要是从故障预防、故障观测、故障处置、优化改进等方面来建设。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

  • 故障预防:主要是故障的前、中、后三个阶段。前期主要从健康巡检、性能容量、混沌工程等方式。性能容量主要是基于 FinOps 资源运营的理念提前做好 IT 容量的规划,减少因性能容量产生的问题。
  • 故障观测:主要通过对运维数据的治理,比如运用可观测能力,对指标、日志、链路等运营数据做关联分析及通过智能运维做告警管控,告警收敛包括风暴管控等内容。
  • 故障处置:主要是对故障的发现及时响应和处置、故障快速定位和止损恢复的能力。
  • 优化改进:主要是对故障事后的复盘以及在稳态的运营方面能力的要求。

研发运营系统稳定性工程总体指标

系统稳定性工程的总体指标分别是可用性、可靠性、可拓展性和可维护性,通过这四个方面来评估系统稳定性达到的一个程度,包括 SLO、运维效能等,去评价系统稳定性工程建设的情况。

三、可观测性能力实践

可观测性最初的概念并不十分清晰,但官方解释指系统内部的状态、行为和性能可被可靠的观测、分析和监控,具有良好的系统稳定性,可以让管理员快速地发现和定位解决问题,提高系统的可用性和稳定性。

从时间线来看,2016 年,谷歌 SRE 提到可观测性的核心价值就是对故障的快速排除。2017 年,Peter Bourgon 发布 《Metrics, Tracing, and Logging》系统地阐述了这三者的定义与特征。

2019年,OpenTelemetry 开源可观测能力框架由 CNCF 成功孵化,使快速部署可观测能力成为现实。

Gartner 预测,到 2024 年,将有 30% 的企业通过可观测技术来提升数字化业务的运行能力,相比 2020 年提升了3倍,2023年,全球可观测市场规模预计将达到164.94亿美元。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

可观测性、监控和智能运维

可观测性早期更多是从监控出发,监控更多是从已发生的事件做快速响应和表现,而可观测性更多则是通过系统内部状态以及如何快速找到故障原因的角度全面地展现系统的状态,监控是知其然,可观测性是知其所以然。

而 AIOps 是在可观测性之前的阶段,AIOps 通过智能化技术赋能运维数据分析,在可观测性的基础上打通了多种数据类型及数据源的接入。通过可观性的加持,可以对智能运维效果有更进一步的提升,可观测性与智能运维可以形成一个强相关的关系。

可观测性能力实践路径

综观可观测性的发展,它的实践路径也分为以下几个方向:

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

  • 第一,对数据源的监控,最早做的监控在最上面这一层,数据源可能来源于系统中间的各个部分,包括应用程序、中间件、网络设备、服务器等一些内容。
  • 第二,数据管理层,包括数据采集、存储、传输、处理。通过对上面数据的建设,供后面进一步的分析做一些基础的管理。
  • 第三,数据观测,是通过对以前数据标准化处理,形成数据建模、数据多维度分析以及拓扑结构,通过复杂的报表在数据层面做一些关联。
  • 第四,观测场景,是可观测性的关键。可观测性更多是从业务视角出发,比如基础设施、容器性能、用户体验、业务性能这几个维度去共同考察。

依照前面几个层级去设计了《智能化运维(AIOps)能力成熟度模型 第3部分:可观测性能力要求》标准。从数据源出发,可观测性的三大指标,包括指标、链路以及日志三大块的内容。它是数据的来源,对数据的采集传输,包括数据存储、数据处理以及数据管理,它更多的是对数据层的关联和打通。在数据层之上形成了数据的观测能力,同时结合 AlOps 最终关注的是上面的业务场景。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

可观测性能力要求

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

四、智能化运维能力成熟度系列标准介绍

近年来国家发布的政策,旨在鼓励企业提升智能化运维,实现运营方面的智能化升级。通过支撑,近年来国内的 AIOps 产业是多点开花,包括互联网、金融、技术和厂商都涌现了不错的实践。

通过对行业的观察,AIOps 目前已从早期停留在监控可视化分析统计逐渐向事件预测阶段发展,通过 AlOps 智能运维的决策指导赋能运维能力,提高运维整体效能。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

AIOps 建设价值与成效

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

通过评估与企业交流的情况来看,企业在应用 AIOps 之后效率都有较大的提升。比如通信行业用户投诉工单场景,通过 AIOps 系统提前发现故障,快速故障定位以及提升运维的质量。金融行业提升日常的自动化方式;互联网行业应用 AIOps 之后服务效率提升超过了70%,运营成本效率降低,提升整体的用户体验。

AIOps 发展趋势与挑战

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

2022年调查报告显示,现在落地 AlOps 已经非常受到领导层的重视,更多的困难都是在建设中产生,比如新场景建设周期长、数据集成与标准化程度成本高等,这也说明了国内企业不断地去做 AIOps 实践和尝试,企业也是不断在运维的场景对现有阶段 AIOps 做优化。

目前,智能化运维成熟度系列标准已经拓展到 4 个部分,发布了2个部分。一是通用能力要求,这部分的标准主要是面向企业内部 AIOps 整体能力建设。通过整体 1- 5 级的能力成熟度,给大家做一个 AIOps 能力建设的指引。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

第二部分是 AIOps 系统和工具要求,这方面主要关注的是 AlOps 工具具备的基础功能和高级功能,分为三个级别:全面级、优秀级和卓越级。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

2021年7月,由中国信通院牵头,首个智能运维(AlOps)国际标准在 ITU-T SG13 组正式立项,希望通过国际标准去加强国际方面的交流合作,持续推动 AlOps 相关产业的健康发展。

AIOps 现状调查报告今年于4月底正式启动。去年近 60 多家单位参与调查报告,欢迎大家积极参与线上调查,加入编写《中国互联网发展报告(2022) 》—第16章“中国智能运维发展状况”。同时举办了一些 AIOps 线下沙龙。

信通院每年固定的两场大会,XOps产业生态峰会与GOLF+IT新治理领导力论坛,我们定期举办的赋能计划-XOps产业生态先导沙龙,参与我们的相关的AIOps 的生态产业的活动。

运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)

通过 AIOps 评估去以评促改、以评促建,可以通过评估去发现 AIOps 建设存在的优化改进空间,通过评估工作去宣传现在优秀的实践经验,标准评估的角度去发现比较难解决的问题,推动优化。

希望 AIOps 建设得到重视和推进,引起高层重视,提升智能运维影响力,推动、打通各部门间协同,借鉴同行业/跨行业先进实践,培养与提升运维人员专业能力。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

安全运维之道:发现、解决问题的有效闭环

2024-4-14 20:59:36

安全运维

稳定性建设 – 架构优化的关键策略

2025-2-11 17:15:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索