全部标签

运维

SRE 到底是什么

SRE 到底是什么？这是一个最早由 Google 提出的概念，我的理解是，用软件解决运维问题。标准化，自动化，可扩展，高可用是主要的工作内容。这个岗位被提出的时候，想解决的问题是打破开发人员想要快速迭代，与运维人员想要保持稳定，拒绝频繁更新之间的矛盾。 SRE 目前对于招聘来说还是比较困难。一方面，这个岗位需要一定的经验，而应届生一般来说不会有运维复杂软件的经历；另一方面就是很多人依然以为这就是“…
安全运维
- 1
- 0
aqzt24年12月21日
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践

文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统（ATTA）04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…
安全运维
- 26
- 0
aqzt24年12月21日
经验教训 – 生产环境血的教训最佳实践

SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验教训1：变更实施 – 变更要优先考虑灰度原则，有助于降低生产影响教训2：变更实施 – 生产回滚异常要马上处理，保持服务器的生产服务状态教训3：变更验证 – 灰度期间必须确认监控/告警后才能继续下一批，避免事件产生影响更大教训4：变更验证 – 变更完成需从业务维度进行验收教训5：…
安全运维
- 1
- 0
aqzt24年12月21日
故障复盘 – 2023.11.12 阿里云的史诗级故障，从这故障中我们能学到什么

时隔一年阿里云又出大故障，并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例，以及，能从中学习到什么经验与教训？文章目录 Toggle 事实是什么？原因是什么？影响是什么？评论与观点？能学到什么？事实是什么？ 11月12日，也就是双十一后的第一天，阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页，全球范围内所有可用区 x 所有服…
安全运维
- 2
- 0
aqzt24年12月21日
Flink SQL 实践 – sql 基本手册

文章目录 Toggle Flink SQL 数据类型 # Flink SQL 本页面描述了 Flink 所支持的 SQL 语言，包括数据定义语言（Data Definition Language，DDL）、数据操纵语言（Data Manipulation Language，DML）以及查询语言。Flink 对 SQL 的支持基于实现了 SQL 标准的 Apache …
安全运维
- 1
- 0
aqzt24年12月21日
IT 故障治理 – 运维救火必备：问题排查与系统优化手册（结合教训现身说法）

软件工程领域存在一个共识：维护代码所花费的时间要远多于写代码。而整个代码维护过程中，最惊心动魄与扣人心弦的部分，莫过于问题排查（Trouble-shooting）了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们，大大小小的问题排查线上救火早已成为家常便饭，一不小心可能就吃成了自助餐 —— 竖着进躺着出，吃不了也兜不住。本文分享作者在服务端问题排查方面的一些经验，…
安全运维
- 3
- 0
aqzt24年12月21日
第一个运维工程师

一天，玛丽的儿子劳伦在摆弄 MIT 。当她在键盘上乱按的时候，一条错误信息突然出现。劳伦不知怎地启动了一个叫做 P01 的预运行程序，原本正在飞行状态的模拟器一下子崩溃了。虽然一般来说宇航员不会犯这样的错，但玛格丽特还是想加一段代码防止这种状况的发生。这一提议被 NASA 否决，「他们一遍又一遍地跟我说宇航员不会犯任何错误，他们被训练得近乎完美，」玛格丽特说。她转而加了一句程序说明，所有 NAS…
安全运维
- 0
- 0
aqzt24年12月21日
2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习

Facebook大故障原因：一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统、以及严密的数据中心安全 Facebook故障是一系列不幸的事件酿成的！一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全，所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示，周一故障的根本原因是例行维护工作出…
安全运维
- 3
- 0
aqzt24年12月21日
IT运维治理 – 美团点评数据库智能运维探索与实践

讲师介绍：赵应钢，曾就职于百度、新浪、去哪儿网等，10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员，DBA团队(北京)负责人，负责MySQL、KV服务的平台建设和技术保障工作。演讲大纲： ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要：传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…
安全运维
- 8
- 0
aqzt24年12月21日
经验教训 – 2020.10.16 微盟宕机8天，赔偿1.5亿！电商技术专家，总结6条经验

微盟经历了8天的至暗时刻，数据修复工作终于有了进展，并于3月1日对外发布公告：截止到3月1日晚8点，在腾讯云团队协助下，经过7*24小时的努力，我们数据已经全面找回，由于此次数据量规模非常大，为了保证数据一致性和线上体验，我们将于3月2日凌晨2点进行系统上线演练，将于3月3日上午9点数据恢复正式上线。此次事故给商家经营造成了严重的影响，公司管理层对此深感自责和愧疚，我们准备了1.5亿元人民币赔…
安全运维
- 2
- 0
aqzt24年12月21日
运维工具 – 阿里超大规模 Flink 集群运维实践（实时监控必备工具之一）

一、演进历史和运维挑战阿里的实时计算经历了近 10 年的快速发展，总体来说可以分成三大时代： 1.0 时代：2013 年到 2017 年，三大实时计算引擎并存。大家熟悉的 Jstorm 和 Blink 当时都还叫做流式计算。 2.0 时代：2017 年集团合并了三大实时计算引擎，Blink 凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎，实现了大一统。在接下来的 4 年里，集团所有实时计算业…
安全运维
- 5
- 0
aqzt24年12月21日
监控治理 – 监控报警优化经验总结

当一个中大型互联网公司，每天由监控系统发出大量报警，而故障却始终无法及时发现的时候，如何能够快速找到问题的根源，如何改进，以及如何度量改进的效果，这一系列的问题就会摆在我们面前，本文基于作者在多家公司的监控治理经验，从评价体系角度出发，整理了十多个相关的指标，从而能够对监控系统以及各个业务线进行有效度量。评价体系分为三类第一类是效果指标，用于概要性说明监控治理的结果，通过召回率和发现时长来进行…
安全运维
- 2
- 0
aqzt24年12月21日
经验教训 – 2015.09.20 从Amazon最新云停机事故中学到的三个教训（亚马逊云宕机事件）

Amazon刚刚经历的云服务停机事故引发业界对云技术的又一番争论。就在上周日上午时段，Amazon Web Services数据中心遭遇一起相当严重的意外事故。美国东部时间清晨六点，该公司负责承载AWS东弗吉尼亚区域负载的名为DynamoDB的大规模NoSQL数据库发生使用率暴涨状况——顺带一提，东弗吉尼亚州区域为该公司历史最悠久、规模***的九个全球性区域之一。到当日上午七点五十二分，AWS…
安全运维
- 1
- 0
aqzt24年12月21日
盒马新零售运维保障解决方案

今天我带来的是“新零售运维保障解决方案”，内容包括三方面，新零售的现状以及它的挑战、运维保障体系以及未来的发展和方向。 1. 新零售的现状及运维挑战大家有没有听过“盒区房”？现在新零售其中一个比较典型的业务就是盒马鲜生。继我们曾经“学区房”的概念之后现在已经出现了“盒区房”的概念，即围绕着盒马鲜生 3 公里内的配送范围区域被称作“盒区房”。现在像盒马鲜生这样的新零售模式越来越火，而早在 20…
安全运维
- 1
- 0
aqzt24年12月21日
2015.5·27支付宝大规模宕机事故反思学习

事故背景支付宝拥有超过4万亿年交易总额，是中国第一大第三方交易平台，约占中国整体社会消费金额的六分之一。2014年年11月，就有用户反映，支付宝钱包目前无法转账和提现，当用户使用这两项功能时会提示出现未知错误或创建交易失败，该问题在移动客户端以及电脑网页端均存在。事故经过2015年5月27日下午4点半左右，陆续有多个地区网友反映，支付宝出现网络故障，账号无法登录或转账。打开余额宝后，不能显示余额…
安全运维
- 6
- 0
aqzt24年12月21日
故障治理 – 运行无间：阿里巴巴运维保障体系的一种最佳实践

阿里巴巴全球运行指挥中心，GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE，我们相当于阿里巴巴的SRE。今天我的分享分为四个部分： 1、稳定性现状及挑战 2、运维…
安全运维
- 30
- 0
aqzt24年12月21日
稳定性的灯塔：腾讯 SRE 质量运营体系建设实践

本文将从整体角度出发，探讨腾讯 SRE 质量运营体系是如何构建和实践的，以及建设过程中经验和思考，并进行总结和展望。 01 行业背景稳定性建设是一件很让大家头疼事情，就像我刚开始入职做 SRE 时一样，面对稳定性建设总是觉得无从下手。Google 的 SRE 提供了一些指导方向，Google SRE 这本书的核心是引导大家如何科学地进行稳定性建设。在此基础上，我们决定在腾讯大规模采用基于 SLO…
安全运维
- 2
- 0
aqzt24年12月21日
IT服务管理:告警治理 – 京东基于Zabbix告警治理优化实践

大规模Zabbix万台应用监控场景下，针对告警、可靠性工程实践经验；通过Zabbix二次开发，集成运维平台、工单、值班、自愈系统，通告警服务化、数据化，为业务保驾护航，保障稳定性工程落地。京东集团是一家定位于以技术为本，业务为基，多场景的高增长型互联网公司。我们的运营团队隶属于京东集团的信息化部门，负责对内对外各BG、BU和相关子公司提供园区分支应用系统基础设施等IT解决方案。1SRE与告警的关…
安全运维
- 2
- 0
aqzt24年12月21日
故障治理 – 京东科技之全链路故障诊断-智能运维实践

讲师介绍张静，京东科技智能运维算法高级经理。硕士毕业于东北大学，持续深耕智能运维领域多年，带领团队致力于京东智能运维算法迭代，把智能算法能力落地京东线上横向业务场景，算法在监控、数据库、网络、资源调度等多个纵向场景取得突破，提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文，申请智能运维发明专利50余项，IEEE国际会议论文收录9篇。分…
安全运维
- 1
- 0
aqzt24年12月21日
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训

文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发，尤其是后端研发，每年在618或者双11的时候压力特别大，他们祈求服务不要出故障，交易能正常进行，而且期望用户体验非常棒而不是卡顿404等。但是有时候就是事与愿违，比如在2015年11月11日傍晚，大部分用户反馈购物失败的情况，负责双…
安全运维
- 3
- 0
aqzt24年12月21日
经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验

腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事，因为阿里云双十一大故障的官方故障复盘至今仍然是拖欠着的。公有云厂商想要真正成为 —— 提供水与电的公共基础设施，那就需要承担起责任，接受公众监督 —— 云厂商有义务披露自己故障原因，并提出切实的可靠性改进方案与措施。那么我们就来看一看这份复盘报告，看看里面有哪些信息，以及可以从中学到什么教训。事实是什么？原因是什么？影响…
安全运维
- 6
- 0
aqzt24年12月21日
2015.05.28 事件回顾，深入解析和反思携程宕机事件

携程网宕机事件还在持续，截止 28 号晚上 8 点，携程首页还是指向一个静态页面，所有动态网页都访问不了。关于事故根源，网上众说纷纭。作为互联网运维老兵，尝试分析原因，谈谈网友的看法携程微博：5月29日1：30分，经携程技术排查，确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多，验证应用与服务之间的功能是否正常运行，花了较长时间。携程官方网站及APP已于28日23:29全面…
安全运维
- 5
- 0
aqzt24年12月21日
实践案例 – 告警定级为告警治理核心，告警智能定级原理探索

很多大规模复杂在线服务系统，比如 Google、Amazon、Microsoft 和大型商业银行，包含数以千计的分布式组件，并同时支持大量用户使用。为了保障高质量服务和良好的用户体验，这些公司引入监控系统，智能收集服务组件的监控数据，比如指标/KPI、日志和事件等。通常工程师会根据经验设定一些规则用来检验监控数据，确保在服务异常时产生告警。这也带来一个问题，大型服务系统通常会不间断地被捕捉到大量告…
安全运维
- 2
- 0
aqzt24年12月21日
故障复盘 – 语雀 P0 事故报告，军规红线9个字总结

故障时间：10月23日下午。故障现象：语雀出现重大服务故障，持续 7 个多小时。直接原因：数据存储运维团队在进行升级操作时，新的运维升级工具出现 bug。具体细节：bug导致华东地区生产环境存储服务器被误下线，使语雀数据服务发生严重故障，造成大面积服务中断。恢复过程：因机器类别较老，无法直接操作上线，只能从备份系统中恢复存储数据。数据恢复过程耗时较长，直到晚上 22 点，语雀的全部服务…
安全运维
- 45
- 0
aqzt24年12月21日