-
ITIL是什么?itil 是运维管理最佳实践, 是IT界的MBA
ITIL是什么?IT界的MBA ITIL到底是什么呢?为什么需要它呢?适合哪些人呢?…… 01被称为IT界MBA的ITIL到底是什么?ITIL最早是英国商务部开发的一套面向信息技术日常运维管理的最佳实践,在2000年时ITIL官方在全球大力推广,最终ITIL在运维管理领域一枝独秀,成为全球公认的运维管理最佳实践。 服务战略的原则第一句话:但凡看到有人提价值创造,我脑子里没有别的,就只有这句话。“客…- 1
- 0
-
IT服务管理:故障治理 – 运维故障排查处理思路
在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、…- 15
- 0
-
实践案例 – 360容器平台监控实践
背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发…- 1
- 0
-
2023.11.12 阿里云的史诗级故障 故障时长185.76分钟,怎么赔付?
前言2024年还有一个月多一点即将落幕,距离阿里云11.12超级大故障已有13天的时间(传闻故障赔偿近1亿)。24号收到了来自阿里云的一则赔偿短信(详见下文),赔偿对象为视频点播服务。 然而,尽管阿里云已经开始采取补偿行动,对于受到影响的用户而言,恢复信心可能需要更多时间。故障事件引起的不便和对服务可靠性的担忧,可能需要云服务商通过更强有力的行动和更有效的沟通,来重新赢得用户的信任和支持。 故障赔…- 6
- 0
-
运维生产故障有哪些?运维常见问题最佳实践
运维生产故障是指在运维过程中出现的各种问题和故障,可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类,下面是一些常见的运维生产故障分类和其常见类型: 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括:– 服务器故障:例如硬盘故障、内存故障等。– 网络设备故障:例如…- 6
- 0
-
IT运维最佳实践 – 一线游戏运维心得(同行经验)
自2015年开始从事游戏行业一线运维工作,至今(2022)已经近7年。 网易游戏:2015.04 ~ 2021.04灵犀互娱:2021.04 至今 文章目录 Toggle 背景1、运维人员的定位运维叫什么?PE?SRE?什么是SRE?什么是可用率?可用率到底要达到几个9?不同人眼中的运维项目组对运维的核心诉求技术要专,还是广?运维SRE的段位2、做事方法新手常犯的错误或误区怎么推进事情落地?忙不过…- 1
- 0
-
平安夜美国航空停飞!股价暴跌超5%,运维工程师再背锅?事件回顾
12月24日,圣诞节前夕,原本应该是旅客出行最繁忙的时间段,美国航空公司的一则突发消息,让原本计划出行的旅客遭遇了一场突发风波。 24日,美国联邦航空管理局(FAA)突然宣布,美国航空公司(American Airlines)24日全国范围内停飞所有的航班。 随后,美国航空公司迅速在社交平台X上发文,称该公司所有航班正在经历技术问题,导致运营在全年最繁忙的旅行日之一中断。 消息一经发出,在美引发轩…- 14
- 0
-
数据治理 – XX业务数据分析体系的架构与实践
导读:讲述在业务快速迭代发展过程中,为了让大数据更好地赋能业务,高效的为用户提供有业务价值的数据产品和服务,百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程,包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。 全文9911字,预计阅读时间24分钟。 文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…- 1
- 0
-
IT服务治理 – AIOps 在腾讯的探索和实践
1 从一个 NLP 故事说起 首先我想从一个 NLP 小的故事来说起。 在二十世纪三四十年代,人们大量尝试用机器的方式去理解自然语言,开始是用类似于左图一样的语法树的基于规则的方式处理的,但后来逐渐地变化为以统计的方式去做。 到了二十世纪七十年代之后,基于规则的句法分析逐渐地走到了尽头。 1972年的时候,自然语言处理领域大师贾里尼克加入了IBM。1974年左右,他在 IBM 提出了基于…- 2
- 0
-
实践案例 – vivo监控系统这样演进才稳妥
一、业务背景 当今时代处在信息大爆发的时代,信息借助互联网的潮流在全球自由的流动,产生了各式各样的平台系统和软件系统,越来越多的业务也会导致系统的复杂性。 当核心业务出现了问题影响用户体验,开发人员没有及时发现,发现问题时已经为时已晚,又或者当服务器的CPU持续增高,磁盘空间被打满等,需要运维人员及时发现并处理,这就需要一套有效的监控系统对其进行监控和预警。 如何对这些业务和服务器进行监控和维护是…- 4
- 0
-
故障处理最佳实践 – 滴滴是如何高效处理线上故障的?
故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。滴滴现在服务近 4 亿乘客、1700 多万司机、覆盖 400 多个城市,超过 10 个业务线提供服务,业务的高速增长对稳定性工作来说是个极大的挑战。为了了解滴滴在故障处理以及稳定性建设方面的工作,InfoQ 记者采访了滴滴资深运维工程师张云柳。另外,张云柳也将会在 9 月 10 日举行的 CNUTC…- 1
- 0
-
Flink SQL 抖音实时数仓保障及治理实践与优化
文章目录 Toggle 一、实时数仓场景介绍二、实时数仓场景初探三、典型场景实践四、未来规划 一、实时数仓场景介绍 为了数据湖更好的落地,我们在落地之前与业务做了一些深入的沟通,并根据不同业务的特点主要分为了三个场景: 1)场景一典型的业务主要是短视频和直播,它的数据量级一般都比较大,例如大流量的日志数据,其计算周期一般是自然的天、小时或者分钟级别的,实时性的要求一般是五分钟内,主要诉求是批流的复…- 14
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 10
- 0
-
稳定性保障 – 故障应急体系构建及应用实践(2)
本文主要介绍了蚂蚁集团大规模互联网系统中业务SRE的稳定性实践,包括业务SRE的定义、应急管理、大促稳定性保障等方面,具体内容如下: 1. 业务SRE定义 – SRE概念:SRE是结合软件工程和IT运维原则,通过编程和自动化提高系统稳定性、可扩展性和效率的实践和角色,业务SRE则专注于特定业务系统的可靠性和效率。 – 工作内容:确保业务系统稳定可用,优化性能提升用户体验,定…- 1
- 0
-
IT服务治理 – 腾讯 PCG 数据中台 DEVOPS 和 AIOPS 实践
文章目录 Toggle 01 腾讯PCG的前世今生1. 问题和挑战02 MQ架构的内核生态改造1. 面临的问题2. 解决方案03 日志管道系统(ATTA)04 实时数仓流批一体架构05 定义系统可运维性目标1. 定义中台内各平台的可运维性2. 定义错误预算06 全生命周期管理1. 方案的阶段2. 开发阶段3. 发布阶段4. 持续运营保障阶段07 全面监控08 数字化运维能力建设09 故障处理由繁入…- 0
- 0
-
经验教训 – 生产环境血的教训最佳实践
SWAT TEAM 每一条教训都是通过生产环境异常总结出来经验 教训1: 变更实施 – 变更要优先考虑灰度原则,有助于降低生产影响 教训2:变更实施 – 生产回滚异常要马上处理,保持服务器的生产服务状态 教训3:变更验证 – 灰度期间必须确认监控/告警后才能继续下一批,避免事件产生影响更大 教训4:变更验证 – 变更完成需从业务维度进行验收 教训5:…- 1
- 0
-
故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例,以及,能从中学习到什么经验与教训? 文章目录 Toggle 事实是什么?原因是什么?影响是什么?评论与观点?能学到什么? 事实是什么? 11月12日,也就是双十一后的第一天,阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页,全球范围内所有可用区 x 所有服…- 2
- 0
-
Flink SQL 实践 – sql 基本手册
文章目录 Toggle Flink SQL 数据类型 # Flink SQL 本页面描述了 Flink 所支持的 SQL 语言,包括数据定义语言(Data Definition Language,DDL)、数据操纵语言(Data Manipulation Language,DML)以及查询语言。Flink 对 SQL 的支持基于实现了 SQL 标准的 Apache …- 0
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 2
- 0
-
2021.10.07 一行小错为何产生巨大破坏-Facebook史诗级故障大反思学习
Facebook大故障原因:一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统、以及严密的数据中心安全 Facebook故障是一系列不幸的事件酿成的! 一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全,所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示,周一故障的根本原因是例行维护工作出…- 3
- 0
-
IT运维治理 – 美团点评数据库智能运维探索与实践
讲师介绍: 赵应钢,曾就职于百度、新浪、去哪儿网等,10年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。现为美团点评运维研究员,DBA团队(北京)负责人,负责MySQL、KV服务的平台建设和技术保障工作。 演讲大纲: ● 数据库平台的演变; ● 现状和面临的挑战; ● 从自动化到智能化; 文章摘要: 传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用…- 2
- 0
-
经验教训 – 2020.10.16 微盟宕机8天,赔偿1.5亿!电商技术专家,总结6条经验
微盟经历了8天的至暗时刻,数据修复工作终于有了进展,并于3月1日对外发布公告: 截止到3月1日晚8点,在腾讯云团队协助下,经过7*24小时的努力,我们数据已经全面找回,由于此次数据量规模非常大,为了保证数据一致性和线上体验,我们将于3月2日凌晨2点进行系统上线演练,将于3月3日上午9点数据恢复正式上线。 此次事故给商家经营造成了严重的影响,公司管理层对此深感自责和愧疚,我们准备了1.5亿元人民币赔…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!