全部标签

IDC

IT服务管理:故障治理 – 运维故障排查处理思路

在讲解事件、故障处理思路前，先讲一个故障场景（以呼叫中心系统作为一例子）：业务人员反映呼叫中心系统运行缓慢，部份电话在自助语言环节系统处理超时，话务转人工座席，人工座席出现爆线情况。运维人员开始忙活了，查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去，但是原因还未定位。经理过来了解情况：“系统恢复了吗？”、“故障影响是什么？”、…
安全运维
- 38
- 0
aqzt24年12月21日
故障治理 – 运行无间：阿里巴巴运维保障体系的一种最佳实践

阿里巴巴全球运行指挥中心，GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE，我们相当于阿里巴巴的SRE。今天我的分享分为四个部分： 1、稳定性现状及挑战 2、运维…
安全运维
- 91
- 0
aqzt24年12月21日
实践案例 – 百分点大数据技术团队：万亿级大数据监控平台建设实践

随着互联网业务的迅速发展，用户对系统的要求也越来越高，而做好监控为系统保驾护航，能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目，完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控，沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术…
安全运维
- 8
- 0
aqzt24年12月21日
监控中心 NOC 是什么？怎么来？

在阿里巴巴隐藏着很多神秘的部门，GOC就是其中之一，你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门，却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。它的名字有点儿高大上——Alibaba Global Operations Center，阿里巴巴全球运行指挥中心。 GOC从何而来？要掰扯一下GOC的诞生历程，还得从“远古”的2012年说起。在2012年及以前，阿…
安全运维
- 25
- 0
aqzt24年12月21日
故障复盘 – 2023.11.12 阿里云的史诗级故障，从这故障中我们能学到什么

时隔一年阿里云又出大故障，并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例，以及，能从中学习到什么经验与教训？文章目录 Toggle 事实是什么？原因是什么？影响是什么？评论与观点？能学到什么？事实是什么？ 11月12日，也就是双十一后的第一天，阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页，全球范围内所有可用区 x 所有服…
安全运维
- 13
- 0
aqzt24年12月21日
实践案例 – 故障治理阿里电商故障治理和故障演练实践

大家好，今天来的人不少，可见对于故障耿耿于怀的人，不止我自己。今天分享的内容主要还是围绕故障治理有关。众所周知，故障治理本身就是一个比较大的话题，几乎涉及到运维、研发、故障运行管理的全部岗位，奇葩一点的故障还可能涉及到运营和产品经理。聊到故障的苦与泪，相信45分钟绝对连开头都没讲完。今天的分享，主要还是回归故障发生的本质，故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大…
安全运维
- 10
- 0
aqzt24年12月21日
故障治理 – 回顾近年数据中心十大灾难事件

数据中心的存在，就是为了保障计算的安全与可连续性。然而，仅仅最近三年中，数据中心发生了十余件故障乃至灾难。详见：《盘点：近年数据中心十大灾难事件》数据中心系统庞杂，运维安全本就不易，近年来的极端气候、技术发展等因素，也为数据中心高可靠性带来了新挑战，我们应该如何预防与应对？数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现，电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…
安全运维
- 26
- 0
aqzt24年12月21日
经验教训 – 2015.09.20 从Amazon最新云停机事故中学到的三个教训（亚马逊云宕机事件）

Amazon刚刚经历的云服务停机事故引发业界对云技术的又一番争论。就在上周日上午时段，Amazon Web Services数据中心遭遇一起相当严重的意外事故。美国东部时间清晨六点，该公司负责承载AWS东弗吉尼亚区域负载的名为DynamoDB的大规模NoSQL数据库发生使用率暴涨状况——顺带一提，东弗吉尼亚州区域为该公司历史最悠久、规模***的九个全球性区域之一。到当日上午七点五十二分，AWS…
安全运维
- 4
- 0
aqzt24年12月21日
经验教训 – 狡兔务必三窟：阿里云香港可用区C宕机血的教训与反思

自12月18日阿里云香港可用区C因为机房水冷机组出现故障，导致一次阿里云历史上最长的宕机后，官方终于在圣诞节那天，出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》，称得上是实事求是面对问题了。我从业十五年，参与建设过4000个节点的私有云，也搞过机房装修和上架，还有一点运维经验，算是有相关经验，跟大家讨论一下以后自家单位的容灾应该怎么做吧。大家先看这次阿里云…
安全运维
- 17
- 0
aqzt24年12月21日
故障治理 – 线上故障分析与故障治理指引

文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么？-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …
安全运维
- 45
- 0
aqzt24年12月21日
[运维工具]每秒几十亿实时处理，阿里巴巴超大规模 Flink 集群运维揭秘

今天主要讲三块：第一，阿里 Flink 发展的历史背景，怎么来的，现状规模到底什么样第二，阿里 Flink 运维管控平台第三，阿里 Flink 平台运维技术解决方案文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案一、阿里 Flink 集群运维挑战首先说一下流计算，批计算就是数据集是有限的，每次的计算都可以拿到一样的结果，在…
安全运维
- 9
- 0
aqzt24年12月21日
IT运维管理（活着）与IT运营管理（活得好）定义与区别

最近在一个项目中，用户提出“IT运维管理”感觉范围太窄了，我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢？好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…
安全运维
- 7
- 0
aqzt24年12月21日
经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验

腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事，因为阿里云双十一大故障的官方故障复盘至今仍然是拖欠着的。公有云厂商想要真正成为 —— 提供水与电的公共基础设施，那就需要承担起责任，接受公众监督 —— 云厂商有义务披露自己故障原因，并提出切实的可靠性改进方案与措施。那么我们就来看一看这份复盘报告，看看里面有哪些信息，以及可以从中学到什么教训。事实是什么？原因是什么？影响…
安全运维
- 20
- 0
aqzt24年12月21日
系统稳定性保障 – 大厂故障演练思考

引言阿里巴巴经过多年的技术演进，系统工具和架构已经高度垂直化，服务器规模也达到了比较大的体量。当服务规模大于10000台时，小概率的硬件故障每天都会发生。这时如果需要人的干预，系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计，对下游组件零信任，确保在故障发生时可以快速的发现和处理。不过这些措施在故障发生时是否真的有效？恢复故障的工具是否实现了容灾？处理问题的人是否熟练？沟通机制是否疏漏？…
安全运维
- 12
- 0
aqzt24年12月21日
搭建高可用mongodb集群（三）—— 深入副本集内部机制

在上一篇文章《搭建高可用mongodb集群（二）—— 副本集》介绍了副本集的配置，这篇文章深入研究一下副本集的内部机制。还是带着副本集的问题来看吧！副本集故障转移，主节点是如何选举的？能否手动干涉下架某一台主节点。官方说副本集数量最好是奇数，为什么？ mongodb副本集是如何同步的？如果同步不及时会出现什么情况？会不会出现不一致性？ mongodb的故障转移会不会无故自动发生？什么条件会触…
安全运维
- 11
- 0
aqzt21年12月11日
Lucene6入门教程（二）索引的创建

（一）索引的创建步骤：学习Lucene,最重要的一点在于索引的建立，这是一切搜索等的基础，Lucene6创建索引的步骤如下：（1）创建目录（Directory），（即多线程支持创建）；（2）词库分析器（Analyzer）的创建（要注意使用的是哪种Analyzer，创建的时候也要使用对应的索引器）；（3）IndexWriterConfig对象创建,获取IndexWriter对象，判断覆盖/追…
安全运维
- 18
- 0
aqzt21年12月11日
腾讯百亿级请求高可用Redis(codis)分布式集群实践

一、Redis有哪些常用的应用场景 1）string | 计数器，用户信息(id)映射，唯一性（例如用户资格判断），bitmap 2）hash | 常见场景：存储对象的属性信息（用户资料） 3）list | 常见场景：评论存储，消息队列 4）set | 常见场景：资格判断（例如用户奖励领取判断），数据去重等 5）sorted set | 常见场景：排行榜，延时队列 6）其他 |…
安全运维
- 66
- 0
aqzt21年12月11日
为什么“全栈”突然火了，谁最有资格讲“全栈”？

“全栈”一词最近火了，很多云厂商都在讲，有大的有小的，甚至有很多你想不到的。不夸张的说，“全栈”在企业IT圈大有逼近“Skr、了解一下”这类流行词的趋势。当然了，各家各有各的说辞，笔者也不想说谁对谁错，这次来听听华为是怎么说的。大家来判断下那么多厂商学习的对象，究竟说的有没有道理。在此之前，有必要讲讲为什么“全栈”突然就火了？用中国信息通信研究院何宝宏的话说，上云的客户正在从“专业”公司扩散到“…
安全运维
- 18
- 0
aqzt21年12月11日
微服务架构核心（三）- 微服务技术架构体系

微服务架构的名字里虽然有个"微"，但它涉及的整体架构体系可一点也不"微"，微服务架构除了业务代码的开发以外，还需要很多的支撑服务。每个公司都有自己的微服务架构体系，虽然在细节上有很多不同，但是整体的思路是类似的，下图展示了一个比较成熟的微服务架构体系。这个体系按照请求接入，由外到内的顺序，将整体架构分为接入层、网关层、业务服务层、支撑服务层、平台服务层和…
安全经验
- 51
- 0
aqzt21年11月28日
大型网站图片服务器架构的演进！

在主流的Web站点中，图片往往是不可或缺的页面元素，尤其在大型网站中，几乎都将面临“海量图片资源”的存储、访问等相关技术问题。在针对图片服务器的架构扩展中，也会历经很多曲折甚至是血泪教训，尤其是早期规划不足，造成后期架构上很难兼容和扩展。本文将以一个真实垂直门户网站的发展历程，向大家娓娓道来。构建在Windows平台之上的网站，往往会被业内众多技术认为很“保守”，甚至会有点。很大部分原因，…
安全经验
- 29
- 0
aqzt21年11月28日
MFC文件操作

文件的操作分为两步，打开和读写。打开和读写对应着两个类，分别 CFileDialog　和 CFile. 第一步打开文件对话框操作: (1) 文件对话框类　　　　CFileDialog　　 (2) 构造方法　　　　　　CFileDialog::CFileDialog(); CFileDialog::CFileDialog( BOOL bOpenFileDialog**, LPCTSTR** l…
安全运维
- 15
- 0
aqzt21年10月12日
微服务架构核心（三）- 微服务技术架构体系

微服务架构的名字里虽然有个"微"，但它涉及的整体架构体系可一点也不"微"，微服务架构除了业务代码的开发以外，还需要很多的支撑服务。每个公司都有自己的微服务架构体系，虽然在细节上有很多不同，但是整体的思路是类似的，下图展示了一个比较成熟的微服务架构体系。这个体系按照请求接入，由外到内的顺序，将整体架构分为接入层、网关层、业务服务层、支撑服务层、平台服务层和…
安全网络
- 33
- 0
aqzt21年8月18日
世界首个2nm制程芯片公布！这次IBM跑在了台积电三星英特尔前面

首个 2nm 制程芯片，竟然是 IBM 先发布的。没错，不是已经研究出 3nm 技术的台积电，也不是已经量产 5nm 芯片的三星，而是 IBM。据 IBM 官方表示，这种技术能在指甲盖大小（150mm?）的芯片上安装 500 亿个晶体管。相比于 7nm 芯片，这种技术预计将提升 45% 的性能、并降低 75% 的能耗。不过，这并不意味着 IBM 就具备量产 2nm 芯片的能力，因为这项技术…
安全资讯
- 10
- 0
aqzt21年8月16日
“动刀”IoT、入局造车掉队的OPPO能不能逆袭？

文/李信来源：连线 Insight（ID:lxinsight） “OPPO 企业文化的核心就是‘本分’。以用户为中心，不被外在的事物牵动，把自己该做的事情做好、做到极致，市场上总有你的一席之地。”此前，OPPO 创始人陈明永曾多次强调企业文化重要性，并亲自给出了解读。多年来，“本分”一直是 OPPO 的标签，但如今 OPPO 开始扯去“本分”标签。近日，据 36 氪报道，OPPO 开始对…
安全资讯
- 11
- 0
aqzt21年8月16日