-
盒马新零售运维保障解决方案
今天我带来的是“新零售运维保障解决方案”,内容包括三方面,新零售的现状以及它的挑战、运维保障体系以及未来的发展和方向。 1. 新零售的现状及运维挑战 大家有没有听过“盒区房”?现在新零售其中一个比较典型的业务就是盒马鲜生。 继我们曾经“学区房”的概念之后现在已经出现了“盒区房”的概念,即围绕着盒马鲜生 3 公里内的配送范围区域被称作“盒区房”。 现在像盒马鲜生这样的新零售模式越来越火,而早在 20…- 1
- 0
-
系统稳定性保障 – 货拉拉微服务架构故障演练实践
文章目录 Toggle 一、背景二、体系全览三、工具体系故障演练平台架构故障演练能力全景控制爆炸半径演练自动化四、管理体系故障演练类型故障演练流程五、运营体系运营数据六、未来展望 一、背景 随着货拉拉微服务架构、容器化技术广泛使用,软件架构的复杂度在不断提升,由服务之间的依赖所带来的不确定性也呈指数级增长。在这样的依赖网中,任何一环出现非预期或者异常的变化,都可能对其他服务造成非常大的影响。因此,…- 7
- 0
-
系统稳定性保障 – 1-3-5-10的应急响应中心专业治理宕机
背景 随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保系统100%的可用性,参考墨菲定律,会出错的事总会出错,故障在生产环境中不可避免。为了在故障发生时能够快速定界定位,采取有效措施止损,避免同根因故障重复发生,我们需要对故障全生命周期进行统一管理。 故障应急体系一般包括以下环节,故障预防、故障发现、故障定位、故障恢复、故障复盘及改进,其中故障预防阶段…- 2
- 0
-
2024.1.8 wind万得P0级故障复盘
今日资本市场大事件当属WIND金融终端宕机事件。 万得旗下WIND金融终端今晨无法正常登录,出现全面故障。万得方面在今日开市前发公告称,登录故障系因“公司的主干网络线路故障,施工人员正在抢修”。这或是万得成立28年来第一次大面积宕机。 据财联社记者获悉,下午13时左右,WIND手机端的行情板块可以查看个股数据。下午16时左右,电脑终端已能成功登录进主界面,但相关功能查询仍存在较为明显的数据延迟现象…- 3
- 0
-
【运维工具】Flink SQL 实践6 flink sql 约会 calcite
文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥?3.2.flink sql 为什么选择 calcite?4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…- 6
- 0
-
深入浅出,看资深专家如何解读ITIL4的四大价值维度
ITIL 4是AXELOS(ITIL版权所有方)组织全球范围内的顶级专家,历时两年多开发出来的。它将指导广大客户面对数字化时代IT服务管理所带来的挑战,并提供一个灵活、协调和集成的系统,以有效地治理和管理IT驱动(IT-enabled)的服务。 为了支持服务管理的整体方法, ITIL定义了四个维度, 这些维度对于以产品和服务的形式有效和高效地促进客户和其他利益相关者的价值至关重要。 下面请看,互联…- 4
- 0
-
运维工具 – Hadoop高可用的架构知识
hadoop 2.0 对于Hadoop高可用架构节点介绍 NN服务器会出现脑裂(brain-split)情况什么是脑裂在hadoop2.x版本中,如果存在两个NameNode节点同时服务,这种情况称之为“脑裂” 为什么会出现脑裂脑裂出现原因一般发生在主备NamoNode切换,由于网络延迟、设备故障等,备用的StandbyNameNode【备用节点】认为ActiveNameNode【主节点】失效,此…- 2
- 0
-
运维工具 – 异常数据分析实践,批量生成统计清单
pip install openpyxl==3.0.5 from openpyxl import load_workbook workbook = load_workbook('\统计表.xlsx') worksheet = workbook['Sheet1'] data = {} for row in range(2, worksheet.max…- 1
- 0
-
实践案例 – 腾讯织云智能监控实践
监控系统经历大数据转型后迎来 AI 浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到 IAAS 层的立体化监控理念和数据化 DevOps 理念。同时分享织云在 AIOps 领域的智能检测、根因分析和 ROOT 根源分析实践场景,展望未来监控转型方向。 听众受益 了解监控发展变化的背景和趋势;腾讯织云的海量监控架构;腾讯织云的智能化应用场景。 讲师介绍: 吴树生…- 2
- 0
-
思维认知 – 阿里巴巴“三板斧”管理到底是什么?
在商业组织结构的金字塔模型中,自上而下的分别是:目标、使命、价值观;战略与商务计划;培训与发展、组织结构、预算检查、绩效评估、奖惩制度等等。 化用孙子兵法中的“道、谋、断、人、阵、信”,来解释。最上面是“道”,包括使命、愿景、价值观;下面是“谋”和“断”,包括战略、战术;最后是“人”、“阵”、“信”,也就是就是组织能力。 员工管理的核心就在于“人性”二字。用分配解决人性的自私,用考核解决人性的懒惰…- 6
- 0
-
2023.11.27滴滴系统崩了 P0级故障?
昨天(11月26日)晚上,不少用户向潮新闻记者帮反映“滴滴系统崩了,还车还不了。” 今天(11月27日)早上,滴滴发布最新通告,致歉的同时表示,系统已修复。 原文如下: 经技术团队连夜修复,滴滴网约车等服务已恢复,用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行,希望能为缓解早高峰压力努力多做一点点。 11月27日晚间因系统故障导致App服务异常…- 18
- 0
-
故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例,以及,能从中学习到什么经验与教训? 文章目录 Toggle 事实是什么?原因是什么?影响是什么?评论与观点?能学到什么? 事实是什么? 11月12日,也就是双十一后的第一天,阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页,全球范围内所有可用区 x 所有服…- 2
- 0
-
Flink SQL – 网易云音乐flink实践与优化
文章目录 Toggle 一、背景简介二、云音乐的实时计算 Notebook 服务三、性能优化四、运维监控增强五、未来规划 一、背景简介 1.Flink in Music 先简单的介绍下云音乐的现状,目前音乐这边的客户端日志,服务端日志大概在每日大千亿条左右,维度表数据源像 Redis,MySQL 这些大概有上百个。而服务的实时计算任务开发的人员有上百名,其中不仅包扩数据开发工程师,分析师,也包括算…- 2
- 0
-
flinkSQL实践 – 如何实时统计最近 15 秒的商品销售额
想要了解如何使用 Flink 实时统计最近 15 秒的商品销售额吗?本实验将以阿里云实时计算 Flink 版为基础,使用 Flink 自带的 MySQL Connector 连接 RDS 云数据库实例,并以实时商品销售数据统计的例子,引导开发者上手 Connector 的数据捕获、数据写入等功能。 完成本次实验后,您将掌握的知识有: 使用 Flink 实时计算平台创建并提交作业的方法; 编写基于 …- 1
- 0
-
思维认知 – ChatGPT在电商行业中的应用与前景
近年来,随着人工智能技术的不断发展,智能客服已经逐渐成为了电商行业中不可或缺的一部分。 而在智能客服的众多类型中,ChatGPT作为一种基于 Transformer 模型的智能对话生成模型,已经开始逐渐应用到了电商行业中,对电商行业带来了许多积极的影响。 一、智能客服 ChatGPT 的优势 相比传统的客服方式,智能客服 ChatGPT 有以下几个优势: 1.24小时在线,无需休息:传统的客服需要…- 2
- 0
-
经验教训 – 美媒:2022年IT行业经历太多重大挫折,有8点深刻教训
科技行业经历了许多重大挫折事件,比如埃隆·马斯克(Elon Musk)被迫接管推特、元宇宙仍未腾飞、谷歌关闭云游戏服务Stadia以及加密货币交易所FTX破产等。那么从这些挫折中,我们能够学到哪些教训? 混乱成为社交媒体新常态 在过去几年里,Facebook、Instagram、YouTube和TikTok都曾卷入各种纠纷中,从政治争议到数据隐私等问题,但与推特最近2个月经历的事情相比,他们的各种…- 2
- 0
-
IT服务治理 什么是关键时效 MOT
什么是关键时刻 关键时刻(MOT)——Moments of truth,用户和公司之间发生了交互关系的瞬间。 案例:在一年当中,每一个北欧航空的乘客平均每人接触五名员工,会对北欧航空公司产生五次印象,每一次十五秒钟,总共五千万次。而这五千万次的“关键时刻”决定了公司将来的成败。 关键时刻的意义 将组织结构翻转过来变成倒金字塔结构位于金字塔底端的蓝领和白领员工,他们都是真正在战场上作战的士兵,最了解…- 1
- 0
-
【运维工具】flink sql 实践思路案例
文章目录 Toggle 短视频生产消费监控项目简介方案设计方案 1方案 2方案 3方案 4总结技术架构QuestionWHAT:实时 & 离线公共画像维表?概念区别离线公共画像维表实时公共画像维表WHY:为什么建设实时公共画像维表?直播间画像维表主播 & 观众用户画像维表HOW + WHO:怎样建设?用什么建设?直播间生命周期 & 数据流转直播间画像维表-实时直播间画像实时…- 2
- 0
-
经验教训 – 服务稳定性SLA-2015年阿里双十一惨痛的教训
文章目录 Toggle 618&&双11SLA服务等级协议单个服务稳定性集群稳定性专项测试稳定性建设小结 618&&双11 作为研发,尤其是后端研发,每年在618或者双11的时候压力特别大,他们祈求服务不要出故障,交易能正常进行,而且期望用户体验非常棒而不是卡顿404等。 但是有时候就是事与愿违,比如在2015年11月11日傍晚,大部分用户反馈购物失败的情况,负责双…- 5
- 0
-
PYTHON基础技能 – Python高手秘籍:17个字典推导式实战案例
今天我们要探索字典推导式的奥秘。别看它名字复杂,其实它就是一种让你的代码变得更加简洁、优雅的秘密武器。 文章目录 Toggle 第一站:基础岛案例1:简单转换第二站:映射大陆案例2:数值翻倍第三站:条件海域案例3:筛选偶数第四站:复合键值案例4:姓名与年龄第五站:嵌套冒险案例5:嵌套列表转字典第六站:集合挑战案例6:列表去重第七站:字符串乐园案例7:字符频率第八站:逻辑迷宫案例8:基于条件的映射第…- 0
- 0
-
混沌工程与SRE的结合(中国移动)
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混…- 2
- 0
-
故障复盘 – 遇到P0级别故障如何做故障复盘?
其实现在的计算机系统是一个极其复杂,而且依赖很多的分布式系统,出现事故是在所难免的,关键是如何对待事故。是把它视为人为错误(Human Error)导致,找到那个事故负责人,然后对他进行处罚,希望达到不再犯错的目的,还是接受事故是不可避免的事实,进而从各种系统架构设计上/流程设计和执行上进行容错性处理,把每次事故当作一次学习和改进的机会。这是一个传统IT公司和高绩效公司的关键区别之一,看看以下案例…- 21
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!























