-
经验教训 – Google 20年的11条运维经验教训
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠…- 2
- 0
-
Flink SQL – 网易云音乐flink实践与优化
文章目录 Toggle 一、背景简介二、云音乐的实时计算 Notebook 服务三、性能优化四、运维监控增强五、未来规划 一、背景简介 1.Flink in Music 先简单的介绍下云音乐的现状,目前音乐这边的客户端日志,服务端日志大概在每日大千亿条左右,维度表数据源像 Redis,MySQL 这些大概有上百个。而服务的实时计算任务开发的人员有上百名,其中不仅包扩数据开发工程师,分析师,也包括算…- 2
- 0
-
【运维工具】 – Top 12 IT服务管理(ITSM)工具
IT服务管理已发展成为维持企业运转的关键功能。下述平台可以帮助您跟踪和完善服务工作流程。 很久以前,运行一个IT服务台只需要几台备用台式机、一条电话线和一种糟糕的幽默感。现在,信息化成为企业的支柱,这份工作也随着责任的增加而发展变化。如果持续停电导致部分业务关闭,许多企业将遭受重大打击。当计算机负责处理每个工作流程的每一步时,没有计算机也就意味着无法完成任何工作。这也使得IT服务台成为维持企业运转…- 10
- 0
-
故障治理 – 企业变革与创新 | 亚马逊创新“永动机”七大教训
亚马逊高管发布新书解析亚马逊企业变革与创新。第一个教训:创新,要慢慢来;第二个教训:从用户需求出发;第三个教训:不要将创新当成兼职,第四个教训:记住书名,逆向工作方法;第五个教训:好意图不可靠,机制才是可靠的;第六个教训,优秀的运营会深入细节;第七个教训,深入细节不等于事无巨细地控制管理。企业变革与创新应该如何实现? 文章目录 Toggle 1 企业变革与创新 ,要慢慢来2 从用户需要什么出发,而…- 1
- 0
-
IT运维管理(活着)与IT运营管理(活得好)定义与区别
最近在一个项目中,用户提出“IT运维管理”感觉范围太窄了,我们应该做“IT运营管理”。但IT运维管理和IT运营管理的核心区别是什么呢?好像也没有一个特别明确的解释。今天我们就试图去讨论一下“IT运维管理”和“IT运营管理”。 文章目录 Toggle 一、运营及运营管理的相关定义“运营”的定义“运营管理”的定义运营管理的目标运营管理的任务运营管理的内容运营管理在企业管理中的位置运营管理所涉及的管理领…- 3
- 0
-
系统稳定性保障 – 美团AIOps在事件管理的硬核实践
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景 在《AIOps在…- 5
- 0
-
故障复盘 – 复盘工具 KPT法
文章目录 Toggle KPT法故障复盘案例案例1:服务器宕机事件案例2:网络通信故障案例3:软件系统bug导致用户数据异常 KPT法故障复盘案例 KPT法(Keep/Problem/Try)是一种简洁实用的复盘方法,分别对应保留(维持好的做法)、问题(识别现存问题)和尝试(提出改进措施)三个方面。下面是三个应用KPT法进行故障复盘的案例: 案例1:服务器宕机事件 Keep(保留):在此次服务器宕…- 4
- 0
-
运维工具 – 大众点评评论文本挖掘基础案例实践
文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取(TF-IDF)机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…- 17
- 0
-
运维工具 – 快手基于 Flink 构建实时数仓场景化实践(监控实施思路)
本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快手基于 Flink 构建实时数仓场景化实践》,内容包括: 快手实时计算场景快手实时数仓架构及保障措施快手场景问题及解决方案未来规划 GitHub 地址https://github.com/apache/flink欢迎大家给 Flink 点赞送 star~ 文章目录 Toggle 一、快手实时计算场景…- 2
- 0
-
经验教训 – 2022.08.02 微博为何总是宕机
8月3日早晨,“微博崩了”话题登上热搜榜,话题阅读量高达4.7亿,讨论量也达到了4.1万。不少网友表示虽然平时天天骂微博,但真和微博失联了几个小时,感觉和世界脱节了一样。没想到这年头竟然能在微博热搜上看到 “微博崩了”这个词条。 微博回应宕机原因 据@微博客服 消息,8月2日晚22时06分起,由于自动扩容系统故障,导致北京永丰等地机房的宽带容量超限,影响了部分省份移动端用户访问,期间PC端用户可正…- 1
- 0
-
最佳实践 – 技术如何从小白到管理,怎么支撑业务快速发展?
一、背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队,快速拿出成果,支撑业务的快速发展。 二、痛点 从小团队人员快速扩张,团队文化稀释,人员效能下降,目标逐渐弱化。 各自团队管理方式及标准不统一,人员管理及协同逐渐混乱。 组织扩大后,难以有效关注个人,无法准确评判个人的成长,贡献等。 三、目标 通…- 2
- 0
-
Flink SQL – 问题剖析及解决实践
文章目录 Toggle 1.简介2.Flink基本概念2.1 流(Stream)2.2 状态(State)2.3 时间语义(Time)2.4 Watermark2.5 API层3.Flink实时计算常见问题分析3.1 数据乱序问题分析3.2 Flink大状态场景及问题分析3.3 数据倾斜问题4.实时计算常见问题的解决方案4.1 数据乱序场景的处理4.2.1 DataStream API处理乱序4.…- 7
- 0
-
故障治理 – 优酷双11猫晚技术质量保障
阿里QA导读:大家还记得天猫双11狂欢夜(猫晚)吗?小编依然还会经常听到真实力老酷guy腾格尔老师钢铁硬核版的《丑八怪》。与往年猫晚相比,今年是最“国际化”的一届,整场晚会通过优酷进行了全球直播覆盖,在这样的双11猫晚的特殊场景下,如何完成质量保障工作,让全球直播也能“如丝般顺滑”,让不同地域、不同设备的用户都能享受极致的体验? 本文为阿里文娱测试开发专家 宫浩 在【阿里文娱2019双11猫晚技术…- 2
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 10
- 0
-
平安夜美国航空停飞!股价暴跌超5%,运维工程师再背锅?事件回顾
12月24日,圣诞节前夕,原本应该是旅客出行最繁忙的时间段,美国航空公司的一则突发消息,让原本计划出行的旅客遭遇了一场突发风波。 24日,美国联邦航空管理局(FAA)突然宣布,美国航空公司(American Airlines)24日全国范围内停飞所有的航班。 随后,美国航空公司迅速在社交平台X上发文,称该公司所有航班正在经历技术问题,导致运营在全年最繁忙的旅行日之一中断。 消息一经发出,在美引发轩…- 30
- 0
-
系统稳定性保障 – 微服务架构下如何做好故障演练
微服务架构场景中,应用系统复杂切分散。长期运行时,局部出现故障时不可避免的。如果发生故障时不能进行有效反应,系统的可用性将极大地降低。 文章目录 Toggle 什么是故障演练为什么需要故障演练故障演练的目标故障演练的基本流程云原生、微服务架构场景下故障模拟的挑战云原生、微服务场景下的故障演练工具如何进行故障演练演练前 | 确认演练对象与目标演练前 | 准备演练环境演练前 | 制定故障应对策略演练前…- 6
- 0
-
故障复盘 – 复盘工具 六顶思考帽复盘法
六顶思考帽不是思考者的类型。每个思考者都应该会用所有的帽子 。 白色思考帽:资料与信息 获得客观信息和认识,保证思维尊重事实。 红色思考帽:直觉与感情 决策时恰当的情感、直觉和预感 黄色思考帽:积极与乐观 进行统一的、逻辑的、深刻的负面论证。 黑色思考帽:逻辑与批判 进行统一的、逻辑的、不断的正面探索。 绿色思考帽:创新与冒险 不断实施出新奇的探索,寻求新的方法。 蓝色的思考帽:系统与控…- 2
- 0
-
数据治理 – XX业务数据分析体系的架构与实践
导读:讲述在业务快速迭代发展过程中,为了让大数据更好地赋能业务,高效的为用户提供有业务价值的数据产品和服务,百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程,包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。 全文9911字,预计阅读时间24分钟。 文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…- 1
- 0
-
IT服务治理 – 腾讯运维的 AI 实践思路指引
讲师简介 张戎 机器学习研究员社交网络运营部 我是一个做机器学习的人,目前接触运维的时间并不长,大约半年左右。 主要做社交网络的运维、监控和异常检测方面的工作。本文将按照下面四大块内容分享。 1. 时间序列异常检测 监控领域做运维,最基础的是时间序列的异常检测。如果是基于机器学习的智能运维,主要分三个场景: 第一步是发现问题,如果我们无法发现问题就无法定位问题、甚至解决问题。 既然提到发现问题,最…- 2
- 0
-
实践案例 – 百分点大数据技术团队:万亿级大数据监控平台建设实践 
随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。 本文主要从监控系统整体设计和技术…- 1
- 0
-
故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’
墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事情发生,那么它更有可能发生 文章目录 Toggle 墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生。这警示我们,在互联网公司,对生成环境发生的任何怪异现象和问题都不要轻视,对其背后的原因一定要调查清楚。同样,海恩法则也强调任何严重的事故背后都是很多次小问题…- 1
- 0
-
运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)
尚梦宸,中国信息通信研究院云计算与大数据研究所审计与治理部工程师。 一、构建新时代“大运维”体系 什么是“大运维”体系?它是运维发展过程中的一个阶段。在初始阶段,运维主要是辅助研发,运维方式主要是以手工为主,同时需要人工不断维护 更新。 随着数字技术发展及信息化的快速全面突破,研发侧逐渐向运维侧偏移,出现了自动化运维及研发与运维的协同,也即我们说的 DevOps。 DevOps 更多关注…- 3
- 0
-
故障治理 – 大促不慌,浅谈蘑菇街的稳定性保障
无相:开发了类似于全链路监控的工具,用于提升整条链路的稳定性。后开始负责全站稳定性工具和平台相关的工作,并参与了全流程加速系统的开发。 蘑菇街是一个电商平台,每年会做四次大促,3.21、6.18、双11、双12。大促保障涉及到流量评估、依赖梳理、单链路压测、全链路压测等。蘑菇街大促的基本流程,基本是按照系统峰值评估、依赖关系梳理、单链路压测、系统扩容、全链路压测等几个环节展开的。 在保障大促稳定性…- 2
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 3
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!