-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 2
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 2
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 2
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 11
- 0
-
系统稳定性建设(11) – 系统总出故障怎么办?稳定性建设是什么?
大家好,我是树哥。 说到系统稳定性,不知道大家会想起什么?我想大多数人会觉得这个词挺虚的,不知道系统稳定性指的是什么。 一年前的我看到这个词,也是类似于这样的感受,大概只知道要消除单点、做好监控报警,但却并没有一个体系化的方法论。 经过一段时间的摸索,我对系统稳定性有了较为体系化的认识,于是迫不及待地希望和大家一起分享。所以今天,就让我跟大家简单聊聊系统稳定性建设这个话题吧! 文章目录 Toggl…- 6
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 8
- 0
-
运维工具 – 大众点评评论文本挖掘基础案例实践
文章目录 Toggle 一、爬虫整体思路网页爬取和解析数据存储反爬虫对抗二、探索性分析与文本数据预处理探索性分析数据预处理词云展示三、文本的情感分析文本特征提取(TF-IDF)机器学习建模样本数据不平衡模型评估测试1. 朴素贝叶斯相关的统计学知识 2. 朴素贝叶斯的模型3. 朴素贝叶斯的推断过程4. 朴素贝叶斯的参数估计5. 朴素贝叶斯算法过程6.&nbs…- 7
- 0
-
故障治理 – 回顾近年数据中心十大灾难事件
数据中心的存在,就是为了保障计算的安全与可连续性。然而,仅仅最近三年中,数据中心发生了十余件故障乃至灾难。详见: 《盘点:近年数据中心十大灾难事件》 数据中心系统庞杂,运维安全本就不易,近年来的极端气候、技术发展等因素,也为数据中心高可靠性带来了新挑战,我们应该如何预防与应对? 数据中心故障“老面孔” 经过盘点近年来灾难事件不难发现,电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。…- 6
- 0
-
数字化运维 – 异常数据分析实践,孤立森林异常检测算法原理和实战
孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation),因此该算法简单、高效,在工业界应用较多。 Isolation Forest算法的逻辑很直观,算法采用二叉树对数据进行分裂,样本选取、特征选取、分裂点选取都采用随机化的方式。如果某个样本是异常值,可能需要很少次…- 1
- 0
-
经验教训 – 3.29 #微信QQ出现功能异常#,冲上热搜,妥妥的第一
包括微信语音、账号登录、朋友圈,以及微信支付,都无法正常使用。 有网友表示,电脑版微信大概是在早上10:00左右恢复登录,和小雷登录的时间相吻合。 据腾讯的最新财报显示,微信及WECHAT月活数高达13.1亿,如此大用户量的产品出现故障无疑对大众生活工作带来了不少的影响。 不过有一说一,大厂们服务器故障,似乎每年都得上演那么几次。 轻微一些的,有像B站前阵子那样,视频短暂崩溃了半小时。 严重点的,…- 2
- 0
-
2015.5·27支付宝大规模宕机事故反思学习
事故背景支付宝拥有超过4万亿年交易总额,是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。2014年年11月,就有用户反映,支付宝钱包目前无法转账和提现,当用户使用这两项功能时会提示出现未知错误或创建交易失败,该问题在移动客户端以及电脑网页端均存在。 事故经过2015年5月27日下午4点半左右,陆续有多个地区网友反映,支付宝出现网络故障,账号无法登录或转账。打开余额宝后,不能显示余额…- 5
- 0
-
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理
服务端作为顺风车技术部内最大的工程团队,随着人员的扩张和迭代,流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率,另一方面,我们也希望在一次次的实战中不断的总结,探索出适用于我们团队的最佳实践。 基于此,我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范,包括研发流程、稳定性、性能成本等多个方面。 本文给出其中稳定性相关的规范,这些规范都是顺风车成立五…- 3
- 0
-
2015.05.28 事件回顾,深入解析和反思携程宕机事件
携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈网友的看法 携程微博:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面…- 3
- 0
-
故障治理 – 从行业巨头重大事故,炼成系统稳定性治理最全方略(系统稳定性保障)
系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 稳定性的工作,一般都是水下的工作。就像冰山,真正强大的系统下,要有更加强大的底层支撑,水面下的问题才是真正需要解决的问题。当然不一样的工作内容,水下的工作是不同的,对于盖楼来说,可能就是地基的深度。对于我们写业务逻辑来说,水下的工作…- 2
- 0
-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
-
经验教训 – 网络安全经验经验,帮你降低损失风险
对于很多首席信息安全官来说,即将到来的2023年是一个很好的时机,可以反思他们在2022年里学到的经验和教训,以及如何将它们应用到未来。 动荡的2022年即将结束,在这一年,埃隆·马斯克收购了Twitter,俄乌冲突,许多员工重返办公室。人们还看到,一些安全主管因隐瞒数据泄露而被判入狱。 这些事件以及更多事件改变了业务格局,迫使首席信息安全官在不确定领域前行。Trustwave公司的首席信息官Ko…- 2
- 0
-
IT服务治理 – 唯品会基于 Clickhouse 存储日志的实践 
1、背景 唯品会日志系统dragonfly 1.0是基于EFK构建,于2014年服务至今已长达7年,支持物理机日志采集,容器日志采集,特殊分类日志综合采集等,大大方便了全公司日志的存储和查询。 随着公司的业务发展,日志应用场景逐渐遇到了一些瓶颈,主要表现在应用数量和打印的日志越来越多,开发需要打印更多日志,定位业务问题,做出运营数据分析;另外外部攻击问题和审计要求,需要更多安全相关的日志数据要上报…- 2
- 0
-
【运维工具】flink sql 基础实践 – 常见的疑问点
文章目录 Toggle 1.前言2.状态原理2.1.状态、状态后端、Checkpoint 三者之间的区别及关系?2.2.把状态后端从 FileSystem 变为 RocksDB 后,Flink 任务状态存储会发生那些变化?2.3.什么样的业务场景你会选择 filesystem,什么样的业务场景你会选 rocksdb 状态后端?2.4.Flink SQL API State TTL 的过期机制是 o…- 0
- 0
-
思维认知 – 亮剑精神,怎么带好团队
2005年,《亮剑》一经播出便迅速燃爆各大卫视,并以近14%的收视率,创下当年央视一套电视剧收视率的新纪录。 时至今日,这部剧的重播次数已超3000次,总播放量更是突破了10亿次,至今仍以9.5分稳居豆瓣高分国产剧榜,被称为让人无法拒绝的“抗日神剧”。 为什么《亮剑》能从多如牛毛的影视剧中脱颖而出,成为经典中的经典? 有人说,这是因为剧中的人物没有陷入脸谱化的表达方式;也有人说,它动人心弦的故事、…- 2
- 0
-
经验教训 – 运维工程师 不得不看的日常经验,帮你远离故障
1. 测试使用 当初学习Linux的使用,从基础到服务到集群,都是在虚拟机做的,虽然老师告诉我们跟真机没有什么差别,可是对真实环境的渴望日渐上升,不过虚拟机的各种快照却让我们养成了各种手贱的习惯,以致于拿到服务器操作权限时候,就迫不及待的想去试试。 记得上班第一天,老大把root密码交给我,由于只能使用putty,我就想使用xshell,于是悄悄登录服务器尝试改为xshell+密钥登录,因为没有测…- 1
- 0
-
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。 同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。 滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部…- 1
- 0
-
经验教训 – 2018.12.24 一个800万的教训:运维怎样规避违规操作风险?
“郑大一附院系统瘫痪2小时,违规操作的运维被判5年半”的事件刷了屏。据目前公开资料显示,北京中科某某科技有限公司的夏某某在未经授权或许可的情况下,私自编写了“数据库性能观测程序”和锁表语句,并利用私自记录的账号密码将该程序私自连接郑大一附院“HIS数据库”,导致该锁表语句在“HIS数据库”运行并锁定,造成郑大一附院三个院区所有门诊、临床计算机业务受恶意语句攻击,多个门诊业务系统无法正常操作,所有门…- 10
- 0
-
经验教训 – Google 20年的11条运维经验教训
时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠…- 1
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!