-
支付宝5分钟狂亏上亿,不追款实有不得已的苦衷
一、 大事件,2025年1月16日,支付宝给大家发福利啦。 当日14:40-14:45,所有通过支付宝支付的订单,统统打8折,包括购物、还信用卡、转账等等。 网友跟过年一样,纷纷截图。 打折的名义,写着“政府补贴”。 支付宝官方表示,他们设置营销活动时,后来配置错了模版,把优惠额度和优惠金类型都写错了。 不知道哪位IT大神,把支付宝的营销费当做福利发给了全国网友,现在他还好吗?年终奖还有吗? 真想…- 1
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 3
- 0
-
支付宝打8折P0资损故障思考
2025年1月16日下午14:40至14:45,支付宝平台出现重大故障。在这短短5分钟内,用户在进行个人转账、信用卡支付、缴费等操作时,订单支付页面均弹出“政府补贴”提示,直接享受到了20%的减免优惠。 (图片来源于网络) 关于支付宝是否补扣用户的钱,网友各种意见都有。我个人的观点:如果支付宝要扣,一定是在法律框架允许的情况下扣回,当然这不可避免带来网友们的口诛笔伐。如果不扣,也有很多先例,包括多…- 3
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 44
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 17
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 23
- 0
-
2024年 互联网故障盘点,我们能从故障中学到什么?
2024年已过,让我们来盘点今年出现的故障。回顾这一年,我们经历了各种挑战和困难,但也从中学到了许多宝贵的经验。 在面对不确定性时,我们学会了更多灵活地调整策略,每一次解决问题的过程,都是对能力的一次历练。虽然路途不易,所幸我们在变化中成长,塑造更强大的自己,也对未来充满了信心和期待。 2024年发生的宕机事件 谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、…- 33
- 0
-
经验教训 – 可乐可乐危机事件
1999年6月可口可乐遭遇灭顶之灾,比利时和法国的一些中小学生因饮用美国饮料可口可乐而中毒,比利时政府禁止销售可口可乐饮料,可口可乐公司对此进行了危机公关,虽然此次处理危机的力度并不弱,但决策节奏显然慢了半拍。 1999年6月初,比利时和法国的一些中小学生饮用美国饮料可口可乐,发生了中毒。 一周后,比利时政府颁布禁令,禁止本国销售可口可乐公司生产的各种品牌的饮料。 已经拥有113年历史的可口可乐公…- 10
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 63
- 0
-
运维工具 – 异常数据分析实践,批量拆分列数据或批量汇总数据
Excel的分列功能可以将一列数据按照指定的分隔符拆分为多列,本节则要利用Python编程实现类似的功能,对多个工作簿中的列进行拆分。 from pathlib import Path import xlwings as xw import pandas as pd src_folder = Path('\\每月统计表\\') file_list = list(src_fold…- 1
- 0
-
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方说你的系统有问题,但你认为没问题,又无法自证? 这一切都源自于你的系统没有做好监控和告警: 没有监控或者没有一个好的监控,导致你无法快速判断系统是不是健康的;没有告警或者没有一个精准的告警,当系统出问题时不能及时通知到…- 17
- 0
-
实践案例 – 360容器平台监控实践
背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系统 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发…- 1
- 0
-
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。 同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。 滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部…- 1
- 0
-
数字化运营基础技能 – pandas实战 – 数据清洗
这篇文章我会先给你讲解数据清洗的重要性,然后我会跟你列举数据清洗的四大准则,最后,我会用一个实战案例带你学会如何使用Python进行数据清洗。 也可以直接访问我的Github地址进行下载: https://github.com/RecordLiu/Python-Data-cleaning 好了,接下来,咱们详细看一看。 文章目录 Toggle 认识数据清洗数据清洗四大准则使用Python进行数据清…- 1
- 0
-
数字化转型-IT运营为什么改变很重要
IT当前的运营模式在受到挑战。IT的复杂性和变化率的增长暴露了当前工作方式的局限性。在当今的环境中,可以全面管理IT服务和产品生命周期的数字管理系统对于成功至关重要。组织需要专门针对新数字化现实来设计的运营模型。 本文介绍ITIL® 4如何与IT4IT ™标准一起使用,来统一管理新的数字现实。 这两个框架的结合实现了更加简化和自动化的交付模型:一种利用了敏捷和DevOps方法的模型。 ITIL与I…- 10
- 0
-
排查 K8S 问题的经验和技巧
最近更新:故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。 排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中,可以通过学习和实践来积累经验,并结合官方文档和社区资源进行学习和交流。同时,也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…- 1
- 0
-
FLINK SQL 实践 – 14 维表 lookup join 实战
背景及应用场景介绍:博主期望你能了解到,flink sql 提供了轻松访问外部存储的 lookup join(与上节不同,上节说的是流与流的 join)。lookup join 可以简单理解为使用 flatmap 访问外部存储数据然后将维度字段拼接到当前这条数据上面 来一个实战案例:博主以曝光用户日志流关联用户画像(年龄、性别)维表为例介绍 lookup join 应该达到的关联的预期效果。 fl…- 5
- 0
-
数字化运维 – PYTHON 日常数据分析 – EXCEL常用聚合函数处理技巧
文章目录 Toggle 案例01 对一个工作簿中的所有工作表分别求和举一反三 对一个工作簿中的所有工作表分别求和并将求和结果写入固定单元格案例02 批量统计工作簿的最大值和最小值 案例01 对一个工作簿中的所有工作表分别求和 代码文件:对一个工作簿中的所有工作表分别求和.py – 数据文件:采购表.xlsx import os import xlwings as xw import p…- 0
- 0
-
告警服务治理 – 简单有效经验分享
Facebook 深入探讨的问题是:“人类应当留意哪些 IT 告警?” Facebook 的产品工程师 Brian Smith 首先向我们介绍了 Facebook 用来确定 IT 事件应否入人类法眼(这一过程被称为 SAR,即信号、可行动性和关联性)的准则的初步定义。 信号 — 这是误报吗?一定是信号不足! 可行动性 — 收到这一告警时,能立即采取措施吗? 关联性 — 收到这一告警时,有其他告警传…- 0
- 0
-
【运维工具】Flink SQL 实践6 flink sql 约会 calcite
文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥?3.2.flink sql 为什么选择 calcite?4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…- 1
- 0
-
故障治理 – 滴滴顺风车服务端之稳定性规范故障治理
服务端作为顺风车技术部内最大的工程团队,随着人员的扩张和迭代,流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率,另一方面,我们也希望在一次次的实战中不断的总结,探索出适用于我们团队的最佳实践。 基于此,我们制定并推广了一套适用于服务端开发的可执行、最小限制的工程规范,包括研发流程、稳定性、性能成本等多个方面。 本文给出其中稳定性相关的规范,这些规范都是顺风车成立五…- 5
- 0
-
IT 故障治理 – 运维救火必备:问题排查与系统优化手册(结合教训现身说法)
软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查(Trouble-shooting)了。特别是那些需要 7×24 小时不间断维护在线业务的一线服务端程序员们,大大小小的问题排查线上救火早已成为家常便饭,一不小心可能就吃成了自助餐 —— 竖着进躺着出,吃不了也兜不住。 本文分享作者在服务端问题排查方面的一些经验,…- 3
- 0
-
PYTHON基础技能 – Python自动化办公的14个实用脚本
在日常工作中,重复性的任务不仅耗时,还容易出错。Python凭借其简洁易学的语法,成为许多办公室自动化任务的首选工具。今天,我们就一起来看看如何用Python编写一些实用的小脚本,提高工作效率。 文章目录 Toggle 1. 文本文件批量重命名2. Excel数据清洗3. PDF合并器4. 图片压缩工具5. 文本内容替换6. 数据抓取与解析7. 数据导出到CSV8. 邮件自动发送9. 文件夹监控与…- 3
- 0
-
PYTHON基础技能 – Python 10个日期和时间操作的实用技巧
文章目录 Toggle 技巧1:导入时间和datetime模块技巧2:格式化日期技巧3:计算日期差技巧4:提取日期部分技巧5:解析字符串为日期技巧6:日期的加减技巧7:处理时区技巧8:循环日期技巧9:日期时间的比较技巧10:日期作为序列实战案例:年龄计算 技巧1:导入时间和datetime模块 在Python中,处理日期和时间首先需要导入相应的模块。datetime模块提供了非常强大的功能。 im…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!