-
一文读懂人工智能训练师-高级 报考(福建)
最近市场上很多人关注到了人工智能训练师的认证,有的人关注是因为福建的人才补贴政策高达2600(见证1800),有的是因为看到“时薪千元”企业AI讲师有“人工智能训练师高级”的标签- 23.3k
- 0
-
2024年 互联网故障盘点,我们能从故障中学到什么?
2024年已过,让我们来盘点今年出现的故障。回顾这一年,我们经历了各种挑战和困难,但也从中学到了许多宝贵的经验。 在面对不确定性时,我们学会了更多灵活地调整策略,每一次解决问题的过程,都是对能力的一次历练。虽然路途不易,所幸我们在变化中成长,塑造更强大的自己,也对未来充满了信心和期待。 2024年发生的宕机事件 谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、…- 32
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 17
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 5
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 3
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 8
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 4
- 0
-
思维模型 – 灯塔思维:明确远期目标,保持长远视野
迈克尔·西蒙斯通过研究成功的企业家,发现那些白手起家的亿万富翁企业家有着惊人的共性:他们总是能够从长远的视角来看待问题,而大多数人则只看眼前的利益。以亚马逊创始人贝索斯为例,他为了进行一些可能失败的实验,愿意长期投资数十亿美元,而他看重的并非短期的回报,而是未来可能带来的巨大收益。 灯塔思维强调的是长远的视角和耐心。就像航海者在茫茫大海中靠着远方的灯塔找到方向一样,人生中的灯塔指引我们始终保持目标…- 7
- 0
-
思维模型 – 蚊子思维:拥抱变化,快速反应
曾经有一项研究,通过高速摄影机记录了蚊子在雨中的逃生场景。令人惊讶的是,即便是比蚊子重50倍的雨滴落下,它们也能够安然无恙。蚊子的关键能力在于它能够随着环境的变化做出即时调整。如果雨滴直接打中它,蚊子会顺着雨滴的方向迅速下落,然后再快速调整飞行轨迹。 这告诉我们一个深刻的道理:在复杂和多变的环境中,那些能够迅速做出反应、并根据变化调整策略的人,才能在不断变化的世界中生存下来。英特尔创始人安迪·格鲁…- 7
- 0
-
支付宝5分钟狂亏上亿,不追款实有不得已的苦衷
一、 大事件,2025年1月16日,支付宝给大家发福利啦。 当日14:40-14:45,所有通过支付宝支付的订单,统统打8折,包括购物、还信用卡、转账等等。 网友跟过年一样,纷纷截图。 打折的名义,写着“政府补贴”。 支付宝官方表示,他们设置营销活动时,后来配置错了模版,把优惠额度和优惠金类型都写错了。 不知道哪位IT大神,把支付宝的营销费当做福利发给了全国网友,现在他还好吗?年终奖还有吗? 真想…- 1
- 0
-
经验教训 – 凡是跟金额相关必要从业务角度进行监控,拼XX回应BUG事件回顾
2019-1-20 凌晨一点多,拼多多平台BUG出现。根据脉脉一个ID为“程序员·鹿杖客”的自我爆料,他作为拼多多的一个程序员,将一个100元的无门槛测试券,设置成了自动上线,并在凌晨一点多上线。这些100元无门槛优惠券,拼多多网站页面告知,可以全场通用(特殊商品除外)。 凌晨三点多,已经有大量用户通过网络相互转告领券。而这些可以无条件领取的100无门槛券,经过一些用户以及不排除大职业“羊毛党”发…- 0
- 0
-
故障复盘 – 4个重要运作机制
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 文章目录 Toggle 一、故障复盘目的二、 故障复盘原则三、 故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告3.1.2 确定复盘owner3.1.3 确定故障干系人3.1.4 …- 32
- 0
-
监控治理 – 监控报警优化经验总结
当一个中大型互联网公司,每天由监控系统发出大量报警,而故障却始终无法及时发现的时候,如何能够快速找到问题的根源,如何改进,以及如何度量改进的效果,这一系列的问题就会摆在我们面前,本文基于作者在多家公司的监控治理经验,从评价体系角度出发,整理了十多个相关的指标,从而能够对监控系统以及各个业务线进行有效度量。 评价体系分为三类 第一类是效果指标,用于概要性说明监控治理的结果,通过召回率和发现时长来进行…- 2
- 0
-
盒马新零售运维保障解决方案
今天我带来的是“新零售运维保障解决方案”,内容包括三方面,新零售的现状以及它的挑战、运维保障体系以及未来的发展和方向。 1. 新零售的现状及运维挑战 大家有没有听过“盒区房”?现在新零售其中一个比较典型的业务就是盒马鲜生。 继我们曾经“学区房”的概念之后现在已经出现了“盒区房”的概念,即围绕着盒马鲜生 3 公里内的配送范围区域被称作“盒区房”。 现在像盒马鲜生这样的新零售模式越来越火,而早在 20…- 1
- 0
-
IT服务治理 – 唯品会实现电商平台从业务到架构的治理体系
文章目录 Toggle VIP不同阶段发展历程的商业模式演进唯品会系统架构演变历程电商运营平台关键设计架构设计和治理 VIP不同阶段发展历程的商业模式演进 唯品会在2008年12月创立,一直到2012年,唯品会在做的主要事件就是尾货的抛售,做线上的outlets商家。这种商业模式就是帮别人消化库存,但是这个库存消化完了,现在特卖,公司的重点在发生变化。目前电商被分为了分成了两类,一是平台级公司,包…- 6
- 0
-
经验教训 – 滴滴崩了滴滴官方公布P0级事故原因
11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。 同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。 滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部…- 1
- 0
-
经验教训 – 从10次宕机事件中,我学到重要的经验“不要心存侥幸,你担心的事情一定会发生”
今年的灾难事件有几点是比较深刻体会: 第 1 课:循环依赖会破坏你的运维工具流程工具与生产工具是结合一起,出问题往往是最不起眼功能环节,就是一棵螺丝钉 第 2 课:愚蠢的自动化强依赖于流程工具与自动化工具,应急时缺少了走火通道 第 3 课:现在是 2023年,数据库仍然很棘手灾难恢复后最耗时就是数据关系重建,数据完整性、一致性处理 第 4 课:分阶段慢慢部署变更需要遵循最小灰度原则 第 5 课:为…- 2
- 0
-
经验教训 – 2024.4.8 腾讯云事件持续近87分钟学习经验
腾讯云发布了 4.8 号大故障的复盘报告。我认为是一件好事,因为阿里云双十一大故障的官方故障复盘至今仍然是拖欠着的。公有云厂商想要真正成为 —— 提供水与电的公共基础设施,那就需要承担起责任,接受公众监督 —— 云厂商有义务披露自己故障原因,并提出切实的可靠性改进方案与措施。 那么我们就来看一看这份复盘报告,看看里面有哪些信息,以及可以从中学到什么教训。 事实是什么? 原因是什么? 影响…- 5
- 0
-
运维工具 – 唯品会王玉:老司机教你如何调教Presto和ClickHouse,应对业务难题!
导读:大家好,我是来自唯品会实时平台 OLAP 团队的王玉,主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu,这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作,并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。 本文主要介绍唯品会 OLAP 的演进,包括 Presto 智能化和容器化实践,以及 Clickhouse 在实验平台海量数据存储和计…- 6
- 0
-
2023.11.27滴滴系统崩了 P0级故障?
昨天(11月26日)晚上,不少用户向潮新闻记者帮反映“滴滴系统崩了,还车还不了。” 今天(11月27日)早上,滴滴发布最新通告,致歉的同时表示,系统已修复。 原文如下: 经技术团队连夜修复,滴滴网约车等服务已恢复,用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行,希望能为缓解早高峰压力努力多做一点点。 11月27日晚间因系统故障导致App服务异常…- 17
- 0
-
思维认知 – ChatGPT在电商行业中的应用与前景
近年来,随着人工智能技术的不断发展,智能客服已经逐渐成为了电商行业中不可或缺的一部分。 而在智能客服的众多类型中,ChatGPT作为一种基于 Transformer 模型的智能对话生成模型,已经开始逐渐应用到了电商行业中,对电商行业带来了许多积极的影响。 一、智能客服 ChatGPT 的优势 相比传统的客服方式,智能客服 ChatGPT 有以下几个优势: 1.24小时在线,无需休息:传统的客服需要…- 2
- 0
-
系统稳定性保障 – 字节跳动混沌工程故障演练实践总结
什么是混沌工程 在生产环境中实际运行分布式系统,难免会有各种不可预料的突发事件发生。同时,云原生的发展,不断推进着微服务的进一步解耦,海量的数据与用户规模也带来了基础设施的大规模分布式演进。分布式系统天生有着各种相互依赖,可以出错的地方数不胜数,处理不好就会导致业务受损,或者是其他各种无法预期的异常行为。 在复杂的分布式系统中,无法阻止这些故障的发生,我们应该致力于在这些异常行为被触发之前,尽可能…- 33
- 0
-
故障治理 – 运行无间:阿里巴巴运维保障体系的一种最佳实践
阿里巴巴全球运行指挥中心,GOC (Global Operations Center)保障阿里经济体的业务稳定运行的核心团队。我们负责了整个阿里巴巴全局生产系统的稳定性。就像业界经常提到谷歌的SRE,我们相当于阿里巴巴的SRE。 今天我的分享分为四个部分: 1、稳定性现状及挑战 2、运维…- 30
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!