-
一文读懂人工智能训练师-高级 报考(福建)
最近市场上很多人关注到了人工智能训练师的认证,有的人关注是因为福建的人才补贴政策高达2600(见证1800),有的是因为看到“时薪千元”企业AI讲师有“人工智能训练师高级”的标签- 23.3k
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 46
- 0
-
系统稳定性建设(12) – 线上监控指标全解(线上问题排查指南)
前言本文将从 基础设施(CPU、内存、网络、磁盘)、 服务内部(JVM、线程池、连接池等)、中间件(MySQL、Redis、MQ等)、服务治理(注册中心、熔断、分布式事务、服务间调用)、业务指标(支付成功率、转化漏斗)、用户体验(页面性能、用户反馈) 等全维度出发,讲解线上应用的全方面监控参数,大家设计线上服务监控的时候可以借鉴这些参数和思路。线上问题排查也可从这些角度出发。掌握这些将全方面提升你…- 24
- 0
-
系统稳定性建设(4) – 稳定性设计原则:简单、冗余、标准化、健壮
作者介绍 淇公 ,蚂蚁金服技术专家。热爱 java 和一些函数式语言,长期关注系统稳定性领域 文章目录 Toggle 一、差旅随想二、概述稳定性保障三、怎么做系统设计四、风险分析五、风险防范三板斧六、在此之外六、结束 一、差旅随想 因为 base 在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样精密复杂的机器的那帮人真的是了不起,他们是怎样保证这…- 3
- 0
-
系统稳定性建设(3) – 高可用稳定性建设实践指南
文章目录 Toggle 1.概述2. 良好的系统架构和实现2.1 架构设计2.1.1 消除单点2.1.2 数据一致性2.1.3 强弱依赖梳理和降级 2.1.4 热点 或 极限值处理2.1.5 资金交易类系统要仔细考虑资损的风险2.1.6 离线数据流2.1.7其他异常情况处理2.2 容量评估设计2.3 运维方案设计2.4 安全设计2.5 高质量的代码实现3.团队研发运维流程机制4. 技术同…- 8
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 5
- 0
-
思维模型 – 蚊子思维:拥抱变化,快速反应
曾经有一项研究,通过高速摄影机记录了蚊子在雨中的逃生场景。令人惊讶的是,即便是比蚊子重50倍的雨滴落下,它们也能够安然无恙。蚊子的关键能力在于它能够随着环境的变化做出即时调整。如果雨滴直接打中它,蚊子会顺着雨滴的方向迅速下落,然后再快速调整飞行轨迹。 这告诉我们一个深刻的道理:在复杂和多变的环境中,那些能够迅速做出反应、并根据变化调整策略的人,才能在不断变化的世界中生存下来。英特尔创始人安迪·格鲁…- 7
- 0
-
支付宝5分钟狂亏上亿,不追款实有不得已的苦衷
一、 大事件,2025年1月16日,支付宝给大家发福利啦。 当日14:40-14:45,所有通过支付宝支付的订单,统统打8折,包括购物、还信用卡、转账等等。 网友跟过年一样,纷纷截图。 打折的名义,写着“政府补贴”。 支付宝官方表示,他们设置营销活动时,后来配置错了模版,把优惠额度和优惠金类型都写错了。 不知道哪位IT大神,把支付宝的营销费当做福利发给了全国网友,现在他还好吗?年终奖还有吗? 真想…- 1
- 0
-
2024年十大网络安全事件盘点
10大网络安全事件 1微软高管邮箱被“午夜暴雪”攻陷 2024年1月,微软披露其遭到了威胁组织“午夜暴风雪”的攻击。攻击者主要针对微软的高级领导团队成员以及网络安全、法务等部门的员工,窃取了部分电子邮件和附件,同时还访问了一些源代码库和内部系统。 攻击者首先通过一个遗留的非生产测试租户账户获得访问权限,使用密码喷洒攻击,这种攻击方式涉及同时对多个账户尝试大量常见密码。在获得初步立足点后,他们从被攻…- 18
- 0
-
2024年 互联网故障盘点,我们能从故障中学到什么?
2024年已过,让我们来盘点今年出现的故障。回顾这一年,我们经历了各种挑战和困难,但也从中学到了许多宝贵的经验。 在面对不确定性时,我们学会了更多灵活地调整策略,每一次解决问题的过程,都是对能力的一次历练。虽然路途不易,所幸我们在变化中成长,塑造更强大的自己,也对未来充满了信心和期待。 2024年发生的宕机事件 谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、…- 35
- 0
-
2024年复盘-互联网十大故障分析回顾
故障回顾随着2024年的圆满结束,今天,我有幸与各位一同回顾并深入探讨2024年中出现的一些具有代表性的故障案例。我们将分析这些案例,总结经验教训,并探讨如何在未来避免类似问题的发生。 1 2024年 1月11日腾讯游戏故障 故障描述:1月11日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”甚至登上热搜,今天凌晨0时许…- 7
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 19
- 0
-
系统稳定性建设(16) – 稳定架构设计思路
系统稳定性建设是系统工程的核心内容之一。以下是一些重要的方面: 架构设计:采用模块化、松耦合的架构设计,以提高系统的可扩展性和可维护性。合理划分系统功能模块,降低单个模块的复杂度。定义清晰的接口和数据交换标准,确保各模块之间协调工作。 监控与报警:部署全面的监控体系,实时跟踪系统的运行状态和关键指标。建立完善的告警机制,及时发现并定位系统问题。 容错机制:建立完善的异常处理和容错机制,及时检测并隔…- 1
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 5
- 0
-
系统稳定性建设(13) – AI赋能稳定性思路
在当今数字化时代,从云端服务到智能工厂,从金融交易系统到医疗信息系统,各种复杂系统如同现代社会的“神经网络”,其稳定性直接关系到社会运转的顺畅与否。一旦系统出现故障,轻则造成不便,重则引发重大经济损失甚至危及生命安全。因此,系统稳定性治理成为了一个至关重要的课题。而近年来,人工智能(AI)技术的迅猛发展,为系统稳定性治理带来了前所未有的机遇,它如同一位“智能守护者”,正悄然改变着我们对系统稳定性的…- 5
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 3
- 0
-
IT服务治理 – 唯品会基于 Clickhouse 存储日志的实践 
1、背景 唯品会日志系统dragonfly 1.0是基于EFK构建,于2014年服务至今已长达7年,支持物理机日志采集,容器日志采集,特殊分类日志综合采集等,大大方便了全公司日志的存储和查询。 随着公司的业务发展,日志应用场景逐渐遇到了一些瓶颈,主要表现在应用数量和打印的日志越来越多,开发需要打印更多日志,定位业务问题,做出运营数据分析;另外外部攻击问题和审计要求,需要更多安全相关的日志数据要上报…- 3
- 0
-
2023.12.3 腾讯视频崩了,会员没了?
“看到一半说会员没了,我昨天刚充的会员……” 12月3日晚,“腾讯视频崩了”和“腾讯会员没了”两个话题热搜爆了! 有不少网友发微博称腾讯视频的会员突然没有了,想观看会员频道影片也无法观看。 还有网友表示,腾讯视频崩了,会员都没了,网名也变成腾讯网友了。 相关话题登上热搜后,引发了不少网友吐槽。“还以为我手机出问题了,又是重新登陆又是清理垃圾又是重启手机的,结果问题在腾讯这儿…- 39
- 0
-
运维稳定性 -故障处理的系统稳定性与可观测性能力实践(系统稳定性保障)
尚梦宸,中国信息通信研究院云计算与大数据研究所审计与治理部工程师。 一、构建新时代“大运维”体系 什么是“大运维”体系?它是运维发展过程中的一个阶段。在初始阶段,运维主要是辅助研发,运维方式主要是以手工为主,同时需要人工不断维护 更新。 随着数字技术发展及信息化的快速全面突破,研发侧逐渐向运维侧偏移,出现了自动化运维及研发与运维的协同,也即我们说的 DevOps。 DevOps 更多关注…- 5
- 0
-
经验教训 – 网络安全经验经验,帮你降低损失风险
对于很多首席信息安全官来说,即将到来的2023年是一个很好的时机,可以反思他们在2022年里学到的经验和教训,以及如何将它们应用到未来。 动荡的2022年即将结束,在这一年,埃隆·马斯克收购了Twitter,俄乌冲突,许多员工重返办公室。人们还看到,一些安全主管因隐瞒数据泄露而被判入狱。 这些事件以及更多事件改变了业务格局,迫使首席信息安全官在不确定领域前行。Trustwave公司的首席信息官Ko…- 4
- 0
-
PYTHON基础技能 – Python中9个常见字典与异常处理错误与解决方案
文章目录 Toggle 第一部分:字典基础与常见错误1. 创建字典的误解2. 字典访问未初始化键3. 字典更新时的键冲突异常处理入门4. 不处理异常的危险5. 使用finally清理资源第二部分:高级技巧与实战案例6. 字典推导式的高级用法7. Python 3.5+:字典解构合并8. 异常链:提供更详细的错误信息9. 自定义异常实战案例:数据分析预处理 第一部分:字典基础与常见错误 1. 创建字…- 3
- 0
-
系统稳定性保障 – 哪儿网故障演练实践经验
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的开发。今天的分享主要分为以下三个部分: 一、背景&价值 如图所示,左边是近期发生的一件影响较大的事故:Facebook服务宕机。持续时长约7小时,造成了次日超过60亿美金的市值下跌,损失数额巨大。右边所展示的则是我们公司中某个业务线的服务调用关系。可以看到,整个链路非常复杂,如果其中某个链路…- 2
- 0
-
IT服务管理:故障治理 – 运维故障排查处理思路
在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、…- 31
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!















