-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 0
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 4
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 1
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 6
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 8
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 8
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 2
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 2
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 21
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 1
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 1
- 0
-
运维工具 – Hadoop高可用的架构知识
hadoop 2.0 对于Hadoop高可用架构节点介绍 NN服务器会出现脑裂(brain-split)情况什么是脑裂在hadoop2.x版本中,如果存在两个NameNode节点同时服务,这种情况称之为“脑裂” 为什么会出现脑裂脑裂出现原因一般发生在主备NamoNode切换,由于网络延迟、设备故障等,备用的StandbyNameNode【备用节点】认为ActiveNameNode【主节点】失效,此…- 1
- 0
-
大模型,方向比速度更重要
“现代管理学之父”德鲁克先生曾说过这样一句话,被认为“商业之美”最好的形容:“世界上之所以出现鞋匠,是因为有人需要鞋,而不是因为鞋匠需要钱。” 国产大模型,再添新劲旅。9月7日,在腾讯一年一度的全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯将迈入“全面拥抱大模型”时代。同时,其自主研发的通用大模型——混元也正式对外发布,揭开了外界猜测已久的腾讯大模型面纱。坦白…- 2
- 0
-
Flink SQL – 在快手的扩展和实践
Flink SQL 在快手 功能扩展 性能优化 稳定性提升 未来展望 FFA 2021 直播回放 & 演讲 PDF 下载 文章目录 Toggle 一、Flink SQL 在快手二、功能扩展2.1 Group Window Aggregate 扩展2.1.1 支持多维分析2.1.2 引入高阶窗口函数2.2 Window Table-valued Function 扩展2.2.1 丰富 Win…- 2
- 0
-
IT服务治理 什么是关键时效 MOT
什么是关键时刻 关键时刻(MOT)——Moments of truth,用户和公司之间发生了交互关系的瞬间。 案例:在一年当中,每一个北欧航空的乘客平均每人接触五名员工,会对北欧航空公司产生五次印象,每一次十五秒钟,总共五千万次。而这五千万次的“关键时刻”决定了公司将来的成败。 关键时刻的意义 将组织结构翻转过来变成倒金字塔结构位于金字塔底端的蓝领和白领员工,他们都是真正在战场上作战的士兵,最了解…- 1
- 0
-
[运维工具]每秒几十亿实时处理,阿里巴巴超大规模 Flink 集群运维揭秘
今天主要讲三块: 第一,阿里 Flink 发展的历史背景,怎么来的,现状规模到底什么样第二,阿里 Flink 运维管控平台第三,阿里 Flink 平台运维技术解决方案 文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案 一、阿里 Flink 集群运维挑战 首先说一下流计算,批计算就是数据集是有限的,每次的计算都可以拿到一样的结果,在…- 1
- 0
-
系统稳定性保障 – 美团AIOps在事件管理的硬核实践
文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。 “An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service.” Source: Incident Management -ITIL 一、背景 在《AIOps在…- 2
- 0
-
IT服务管理 -携程监控思路与存储升级 ClickHouse 实践经验
大伟,携程软件技术专家,关注企业级监控、日志、可观测性领域。 监控领域有三大块,分别是 Metrics,Tracing,Logging。这三者作为 IT 可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。 Logs:我们对于 Logs 是更加宽泛的定义,即记录事物变化的载体,包括常见的访问日志、交易日志、内核日志等文本型以及 GPS、音视频等泛型数据。日志在调用链场景结构化后…- 1
- 0
-
故障处理最佳实践 – ‘踩坑’、‘跳坑’、‘填坑’、‘避坑’
墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事情发生,那么它更有可能发生 文章目录 Toggle 墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生。这警示我们,在互联网公司,对生成环境发生的任何怪异现象和问题都不要轻视,对其背后的原因一定要调查清楚。同样,海恩法则也强调任何严重的事故背后都是很多次小问题…- 1
- 0
-
运维生产故障有哪些?运维常见问题最佳实践
运维生产故障是指在运维过程中出现的各种问题和故障,可能导致系统停机、服务中断或其他运维效率问题。运维生产故障可以根据不同的因素进行分类,下面是一些常见的运维生产故障分类和其常见类型: 1. 硬件故障硬件故障是指由于服务器、网络设备或其他硬件设备的故障或损坏导致的系统停机或服务中断的问题。常见的硬件故障类型包括:– 服务器故障:例如硬盘故障、内存故障等。– 网络设备故障:例如…- 2
- 0
-
【运维工具】Flink SQL 实践13 维表 join 的性能优化之路(上)附源码
文章目录 Toggle 1.序篇2.背景及应用场景介绍3.来一个实战案例4.flink sql lookup join4.1.lookup join 定义4.2.上述案例解决方案4.3.关于维表使用的一些注意事项4.4.再说说维表常见的性能问题及优化思路4.5.lookup join 的具体性能优化方案4.6.基于 redis connector 的批量访问机制优化5.总结与展望 1.序篇 源码公…- 1
- 0
-
[经验分享]远离故障的十大原则
故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项:可用性。可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归。我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉!1、变更要有回滚,在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障,变更请谨慎7、搭建…- 3
- 0
-
大规模运行 Apache Airflow 的经验和教训
Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify,我们已经在生产中运行了两年多的 Airflow,用于各种工作流,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时,我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在…- 1
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!