-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 7
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 5
- 0
-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 1
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 6
- 0
-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 3
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 4
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 14
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 25
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 18
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 5
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 4
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 48
- 0
-
运维工具 – 异常数据分析实践,10+个数据分析必会的数据模型
给大家整理了20种常用的分析模型 【注】资料、数据、代码、交流,文末获取。 文章目录 Toggle 1、5W2H分析2、3W黄金圈法则3、金字塔原理4、PEST5、SCQA模型6、RFM模型7、AARRR模型8、KANO模型9、波士顿矩阵10、A/B测试11、SWOT分析12、STP13、4P营销理论14、马斯洛需求层次理论15、波特五力竞争模型16、数据分析六步法17、PDCA循环18、AISA…- 1
- 0
-
故障复盘 – 语雀 P0 事故报告,军规红线9个字总结
故障时间:10月23日下午。 故障现象:语雀出现重大服务故障,持续 7 个多小时。 直接原因:数据存储运维团队在进行升级操作时,新的运维升级工具出现 bug。 具体细节:bug导致华东地区生产环境存储服务器被误下线,使语雀数据服务发生严重故障,造成大面积服务中断。 恢复过程: 因机器类别较老,无法直接操作上线,只能从备份系统中恢复存储数据。 数据恢复过程耗时较长,直到晚上 22 点,语雀的全部服务…- 54
- 0
-
Flink SQL – 字节跳动Flink实践与优化
本文由 Apache Flink Committer,字节跳动架构研发工程师李本超分享,以四个章节来介绍 Flink 在字节的应用实战。 内容如下: 整体介绍 实践优化 流批一体 未来规划 一、整体介绍 文章目录 Toggle 2018 年 12 月 Blink 宣布开源,经历了约一年的时间 Flink 1.9 于 2019 年 8 月 22 发布。在 Flink 1.9 发布之前字节跳动内部基于…- 38
- 0
-
经验教训 – 故障处理,教你30秒把问题说清楚
故障处理可参考麦肯锡30秒电梯法则思路,快速把问题陈述。 文章目录 Toggle 一 了解30秒电梯法则目标对象方法 一 了解30秒电梯法则 谈到“30秒电梯法则”不得不谈到麦肯锡:麦肯锡作为世界上最著名,最成功的战略咨询公司,已有近百年的历史,他在全球40多个国家设有80多家分公司,被称为世界第一战略、组织机构和业绩改善方面的咨询公司以及真正的全球性公司。 “…- 4
- 0
-
经验教训 – 2020.02.23 微盟花23亿买下一个惨痛教训
2月23日晚7点左右,微盟多个小程序显示出现未知错误,多次刷新仍未恢复正常。 基于微盟的商家小程序也都随之宕机,一度无法打开。从23日晚间起,宕机超过24小时,线上生意基本停摆的商家不在少数。 对此,官方一开始回应称设备物理故障,正在紧急抢修和修复。 2月25日,微盟集团(2013.HK)发布关于系统故障的公告,称SaaS(软件即服务)业务数据遭到员工人为破坏,并表示已向上海警方报…- 2
- 0
-
系统稳定性保障 – 哪儿网故障演练实践经验
大家好,我是来自去哪儿网的刘志志,19年加入去哪儿网,主要参与CI/CD平台建设,负责故障演练平台的开发。今天的分享主要分为以下三个部分: 一、背景&价值 如图所示,左边是近期发生的一件影响较大的事故:Facebook服务宕机。持续时长约7小时,造成了次日超过60亿美金的市值下跌,损失数额巨大。右边所展示的则是我们公司中某个业务线的服务调用关系。可以看到,整个链路非常复杂,如果其中某个链路…- 5
- 0
-
最佳实践 – 运维服务器故障排查与定位常用命令
整理总结了一些常用分析网站的命令方便大家快速定位故障所在排除故障,最小化的减少故障给业务带来的影响。 文章目录 Toggle 1. 背景2. 说明3. 分析问题的方法论4. cpu4.1 说明4.2 分析工具4.3 使用方式5. 内存5.1 说明5.2 分析工具5.3 使用方式6. 磁盘IO6.1 说明6.2 分析工具6.3 使用方式7. 网络7.1 说明7.2 分析工具7.3 使用方式8. 系统…- 66
- 0
-
最佳实践 – 技术如何从小白到管理,怎么支撑业务快速发展?
一、背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团队中有效的构建聚焦目标、自我成长、高效能的研发作战团队,快速拿出成果,支撑业务的快速发展。 二、痛点 从小团队人员快速扩张,团队文化稀释,人员效能下降,目标逐渐弱化。 各自团队管理方式及标准不统一,人员管理及协同逐渐混乱。 组织扩大后,难以有效关注个人,无法准确评判个人的成长,贡献等。 三、目标 通…- 2
- 0
-
Flink SQL – 问题剖析及解决实践
文章目录 Toggle 1.简介2.Flink基本概念2.1 流(Stream)2.2 状态(State)2.3 时间语义(Time)2.4 Watermark2.5 API层3.Flink实时计算常见问题分析3.1 数据乱序问题分析3.2 Flink大状态场景及问题分析3.3 数据倾斜问题4.实时计算常见问题的解决方案4.1 数据乱序场景的处理4.2.1 DataStream API处理乱序4.…- 8
- 0
-
【运维工具】Flink SQL 实践6 flink sql 约会 calcite
文章目录 Toggle 1.序篇-本文结构2.背景篇-一条 flink sql 的执行过程2.1.先发挥自己的想象力2.2.看看 flink 的实现3.简介篇-calcite 在 flink sql 中的角色3.1.calcite 是啥?3.2.flink sql 为什么选择 calcite?4.案例篇-calcite 的能力、案例4.1.先用用 calcite4.2.关系代数4.2.1.常用关系…- 1
- 0
-
故障治理 – 线上故障分析与故障治理指引
文章目录 Toggle 1 生产故障分级规范概要1.1 开篇1.2 事故等级定义1.2.1 故障等级定义1.2.2 故障报告模板示例1.2.3 故障响应处理机制1.2.4 思考2 生产故障原因和分类2.1 故障分类2.2 bug是可以完全避免的么?-了解2.3 经典故障示例-了解2.4 混沌工程简介3 生产故障定位和解决流程3.1 影响服务质量的因素3.1.1我们常常面对如下的业务场景3.1.2 …- 11
- 0
-
数字化运营基础技能 – python学习路线图经典版
关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:一类是提供各种资源的推荐,比如书单、教程、以及学习的先后顺序;另一类是提供具体的学习内容,知识点或实际案例。 但很多繁琐而又杂乱的内容,除了给初学者增加理解和认识的噪音外,真正能够起到明确的方向指引导的,确实不多。以至于很多人一开始没有明确的方向就一头扎进去,学了很久却不知道自己到底在学什么,或者自己学了很久不知道能够做什么。…- 2
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



















