-
思维模型 – 系统思维是把世界看作一系列相互连接的部分
什么是系统思维?系统思维是一种看待事物的方法,它强调从整体出发,考虑各个组成部分之间的相互关系以及这些关系如何共同影响整个系统的运行。这种方法不仅关注单个元素的行为,还特别重视元素间的互动和反馈环路对系统动态的影响。 核心概念包括: 系统:由多个相互作用的部分组成的整体。边界:定义了系统的范围,区分系统内部和外部环境。输入与输出:描述了系统与外界交换的信息、物质或能量。反馈环路:正反馈(放大效应)…- 1
- 0
-
系统稳定性建设(10) – 从哲学层面谈稳定性建设
背景我(姓名:黄凯,花名:兮之)在阿里工作了五年,一直在一个小团队从事电商的稳定性工作。看了很多稳定性相关的文档,很少有能把稳定性说明白的文档。也有一些文档也能把涉及的方方面面说清楚,但是这些方方面面的来源和推导是不提的。我想尝试系统化体系化的讲稳定性讲清楚。因为哲学上讲共性和个性,那么事物都可以按照从共性到个性进行分层描述,我从哲学层面开始讲起,讲到分布式信息化系统层面,希望你能从某个层面获得帮…- 3
- 0
-
系统稳定性建设(9) – 稳定性监控体系建设实践
文章目录 Toggle 一、前言二、监控体系建设2.1 指标定义2.1.1 通用场景指标2.2.2 特定场景指标2.2 数据采集2.2.1 页面性能数据2.2.2 页面崩溃数据2.2.3 页面白屏数据2.2.4 页面报错数据2.2.5 页面卡顿数据2.3 监控方式2.3.1 数据看板2.3.2 监控告警2.3.3 数据推送三、监控体系运行3.1 解读周期3.2 现状分析3.3 定位异常3.4 异常…- 6
- 0
-
系统稳定性建设(8) – 业务团队系统稳定性的思与行
文章目录 Toggle 前言什么是SRE1,心态&态度1.1,谁适合做稳定性?1.2,业务团队如何支持稳定性SRE人员1.3,开发和SRE的区别1.4,SRE心态上的一些释疑1.4.1,疑惑1:做好了是应该的,出了问题就要负责任1.4.2,疑惑2:稳定性总是做擦屁股的工作 前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8…- 8
- 0
-
系统稳定性建设(7) – 稳定性建设实践总结
2020 年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。 文章目录 Toggle 开篇一、系统稳定性建设是指什么?二、为什么需要系统稳定性建设?三、系统稳定性建设为什么难?3.1 面对的挑战比较大3.2 系…- 8
- 0
-
系统稳定性建设(15) – 各大互联网公司稳定性治理之线上故障处理
文章目录 Toggle 0x01 概述0x02 线上故障处理的目标0x03 线上故障处理的思路0x04 故障发现0x05 故障定位0x06 故障排除0x07 故障回溯0x08 线上故障处理的‘后勤保障’完善的监控/告警体系完善的日志 trace 体系完善的故障处理机制0x09 总结0x10 案例0x11 参考资料线上服务故障处理原则墨菲定律应急目标应急原则应急方法与流程发现问题系统层面监控包括应用…- 2
- 0
-
系统稳定性建设(6) – 研发路上对稳定性治理的一些总结与思考
我是在 2014 年入职饿了么,从前端和 PHP 一直做到后端架构和团队,从 2014 年到 2017 年陆续负责过公司客服、销售、代理商、支付、清结算、订单这些业务的产研与团队;2018 年从业务研发团队抽身,6 个人组起一个小组投身机器学习,试图结合实际的业务场景通过技术改造业务;2019 年回归到平台(中台)研发,负责交易、金融、营销三个中台的研发和团队工作。基于我在饿了么 4 年和阿里巴巴…- 2
- 0
-
系统稳定性建设(5) – 稳定性设计系统的思考
文章目录 Toggle 1、职责2、交付流程稳定性保障(1)方案设计规范(2)代码规范(3)流水线建设(4)上线规范(5)交付流程观测指标3、线上稳定性保障(1)事故预防1. 运维基础能力建设2. 服务治理3. 系统能力预估4. 业务梳理及风险排查(2)事故发现&排查1.原则:可观测性(Observability)2. 工具3. 多维度监控、报警4. 线上问题发现(3)事故处理1. 处理原…- 18
- 0
-
思维模型 – 懒蚂蚁思维:合理分工,做正确的事
在一个实验中,科学家们发现蚂蚁中有一部分看似懒惰的蚂蚁,它们不像其他蚂蚁那样忙于搬运食物,但在关键时刻,它们却能够带领整个蚁群找到新的食物来源。这些“懒蚂蚁”并非不愿劳动,而是将大部分时间用来侦查,确保蚁群在食物短缺时能够迅速找到新的资源。 这一点启示我们,在工作和生活中,并不是所有的时间都应该被用来“忙碌”。有时,我们需要在“懒散”中寻找战略性的突破,像“懒蚂蚁”一样,合理安排时间,做好最重要的…- 1
- 0
-
系统稳定性建设(1) – 如何做好系统稳定性建设系统
文章目录 Toggle 1. 背景介绍2. 故障源的分类3. 稳定性建设四要素第一要素:人第二要素:工具第三要素:预案第四要素:目标4. 稳定性建设四个方向第一个方向:根基要抓牢(45%)第二个方向:工作在日常(30%)第三个方向:预案是关键(15%)第四个方向:容量是核心(10%)3. 总结 1. 背景介绍 在移动互联网时代,用户群的积累比之前更容易,但同样,也会因为糟糕的用户体验,而快速流失用…- 1
- 0
-
思维模型 – 上游思维:追问需求,解决根本问题
顶级的工程师和程序员不仅仅是在解决眼前的问题,他们更擅长从根本上理解问题的本质。例如,腾讯副总裁郄小虎在谷歌时,面对业务部门提出的“将广告字体加大”的需求时,他并没有立刻做出改变,而是追问背后的核心问题。最终,他们发现用户转化率低的根本原因是广告展示位置不合适。通过简单的调整,问题得以解决。 “上游思维”要求我们在面对问题时,不仅仅看到表面现象,而是要深入探讨问题背后的根本原因。在职场中,很多人习…- 0
- 0
-
AI 喂饭指令 – DeepSeek
《DeepSeek:30个喂饭指令》涵盖内容创作、电商运营、知识付费、数据分析、编程开发、生活效率六大领域的30个指令,旨在为各领域工作者及有相关需求的人群提供便捷的任务执行指引。 在内容创作类,指令从不同创作形式出发。爆款标题生成指令,借助数字、情绪词和悬念吸引眼球;小红书种草文指令,要求突出使用场景和痛点解决方案;短视频脚本指令,强调开场悬念、中间反转和结尾行动号召;公众号长文指令,通过分论点…- 4
- 0
-
运维工具 – 唯品会Dragonfly日志系统的Elasticsearch实践
文章目录 Toggle 开篇-唯品会日志系统初探Elasticsearch简介硬件配置日志索引管理1. 索引预创建2. 替补索引3. Force Merge4. 冷热分离5. 日志归档日志写入降级策略结语 开篇-唯品会日志系统初探 唯品会日志系统,承接了公司上千个应用的日志,提供了日志快速查询、统计、告警等基础服务,是保障公司技术体系正常运行必不可缺的重要系统之一。日均接入应用日志600亿条,压缩…- 3
- 0
-
3步高效解决问题实践
利用「假设思考」来解决问题的3步流程。通常我们解决问题有2种思考模式:1种是零基思考,就是没有基准的思考——即跳出既定的框架去思考问题。我们常说的从0到1或者突破式创新就属于这种思考方式。另1种是假设思考,这是我们工作中最常用到的思考模式。即根据现象提出假设,然后再针对假设进行评估和验证。这里介绍的3个步骤解决问题,就是利用假设思维来进行推导的。其 实流程很简单: 第一步:根据问题设定课题这里当设…- 0
- 0
-
FLINK SQL 实践 – (十五):flink sql 开发企业级利器之 Dlink
发现有两款非常优秀的利器: Apache Zeppelin Dlink 为啥先介绍 Dlink 呢? 因为博主和其开发人员混的很熟了,所以就先拿 Dlink 来尝试尝试。 废话不多说,大家都想先看效果再看怎么部署。先看看最终效果。 文章目录 Toggle 2.Dlink 平台效果2.1.登录2.2.flink sql 开发界面3.安装部署篇3.1.Dlink 的 github3.2.部署环境准备3…- 1
- 0
-
故障治理 – 优酷双11猫晚技术质量保障
阿里QA导读:大家还记得天猫双11狂欢夜(猫晚)吗?小编依然还会经常听到真实力老酷guy腾格尔老师钢铁硬核版的《丑八怪》。与往年猫晚相比,今年是最“国际化”的一届,整场晚会通过优酷进行了全球直播覆盖,在这样的双11猫晚的特殊场景下,如何完成质量保障工作,让全球直播也能“如丝般顺滑”,让不同地域、不同设备的用户都能享受极致的体验? 本文为阿里文娱测试开发专家 宫浩 在【阿里文娱2019双11猫晚技术…- 2
- 0
-
SRE工具链建设实践:一夜颠覆60%旧体系,腾讯的SRE运维转型实践(2)
一、前言 之前在《云原生背景下的运维价值思考与实践(上)》 里,重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,D…- 1
- 0
-
可观测性(Observability)- 聚合度量
度量(Metrics)的目的是揭示系统的总体运行状态。相信大家应该见过这样的场景:舰船的驾驶舱或者卫星发射中心的控制室,在整个房间最显眼的位置,布满整面墙壁的巨型屏幕里显示着一个个指示器、仪表板与统计图表,沉稳端坐中央的指挥官看着屏幕上闪烁变化的指标,果断决策,下达命令……如果以上场景被改成指挥官双手在键盘上飞舞,双眼紧盯着日志或者追踪系统,试图判断出系统工作是否正常。这光想像一下,都能感觉到一股…- 4
- 0
-
运维工具 – 唯品会王玉:老司机教你如何调教Presto和ClickHouse,应对业务难题!
导读:大家好,我是来自唯品会实时平台 OLAP 团队的王玉,主要负责唯品会这边 Presto、Kylin、ClickHouse、Kudu,这些在 OLAP 比较常用组件的开源修改、组件优化还有维护的工作,并且我们还负责一些为业务指导、设计 OLAP 方案支持的工作。 本文主要介绍唯品会 OLAP 的演进,包括 Presto 智能化和容器化实践,以及 Clickhouse 在实验平台海量数据存储和计…- 1
- 0
-
故障复盘 – 2023.11.12 阿里云的史诗级故障,从这故障中我们能学到什么
时隔一年阿里云又出大故障,并创造了云计算行业闻所未闻的新记录 —— 全球所有区域/所有服务同时异常。我们应当如何看待这一史诗级故障案例,以及,能从中学习到什么经验与教训? 文章目录 Toggle 事实是什么?原因是什么?影响是什么?评论与观点?能学到什么? 事实是什么? 11月12日,也就是双十一后的第一天,阿里云发生了一场史诗级大翻车。根据阿里云官方的服务状态页,全球范围内所有可用区 x 所有服…- 1
- 0
-
FLINK SQL 实践 – 14 维表 lookup join 实战
背景及应用场景介绍:博主期望你能了解到,flink sql 提供了轻松访问外部存储的 lookup join(与上节不同,上节说的是流与流的 join)。lookup join 可以简单理解为使用 flatmap 访问外部存储数据然后将维度字段拼接到当前这条数据上面 来一个实战案例:博主以曝光用户日志流关联用户画像(年龄、性别)维表为例介绍 lookup join 应该达到的关联的预期效果。 fl…- 0
- 0
-
【运维工具】Flink SQL 天级别窗口中存在的时区问题
本文主要分为两部分: 第一部分(第 1 – 3 节)的分析主要针对 flink,分析了 flink 天级别窗口的中存在的时区问题以及解决方案。 第二部分(第 4 节)的分析可以作为所有时区问题的分析思路,主要以解决方案中的时区偏移量为什么是加 8 小时为案例做了通用的深度解析。 为了让读者能对本文探讨的问题有一个大致了解,本文先给出问题 sql,以及解决方案。后文给出详细的分析~ 文章…- 0
- 0
-
PYTHON基础技能 – Python中9个常见字典与异常处理错误与解决方案
文章目录 Toggle 第一部分:字典基础与常见错误1. 创建字典的误解2. 字典访问未初始化键3. 字典更新时的键冲突异常处理入门4. 不处理异常的危险5. 使用finally清理资源第二部分:高级技巧与实战案例6. 字典推导式的高级用法7. Python 3.5+:字典解构合并8. 异常链:提供更详细的错误信息9. 自定义异常实战案例:数据分析预处理 第一部分:字典基础与常见错误 1. 创建字…- 0
- 0
-
可观测性(Observability) – 链路追踪
虽然 2010 年之前就已经有了 X-Trace、Magpie 等跨服务的追踪系统了,但现代分布式链路追踪公认的起源是 Google 在 2010 年发表的论文《Dapper : a Large-Scale Distributed Systems Tracing Infrastructure》,这篇论文介绍了 Google 从 2004 年开始使用的分布式追踪系统 Dapper 的实现原理。此后,…- 9
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!