全部标签

存储系统

经验教训 – 滴滴崩了滴滴官方公布P0级事故原因

11月29日，滴滴出行再就27日夜间系统故障致歉，提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果：起因是底层系统软件发生故障，并非网传的“遭受攻击”。同时，滴滴表示，当前所有服务已全部恢复，后续将深入开展技术风险隐患排查和升级工作，全面保障服务稳定性，尽最大努力避免类似事故再发生。滴滴拥有庞大的业务线，其底层系统由复杂的软硬件构成，其中包括服务器、网络设备、数据库等等重要组成部…
安全运维
- 8
- 0
aqzt24年12月21日
排查 K8S 问题的经验和技巧

最近更新：故障经验、Kubernetes架构、持久化存储、Helm、CICD、Ingress-nginx、监控告警、应用可观察性、服务治理等相关文章。排查 Kubernetes 问题需要有一定的经验和技巧。在实际使用过程中，可以通过学习和实践来积累经验，并结合官方文档和社区资源进行学习和交流。同时，也可以考虑采用监控和日志系统等第三方工具来帮助进行排查和预警。这样可以更好地保障应用程序的稳定性和…
安全运维
- 11
- 0
aqzt24年12月21日
Flink SQL – 问题剖析及解决实践

文章目录 Toggle 1.简介2.Flink基本概念2.1 流(Stream)2.2 状态(State)2.3 时间语义(Time)2.4 Watermark2.5 API层3.Flink实时计算常见问题分析3.1 数据乱序问题分析3.2 Flink大状态场景及问题分析3.3 数据倾斜问题4.实时计算常见问题的解决方案4.1 数据乱序场景的处理4.2.1 DataStream API处理乱序4.…
安全运维
- 14
- 0
aqzt24年12月21日
运维稳定性 – 故障处理的系统稳定性与可观测性能力实践

笔者从 12 年开始入行，从事 DevOps 研发工作，做过部署系统、监控系统、可观测性相关产品，也做过 SRE 一线和管理工作，对于可观测性的理解和实践，有一些小小的见解，利用本文和大家做一个探讨分享。本文主要内容包括：可观测性在整个商业体系中的位置和价值如何快速发现故障，使用哪类指标告警 SRE 在谈论故障定位的时候，谈的是什么如何找到故障直接原因，找到止损依据如何让可观测性系统呈现观…
安全运维
- 4
- 0
aqzt24年12月21日
【运维工具】flink sql 基础实践 – 常见的疑问点

文章目录 Toggle 1.前言2.状态原理2.1.状态、状态后端、Checkpoint 三者之间的区别及关系？2.2.把状态后端从 FileSystem 变为 RocksDB 后，Flink 任务状态存储会发生那些变化？2.3.什么样的业务场景你会选择 filesystem，什么样的业务场景你会选 rocksdb 状态后端？2.4.Flink SQL API State TTL 的过期机制是 o…
安全运维
- 6
- 0
aqzt24年12月21日
【运维工具】一文搞懂 Hadoop 生态系统的组件

Hadoop概述 Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop是可扩展的，它可以方便地从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性，软件库本身也提供数据保护，并可以在应用层做失败处理，从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。图…
安全运维
- 8
- 0
aqzt24年12月21日
[运维工具]每秒几十亿实时处理，阿里巴巴超大规模 Flink 集群运维揭秘

今天主要讲三块：第一，阿里 Flink 发展的历史背景，怎么来的，现状规模到底什么样第二，阿里 Flink 运维管控平台第三，阿里 Flink 平台运维技术解决方案文章目录 Toggle 一、阿里 Flink 集群运维挑战二、阿里 Flink 运维管控三、Flink 运维解决方案一、阿里 Flink 集群运维挑战首先说一下流计算，批计算就是数据集是有限的，每次的计算都可以拿到一样的结果，在…
安全运维
- 9
- 0
aqzt24年12月21日
数据治理 – XX业务数据分析体系的架构与实践

导读：讲述在业务快速迭代发展过程中，为了让大数据更好地赋能业务，高效的为用户提供有业务价值的数据产品和服务，百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程，包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。全文9911字，预计阅读时间24分钟。文章目录 Toggle 一、前言1.1 名词解释三、实践及经验分享3.1 数据架构3.1.1 什么是数据架构3.1.…
安全运维
- 12
- 0
aqzt24年12月21日
运维工具 – 唯品会Dragonfly日志系统的Elasticsearch实践

文章目录 Toggle 开篇-唯品会日志系统初探Elasticsearch简介硬件配置日志索引管理1. 索引预创建2. 替补索引3. Force Merge4. 冷热分离5. 日志归档日志写入降级策略结语开篇-唯品会日志系统初探唯品会日志系统，承接了公司上千个应用的日志，提供了日志快速查询、统计、告警等基础服务，是保障公司技术体系正常运行必不可缺的重要系统之一。日均接入应用日志600亿条，压缩…
安全运维
- 84
- 0
aqzt24年12月21日
实践案例 – B 站 SRE 实践总结了 4 大关键步骤建设监控告警治理

是不是经常会遇到，有人在群里 @你，告诉你你的系统出故障了，你在犹豫是不是真的出故障的同时还得慌乱地去查找？老板问你系统现在到底健康与否，能不能快速给个判断，你却不敢断言？业务方说你的系统有问题，但你认为没问题，又无法自证？这一切都源自于你的系统没有做好监控和告警：没有监控或者没有一个好的监控，导致你无法快速判断系统是不是健康的；没有告警或者没有一个精准的告警，当系统出问题时不能及时通知到…
安全运维
- 23
- 0
aqzt24年12月21日
Kafka实战(三) – Kafka的自我修养与定位

Kafka是linkedin使用Scala编写具有高水平扩展和高吞吐量的分布式消息系统。 Kafka对消息保存时根据Topic进行归类，发送消息者成为Producer，消息接受者成为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。无论是Kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性，为集群保…
安全运维
- 9
- 0
aqzt21年12月12日
Kafka、RabbitMQ、RocketMQ等消息中间件的对比 —— 消息发送性能和区别

Kafka、RabbitMQ、RocketMQ等消息中间件的对比 —— 消息发送性能和区别那么,消息中间件性能究竟哪家强? 带着这个疑问,我们中间件测试组对常见的三类消息产品(Kafka、RabbitMQ、RocketMQ)做了性能比较。 Kafka是 LinkedIn开源的分布式发布-订阅消息系统，目前归属于Apache顶级项目。Kafka主要特点是基于Pull的模式来处理消息消费，追求高…
安全运维
- 17
- 0
aqzt21年12月12日
如何管理Spark Streaming消费Kafka的偏移量（一）

本篇我们先从理论的角度聊聊在Spark Streaming集成Kafka时的offset状态如何管理。 spark streaming 版本 2.1 kafka 版本0.9.0.0 在这之前，先重述下spark streaming里面管理偏移量的策略，默认的spark streaming它自带管理的offset的方式是通过checkpoint来记录每个批次的状态持久化到HDFS中，如果机器发生故障…
安全运维
- 7
- 0
aqzt21年12月12日
如何收集项目日志统一发送到kafka中？

如何在普通应用程序实时收集日志所谓的普通程序就是web项目的或者非web项目的的程序，大部分都是单机版本的。大多数时候，我们的log都会输出到本地的磁盘上，排查问题也是使用Linux命令来搞定，如果web程序组成负载集群，那么就有多台机器，如果有几十台机器，几十个服务，那么想快速定位log问题和排查就比较麻烦了，所以很有必要有一个统一的平台管理log，现在大多数公司的套路都是收集重要应用的lo…
安全运维
- 29
- 0
aqzt21年12月12日
Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我们…
安全运维
- 18
- 0
aqzt21年12月12日
hadoop生态系统学习之路（五）hbase的简单使用

最近，参与了公司的一个大数据接口平台的开发，具体的处理过程是这样的。我们公司负责数据的入库，也就是一个etl过程，使用MR将数据入到hive里面，然后同步到impala，然后此接口平台提供查询接口，前台会将sql语句以参数传过来，然后接口平台通过调用impala提供的java api接口，将数据查询出来返回给用户。另外，如果查询的数据量很大，那么前台就会传一个taskId过来，第一次只需将数据查询…
安全运维
- 17
- 0
aqzt21年12月12日
Hadoop生态圈介绍

1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统，集成spark生态圈。在未来一段时间内，hadoop将于spark共存，hadoop与…
安全运维
- 10
- 0
aqzt21年12月12日
Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比

文章目录 1、前言 2、概念 2.1、MQ简介 2.2、MQ特点 2.2.1、先进先出 2.2.2、发布订阅 2.2.3、持久化 2.2.4、分布式 3、消息中间件性能究竟哪家强? 3.1、Kafka 3.2、RabbitMQ 3.3、RocketMQ 4、测试 4.1、测试目的 4.2、测试场景 4.2.1、Kafka 4.2.2、RocketMQ 4.2.3、RabbitMQ 4.3、测试结论…
安全运维
- 13
- 0
aqzt21年12月12日
Hadoop生态图谱

当下Hadoop已经成长为一个庞大的体系，貌似只要和海量数据相关的，没有哪个领域缺少Hadoop的身影，下面是一个Hadoop生态系统的图谱，详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切，都起源自Web数据爆炸时代的来临数据抓取系统－ Nutch 海量数据怎么存，当然是用分布式文件系统－ HDFS 数据怎么用呢，分析，处理 MapReduce框架，让你编写代码来实现对…
安全运维
- 10
- 0
aqzt21年12月12日
Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比

文章目录 1、前言 2、概念 2.1、MQ简介 2.2、MQ特点 2.2.1、先进先出 2.2.2、发布订阅 2.2.3、持久化 2.2.4、分布式 3、消息中间件性能究竟哪家强? 3.1、Kafka 3.2、RabbitMQ 3.3、RocketMQ 4、测试 4.1、测试目的 4.2、测试场景 4.2.1、Kafka 4.2.2、RocketMQ 4.2.3、RabbitMQ 4.3、测试结论…
安全运维
- 27
- 0
aqzt21年12月12日
redis 和 memcache的区别

redis 和 memcache的区别以及优缺点 1、 Redis和Memcache都是将数据存放在内存中，都是内存数据库。 2、Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash，zset等数据结构的存储。 3、虚拟内存–Redis当物理内存用完时，可以将一些很久没用到的value 交换到磁盘 4、过期策略–memcache在set时就指定，例如set k…
安全运维
- 11
- 0
aqzt21年12月11日
python 操作redis

Redis .redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不…
安全运维
- 36
- 0
aqzt21年12月11日
Elasticsearch+Hbase实现海量数据秒回查询

文章出处：http://blog.csdn.net/sdksdk0/article/details/53966430 作者：朱培 ID：sdksdk0 首先祝大家2017新年快乐，我今天分享的是通过ElasticSearch与hbase进行整合的一个搜索案例，这个案例涉及的技术面比较广，首先你得有JAVAEE的基础，要会SSM,而且还要会大数据中的hdfs、zookeepe…
安全运维
- 35
- 0
aqzt21年12月11日
redis安装

第一步：下载安装包访问https://redis.io/download 到官网进行下载。这里下载最新的4.0版本. 第二步：安装 1.通过远程管理工具，将压缩包拷贝到Linux服务器中，执行解压操作 tar -zxf redis-4.0.9.tar.gz 2.进入解压文件目录使用make对解压的Redis文件进…
安全运维
- 98
- 0
aqzt21年12月11日