-
Kafka实战(三) – Kafka的自我修养与定位
Kafka是linkedin使用Scala编写具有高水平扩展和高吞吐量的分布式消息系统。 Kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。 无论是Kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性,为集群保…- 1
- 0
-
Kafka、RabbitMQ、RocketMQ等消息中间件的对比 —— 消息发送性能和区别
Kafka、RabbitMQ、RocketMQ等消息中间件的对比 —— 消息发送性能和区别 那么,消息中间件性能究竟哪家强? 带着这个疑问,我们中间件测试组对常见的三类消息产品(Kafka、RabbitMQ、RocketMQ)做了性能比较。 Kafka是 LinkedIn开源的分布式发布-订阅消息系统 ,目前归属于Apache顶级项目。Kafka主要特点是 基于Pull的模式来处理消息消费,追求高…- 1
- 0
-
如何管理Spark Streaming消费Kafka的偏移量(一)
本篇我们先从理论的角度聊聊在Spark Streaming集成Kafka时的offset状态如何管理。 spark streaming 版本 2.1 kafka 版本0.9.0.0 在这之前,先重述下spark streaming里面管理偏移量的策略,默认的spark streaming它自带管理的offset的方式是通过checkpoint来记录每个批次的状态持久化到HDFS中,如果机器发生故障…- 1
- 0
-
如何收集项目日志统一发送到kafka中?
如何在普通应用程序实时收集日志 所谓的普通程序就是web项目的或者非web项目的的程序,大部分都是单机版本的。 大多数时候,我们的log都会输出到本地的磁盘上,排查问题也是使用Linux命令来搞定,如果web程序组成负载集群,那么就有多台机器,如果有几十台机器,几十个服务,那么想快速定位log问题和排查就比较麻烦了,所以很有必要有一个统一的平台管理log,现在大多数公司的套路都是收集重要应用的lo…- 15
- 0
-
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。 我们…- 9
- 0
-
hadoop生态系统学习之路(五)hbase的简单使用
最近,参与了公司的一个大数据接口平台的开发,具体的处理过程是这样的。我们公司负责数据的入库,也就是一个etl过程,使用MR将数据入到hive里面,然后同步到impala,然后此接口平台提供查询接口,前台会将sql语句以参数传过来,然后接口平台通过调用impala提供的java api接口,将数据查询出来返回给用户。另外,如果查询的数据量很大,那么前台就会传一个taskId过来,第一次只需将数据查询…- 3
- 0
-
Hadoop生态圈介绍
1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与…- 3
- 0
-
Kafka、RabbitMQ、RocketMQ等 消息中间件 介绍和对比
文章目录 1、前言 2、概念 2.1、MQ简介 2.2、MQ特点 2.2.1、先进先出 2.2.2、发布订阅 2.2.3、持久化 2.2.4、分布式 3、消息中间件性能究竟哪家强? 3.1、Kafka 3.2、RabbitMQ 3.3、RocketMQ 4、测试 4.1、测试目的 4.2、测试场景 4.2.1、Kafka 4.2.2、RocketMQ 4.2.3、RabbitMQ 4.3、测试结论…- 4
- 0
-
Hadoop生态图谱
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时代的来临 数据抓取系统 - Nutch 海量数据怎么存,当然是用分布式文件系统 - HDFS 数据怎么用呢,分析,处理 MapReduce框架,让你编写代码来实现对…- 4
- 0
-
Kafka、RabbitMQ、RocketMQ等 消息中间件 介绍和对比
文章目录 1、前言 2、概念 2.1、MQ简介 2.2、MQ特点 2.2.1、先进先出 2.2.2、发布订阅 2.2.3、持久化 2.2.4、分布式 3、消息中间件性能究竟哪家强? 3.1、Kafka 3.2、RabbitMQ 3.3、RocketMQ 4、测试 4.1、测试目的 4.2、测试场景 4.2.1、Kafka 4.2.2、RocketMQ 4.2.3、RabbitMQ 4.3、测试结论…- 12
- 0
-
Elasticsearch+Hbase实现海量数据秒回查询
文章出处:http://blog.csdn.net/sdksdk0/article/details/53966430 作者:朱培 ID:sdksdk0 首先祝大家2017新年快乐,我今天分享的是通过ElasticSearch与hbase进行整合的一个搜索案例,这个案例涉及的技术面比较广,首先你得有JAVAEE的基础,要会SSM,而且还要会大数据中的hdfs、zookeepe…- 25
- 0
-
HBase 架构与工作原理1 – HBase 的数据模型
本文系转载,如有侵权,请联系我:likui0913@gmail.com 一、应用场景 HBase 与 Google 的 BigTable 极为相似,可以说 HBase 就是根据 BigTable 设计的,这一点在 BigTable 论文中也能发现。 在 BigTable 论文中提到了它的应用场景: BigTable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通…- 3
- 0
-
Facebook开源了高性能,内存型的时序数据库存储引擎:Beringei
运行大规模的全球分布式服务需要对我们系统的运行状况和性能进行精确监控,以便在第一时间识别和诊断出现的问题。Facebook使用时间序列数据库(TSDB)来跟踪和存储系统度量指标,比如说产品的统计信息(比如每分钟发送多少消息)、服务的统计信息(比如命中缓存层与MySQL层的查询速率),以及系统的统计信息(比如CPU、内存和网络的使用情况),那样我们就能看到基础设施上的实时负载,并就如何分配资源做出决…- 56
- 0
-
网易HBase优化实战
前言 2015年下半年伊始,Inside君所在的数据库组正式开始接手HBase的运维与开发任务,在这其中遇到了很多问题,故对这半年的工作做一个总结,也是给其他小伙伴的参考。对于接触MySQL数据库比较多的时间,一时要马上上手并理解这样一个分布式的数据库,的确遇到了很大的挑战。好在,很多坑我们已经填过,未来的挑战星辰大海。 背景 网易的Datastream服务一直以来在使用HBase分流日志,每天的…- 1
- 0
-
关系型数据库和非关系型数据库的区别
目录 关系型数据库 关系型数据库: 关系模型中的常用概念 优点 不足 非关系型数据库 非关系型数据库: 非关系型数据库结构 优点 不足 分类 CAP 理论 关系型与非关系型数据库的比较 最近的数据库排名 关系型数据库 关系型数据库: **指采用了 关系模型来组织数据的数据库。 关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。** 关系模型中的常用概念…- 10
- 0
-
《NoSQL权威指南》——1.6 BASE
本节书摘来自异步社区出版社《NoSQL权威指南》一书中的第1章,第1.6节,作者:【美】Joe Celko(乔•塞科) ,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.6 BASE 世界上现在满是巨大的分布式计算系统,如Google的BigTable、Amazon的Dynamo和Facebook的Cassandra。这里我们要提到的BASE是下面内容的简写。 基本可用(basicall…- 14
- 0
-
数据库分区, 分表, 分库, 分片
一、分区的概念 数据分区是一种物理数据库的设计技术,它的目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。 分区并不是生成新的数据表,而是将表的数据均衡分摊到不同的硬盘,系统或是不同服务器存储介子中,实际上还是一张表。另外,分区可以做到将表的数据均衡到不同的地方,提高数据检索的效率,降低数据库的频繁IO压力值,分区的优点如下: 1、相对于单个文件系统或…- 5
- 0
-
《NoSQL权威指南》——2.1 列式数据库的历史
本节书摘来自异步社区出版社《NoSQL权威指南》一书中的第2章,第2.1节,作者:【美】Joe Celko(乔•塞科) ,更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.1 列式数据库的历史 列式存储以及倒排或不按顺序存储文件的方式并不是最新提出的。TAXIR是1969年为生物学建立的第一个列式数据库存储系统。加拿大统计局于1976年实现了RAPID系统,并将其用于加拿大人口和住房普查数…- 13
- 0
-
三大NoSQL数据库HBase、Cassandra和MongoDB大比拼
NoSQL是什么?NoSQL提供了新的数据管理技术,旨在应对数据数量、速度和种类与日俱增的态势。它可以存储和检索数据,能够以关系数据库中所用的表格式关系之外的方式来建立模型。 NoSQL系统又叫“Not only SQL”,强调这一事实:它们还支持类似SQL的查询语言。 我们为什么需要NoSQL? 关系数据库面临下列挑战: 并不适用于数据类型多样化(比如图像、视频和文本)的大量(PB级)数据。 无…- 17
- 0
-
NoSQL的三大基石(CAP、BASE和最终一致性)
CAP,BASE和最终一致性是NoSQL数据库存在的三大基石。而五分钟法则是内存数据存储了理论依据。这个是一切的源头。 **CAP **C: Consistency 一致性 A: Availability 可用性(指的是快速获取数据) P: Tolerance of network Partition 分区容忍性(分布式) 10年前,Eric Brewer教授指出了著名的CAP理论,后来Seth …- 10
- 0
-
《解读NoSQL》——1.3 NoSQL案例研究
本节书摘来自异步社区出版社《解读NoSQL》一书中的第1章,第1.3节,作者: 【美】Dan McCreary(丹•麦克雷) , Ann Kelly(安•凯利),更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.3 NoSQL案例研究 我们的经济正在发生变革,企业想要保持竞争力就必须找到吸引并留住客户的新方法。要做到这一点,就必须得到技术和相关技术人员及时有效的支持。在这个技术前沿时代,解…- 18
- 0
-
Redis 内存为什么不宜过大
女主宣言 近几年来,随着 Redis 的发展壮大,被越来越多的人所熟知,越来越多的企业也使用了Redis。今天我们来分享下 Redis 单实例内存过大遇到的问题以及解决方案。 PS:丰富的一线技术、多元化的表现形式,尽在“ HULK一线技术杂谈”,点关注哦! 近两年我们 HULK 云平台承载的Redis日访问量从800+亿增加到了2100+亿,Redis实例数也增长到了5000+。 在这几年的线上…- 20
- 0
-
dubbo2.5-spring4-mybastis3.2-springmvc4-mongodb3.4-redis3.2整合(八)SpringMVC上传文件到FastDFS
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010046908/article/details/54906751 目前项目中需要存储一些文件、视频等。于是乎,查找了一些关于文件服务器资料。其中有Lustre、HDFS、Gluster、Alluxio、Ceph 、FastDFS。下面简单介绍一下: Lustre 是一个大规模的、安全可靠的、具备…- 4
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!