-
hadoop生态系统学习之路(十二)cloudera manager的简单使用
最近,忙着辞职和考驾照的事,都没时间写博客了,差点把大数据相关的一些技术都给忘了。不过还好做好归纳整理,能够快速的恢复起来。其实,笔者发现,学习大数据还是有点小窍门的。首先,最好能有个人指引,有什么问题都可以问他,因为我仅仅只看视频、资料等,很难挖掘里面有价值的东西。另外,我们得多尝试,多发现问题并解决。其次,一开始我们不要纠结于环境的搭建,等我们对整个hadoop生态系统有一定的了解之后,我们再…- 12
- 0
-
实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践
实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践 作者写第一版书的时候,,hive还没有官方支持row_number,需要使用UDF来实现额外的jar; 不过幸运的是,从hive 0.11过后,官方就加入这个函数,所以入门更容易啦。 1 row_number定义 结合情景分析 1row_number()over (partition by tran_idorde…- 21
- 0
-
hadoop生态系统学习之路(五)hbase的简单使用
最近,参与了公司的一个大数据接口平台的开发,具体的处理过程是这样的。我们公司负责数据的入库,也就是一个etl过程,使用MR将数据入到hive里面,然后同步到impala,然后此接口平台提供查询接口,前台会将sql语句以参数传过来,然后接口平台通过调用impala提供的java api接口,将数据查询出来返回给用户。另外,如果查询的数据量很大,那么前台就会传一个taskId过来,第一次只需将数据查询…- 3
- 0
-
HDInsight-Hadoop实战(二)传感器数据分析
HDInsight-Hadoop实战(二)传感器数据分析 简介 现在很多个人和商业设备含有从物理世界中收集信息的传感器。例如,大多数电话拥有 GPS,健身设备可跟踪你走的步数,恒温控制器可监控建筑的温度。 在此教程中,你将了解如何将 HDInsight 用于处理暖气、通风和空气调节 (HVAC) 系统产生的历史数据,以识别不能有效维持设定温度的系统。你将了解如何: 优化和丰富来自多个国家/地区的建…- 9
- 0
-
hadoop实战(五)MAPREDUCE操作
一、基础概念 Maapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; (一)、为什么使用MAPREDUCE 1、海量数据在单机上处理因为硬件资源限制,无法胜任 2、一旦将单机版程序扩展到集群来分布式运行,将极大增…- 13
- 0
-
Hadoop的Python框架指南
最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它来进行的。但Apache Hadoop的生态系统大部分都是用Java来实现的,也是为Java准备的,这让我很恼火。所以,我的头等大事变成了寻找一些Python可以用的Hadoop框架。 在这篇文章里,我会把我个人对这些框架的一些无关科学的看法写下来,这些框架包括: …- 25
- 0
-
Hadoop生态圈介绍
1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与…- 3
- 0
-
kafka原理和实践(六)总结升华
目录 总结篇 1.官方介绍 2.特点 3.Kafka的设计 4.Kayka的应用场景 5.总结 正文 系列目录 kafka原理和实践(一)原理:10分钟入门 kafka原理和实践(二)spring-kafka简单实践 kafka原理和实践(三)spring-kafka生产者源码 kafka原理和实践(四)spring-kafka消费者源码 kafka原理和实践(五)spring-kafka配置…- 1
- 0
-
Hadoop生态图谱
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时代的来临 数据抓取系统 - Nutch 海量数据怎么存,当然是用分布式文件系统 - HDFS 数据怎么用呢,分析,处理 MapReduce框架,让你编写代码来实现对…- 4
- 0
-
Kafka实战(三) – Kafka的自我修养与定位
Kafka是linkedin使用Scala编写具有高水平扩展和高吞吐量的分布式消息系统。 Kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。 无论是Kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性,为集群保…- 1
- 0
-
Hadoop如何修改HDFS文件存储块大小
一、 临时修改 可以在执行上传文件命令时,显示地指定存储的块大小。 查看当前 HDFS文件块大小 我这里查看HDFS上的TEST目录下的jdk-7u25-linux-x64.gz 文件存储块大小。 1.1 终端命令方式查看 [xiaoyu@hadoop02 hadoop-1.1.2]$ ./bin/hadoop fs -stat "%o" TEST/jdk-7u25-linu…- 130
- 0
-
Kafka、RabbitMQ、RocketMQ消息中间件的对比
引言 分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦。现在开源的消息中间件有很多,目前对Kafka、RabbitMQ、RocketMQ这三个消息中间件做下对比分析。 --kafkaRocketMQRabbitMQ数据来源相关文章定位设计定位系统间的数据流管道,实时数据处理。 例如:常规的消息系统、网站活性跟踪,监控数据,日志收集、处理等非日志的可靠消息传输。 例如:订单…- 5
- 0
-
Hadoop各商业发行版之比较
Hadoop 的发行版除了社区的Apache hadoop外,cloudera,hortonworks,mapR, EMC , IBM , INTEL , 华为 等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型 企业 尤其重要。每个发行版都有自己的一些特点,本文就各发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供…- 9
- 0
-
Hadoop 分布式文件系统 HDFS
Hadoop 分布式文件系统 HDFS 文章目录 Hadoop 分布式文件系统 HDFS 概述 HDFS概念 2.0 HDFS 架构图 2.1 数据块(block) 2.2 namenode 与 datanode 2.2.1 NameNode * 2.2.2 DataNode * 2.2.3 HDFS Client * 2.2.4 HDFS故障处理 * 2.2.5 HDFS 安全模式 什么是元数据…- 10
- 0
-
8天学通MongoDB——第七天 运维技术
随笔- 104 文章- 0 评论- 1541 8天学通MongoDB——第七天 运维技术 这一篇我们以管理员的视角来看mongodb,作为一名管理员,我们经常接触到的主要有4个方面: 1. 安装部署 2. 状态监控 3. 安全认证 4. 备份和恢复, 下面我们就一点一点的讲解。 一:安装部署 我之前的文章都是采用console程序来承载,不过在生产环境中这并不是最佳实…- 2
- 0
-
NoSQL架构实践(二)——以NoSQL为主
前面一篇《NoSQL架构实践(一)——以NoSQL为辅》主要介绍了以NoSQL为辅助的架构,这种架构实施起来比较简单,易于理解,由于其中也使用了传统的关系数据库,让开发者更容易控制NoSQL带来的风险。接下来我们继续深入下去,换另外一个角度,“以NoSQL为主”来架构系统。 \ (三)纯NoSQL架构 \ 只使用NoSQL作为数据存储。 \ \ 图 4-纯NoSQL架构 \ 在一些数据结构、查询关…- 0
- 0
-
Redis的Java客户端Jedis的八种调用方式(事务、管道、分布式)介绍
jedis是一个著名的key-value存储系统,而作为其官方推荐的java版客户端jedis也非常强大和稳定,支持事务、管道及有jedis自身实现的分布式。 在这里对jedis关于事务、管道和分布式的调用方式做一个简单的介绍和对比: 一、普通同步方式 最简单和基础的调用方式, 1@Test 2public void test1Normal() { 3 Jedis jedis = new J…- 14
- 0
-
MySQL阶段一――mysql安装与调优+各版本特性
MySQL初识; 关系型数据库: ** mysql:**开源免费,可移植性好 ** Oracle:**一般配合Java比较多,处理大批量数据,速度快 ** db2:**最贵的数据库,安全性好 ** sql server:**微软的产品,数据量不超过几百万,企业级 ** access:**门户网站数据库,接受不了大数据 *…- 2
- 0
-
mongodb存储引擎
在了解了mongodb的基本使用之后,我们看一下mongodb的存储引擎。从更深层次了解mongodb的数据处理机制,也在mongodb出现数据丢失等情况时,便于对问题进行排查。 1、存储引擎wiredTiger mongodb从3.0开始引入了可插拔存储引擎的概念。目前主要有MMAPV1、WiredTiger两种引擎可供选择。在3.2版本之前默认引擎为MMAPV1,采用linux操作系统内存映射…- 48
- 0
-
NoSQL架构实践(三)——以NoSQL为缓存
在《NoSQL架构实践》系列的前面两篇文章中,介绍了《以NoSQL为主》和《以NoSQL为辅》的架构。由于NoSQL数据库天生具有高性能、易扩展的特点,所以我们常常结合关系数据库,存储一些高性能的、海量的数据。从另外一个角度看,根据NoSQL的高性能特点,它同样适合用于缓存数据。用NoSQL缓存数据可以分为内存模式和磁盘持久化模式。 内存模式 说起内存模式缓存,我们自然就会想起…- 2
- 0
-
nginx反向代理,负载均衡,redis session共享,keepalived高可用
使用的资源: nginx主服务器一台,nginx备服务器一台,使用keepalived进行宕机切换。 tomcat服务器两台,由nginx进行反向代理和负载均衡,此处可搭建服务器集群。 redis服务器一台,用于session的分离共享。 nginx主服务器:192.168.50.133 nginx备服务器:192.168.50.135 tomcat项目服务器1:192.168.50.137 to…- 12
- 0
-
性能调优之mysql通过status性能优化 1
性能调优之mysql通过status性能优化 mysql同样的设置,在不同的环境下 ,由于内存,访问量,读写频率,数据差异等等情况,可能会出现不同的结果,因此简单地根据某个给出方案来配置mysql是行不通的,最好能使用 status信息对mysql进行具体的优化。 mysql> show global status; 可以列出mysql服务器运行各种状态值,另外,查询mysql服务器配置信息…- 4
- 0
-
MongoDB wiredTiger存储引擎下的存储方式LSM和B-Tree比较
前段时间做拦截件监控的时候把拦截件生命期存入mongodb,因生命期有各种变化,因此对此表的更新写操作非常多,老大给我看了一篇文章,才知道mongodb已经支持lsm存储方式了。 原文如连接:https://github.com/wiredtiger/wiredtiger/wiki/Btree-vs-LSM 文中对比了LSM和B-Tree的读写吞吐量,在单线程写操作下和多线程读操作下的差异。英文差…- 11
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!