Hadoop入门

释放双眼，带上耳机，听听看~！

Hadoop入门简介及搭建

简介

Hadoop是apache旗下的用java语言实现的开源软件框架

狭义 : 是一个软件,框架

HDFS ( 分布式文件系统) 解决了海量数据的存储问题

YARN( 资源管理任务调度) 解决了集群中资源管理的问题

MAPREDUCE( 分布式计算框架 ) 解决了海量数据的计算问题

广义 : hadoop是一个生态圈,是一个平台

特性

扩容能力在可用的计算机集群间分配数据并完成计算任务, 可以方便的扩展到数以千计的节点中

成本低通过普通廉价的机器组成服务器集群来分发以及处理数据

高效率在节点之间动态并行的移动数据

可靠性自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务

集群规划

Hadoop入门

hadoop集群包含 HDFS集群和YARN集群 , 这两个集群逻辑上分离, 物理上通常在一起

这两个集群都是主从集群( 一主多从 )

HDFS集群

主角色: NameNode

从角色: DataNode

秘书角色(主角色的) SecondaryNameNode

YARN集群

主角色: ResourceManager

从角色: NodeManager

规划
1
2
3
4
5
6
7
1node-1 : namenode                     datanode  | resourcemanager  nodemanager

2node-2 :           secondarynamenode  datanode  |                 nodemanager

3node-3 :                              datanode  |                 nodemanager

4node-4 :                              datanode  |                 nodemanager

5node-5 :                              datanode  |                 nodemanager

6

7
安装包

自己编译源码包生成安装包的好处可以针对自己的操作系统生成最合适的包

如果源码中有些组件不适合自己的项目, 可以进行适当的修改
1
2
3
4
1hadoop-2.7.4-src.tar.gz   src 源码包

2hadoop-2.7.4.tar.gz       bin 安装包

3

4
目录结构
1
2
3
4
5
6
1bin        hadoop的基本脚本

2sbin   hadoop封装的基本脚本 包括hdfs yarn的启动关闭脚本

3etc        hadoop配置文件的目录

4share  hadoop各个模块编译后的jar包

5

6

集群搭建

解压安装包

tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz

配置文件的修改

在主节点进行修改 scp到子节点

core hdfs yarn mapreduce 有默认配置文件, xxx-site.xml … 中没有配置的, 就使用默认配置文件中的

hadoop-env.sh 设置hadoop运行时需要的环境变量( java )


1
2
3
1export JAVA_HOME=/export/servers/jdk1.8.0_65

2

3

core-site.xml 设置hadoop的文件系统主节点(namenode)主机和数据存放目录


1
2
3
4
5
6
7
8
9
10
11
12
1&lt;!-- 用于设置 Hadoop 的文件系统，由 URI 指定 --&gt;

2&lt;property&gt;

3    &lt;name&gt;fs.defaultFS&lt;/name&gt;

4    &lt;value&gt;hdfs://node-1:9000&lt;/value&gt;

5&lt;/property&gt;

6&lt;!-- 配置 Hadoop 的临时目录,默认/tmp/hadoop-${user.name} --&gt;

7&lt;property&gt;

8    &lt;name&gt;hadoop.tmp.dir&lt;/name&gt;

9    &lt;value&gt;/home/hadoop/hadoop-2.4.1/tmp&lt;/value&gt;

10&lt;/property&gt;

11

12

hdfs-site.xml 设置hdfs副本数量和secondearynamenode(秘书节点)所在主机


1
2
3
4
5
6
7
8
9
10
11
12
1&lt;!-- 指定 HDFS 副本的数量 --&gt;

2&lt;property&gt;

3    &lt;name&gt;dfs.replication&lt;/name&gt;

4    &lt;value&gt;2&lt;/value&gt;

5&lt;/property&gt;

6&lt;!-- secondary namenode 所在主机的 ip 和端口--&gt;

7&lt;property&gt;

8    &lt;name&gt;dfs.namenode.secondary.http-address&lt;/name&gt;

9    &lt;value&gt;192.168.1.152:50090&lt;/value&gt;

10&lt;/property&gt;

11

12

mapred-site.xml 设置mr运行时框架


1
2
3
4
5
6
7
1&lt;!-- 指定 mr 运行时框架，这里指定在 yarn 上，默认是 local --&gt;

2&lt;property&gt;

3    &lt;name&gt;mapreduce.framework.name&lt;/name&gt;

4    &lt;value&gt;yarn&lt;/value&gt;

5&lt;/property&gt;

6

7

yarn-site.xml 设置yarn的主节点( resourcemanager)的主机


1
2
3
4
5
6
7
8
9
10
11
12
13
1&lt;!-- 指定 YARN 的老大（ResourceManager）的地址 --&gt;

2&lt;property&gt;

3    &lt;name&gt;yarn.resourcemanager.hostname&lt;/name&gt;

4    &lt;value&gt;node-1&lt;/value&gt;

5&lt;/property&gt;

6&lt;!-- NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce

7程序默认值：&quot;&quot; --&gt;

8&lt;property&gt;

9    &lt;name&gt;yarn.nodemanager.aux-services&lt;/name&gt;

10    &lt;value&gt;mapreduce_shuffle&lt;/value&gt;

11&lt;/property&gt;

12

13

slaves 记录集群主机名


1
2
3
4
5
6
7
8
1&lt;!--一般有以下两种作用：

2   一是：配合一键启动脚本如 start-dfs.sh、stop-yarn.sh 用来进行集群启动。这时候 slaves 文件里面的主机标记的就是从节点角色所在的机器。

3   二是：可以配合 hdfs-site.xml 里面 dfs.hosts 属性形成一种白名单机制。--&gt;

4node-1

5node-2

6node-3

7

8

修改系统环境变量


1
2
3
4
1export HADOOP_HOME=/export/servers/hadoop-2.7.4

2export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3

4

集群启动

要启动 Hadoop 集群，需要启动 HDFS 和 YARN 两个集群

首次启动HDFS, 要进行格式化( 初始化 )操作 , 做一些清理和准备工作

hdfs namenode -format 或者 hadoop namenode -format

该操作在集群搭建完成后首次启动之前进行

格式化只可进行一次如果出现多次格式化就是使得主从之间的集群ID不一致导致集群启动失败

一般在namenode所在机器执行一次

单节点逐个启动

hadoop-daemon.sh start namenode|datanode|secondarynamenode

yarn-daemon.sh start resourcemanager|nodemanager

脚本一键启动

start-dfs.sh stop-dfs.sh

start-yarn.sh stop.yarn.sh

start-all.sh stop-all.sh

web-ui

hadoop启动后, 可以在浏览器通过主机+端口查看

namenode: http://namenode_host:port http://node-1:50070

resourcemanager : http://resourcemanager_host:port http://node-1:8088

{{userData.name}}已认证

Hadoop入门简介及搭建

简介

集群规划

集群搭建

集群启动

MongoDB最简单的入门教程之二使用nodejs访问MongoDB

Ubuntu上NFS的安装配置

{{userData.name}}已认证

Hadoop入门简介及搭建

简介

集群规划

集群搭建

集群启动

Related posts:

MongoDB最简单的入门教程之二 使用nodejs访问MongoDB

Ubuntu上NFS的安装配置

Nginx+keepalived 双机热备（主从模式）

flume-ng+Kafka+Storm+HDFS 实时系统组合

flume+kafka+storm+mysql架构设计

分布式版本控制系统Git的安装与使用

MongoDB最简单的入门教程之二使用nodejs访问MongoDB