释放双眼，带上耳机，听听看~！

1、概述

前两遍文章中，我们一直在说后文要介绍Nginx + Keepalived的搭建方式。这篇文章开始，我们就来兑现前文的承诺，后续的两篇文章我们将介绍Nginx + Keepalived和 LVS + Keepalived搭建高可用的负载层系统。如果你还不了解Nginx和LVS的相关知识，请参见我之前的两篇文章《架构设计：负载均衡层设计方案（2）——Nginx安装》（http://blog.csdn.net/yinwenjie/article/details/46620711）、《架构设计：负载均衡层设计方案（4）——LVS原理》（http://blog.csdn.net/yinwenjie/article/details/46845997）

2、准备工作

2.1、准备两台独立工作的Nginx系统

准备两台Nginx的主机，如果您不知道为什么需要准备两台，没关系，准备就行。保证两台Nginx主机能够被外网访问。在我这里，安装两台Nginx的虚拟机IP地址分别是：

Nginx VM1：192.168.61.129:80
Nginx VM2：192.168.61.130:80

访问相关的地址，确保两台Nginx都是可用的：

VM1：

架构设计：负载均衡层设计方案（6）——Nginx + Keepalived构建高可用的负载层

VM2：

Nginx的安装在我的前文《架构设计：负载均衡层设计方案（2）——Nginx安装》（http://blog.csdn.net/yinwenjie/article/details/46620711）中已经进行了详细的讲解，所以这里的讲解就一笔带过。

2.2、再分别独立安装Keepalived系统

我们的目标是“在一台工作的Nginx崩溃的情况下，系统能够检测到，并自动将请求切换到另外一台备份的Nginx服务器上”。所以，之前安装的两台Nginx，一台是Master服务器是主要的工作服务器，另一台是备份服务器，在Master服务器出现问题后，由后者接替其工作。如下图所示（外网的请求使用一个由keepalived控制的虚拟的浮动IP进行访问）：

请到 www.keepalived.org 下载keepalived的稳定版本，我下载的是1.2.17版本。
解压，并且安装。注意，我在这里制定了perfix参数，指定安装位置，这是为了我自己便于管理。您在安装的时候，可以根据自己的情况来决定是不是加这个参数：


1
2
3
4
5
6
7
1tar -zxvf keepalived-1.2.17.tar.gz

2

3./configure --perfix=/usr/keepalived-1.2.17

4

5make &amp; make install 

6

7

如果您不是安装到默认路径，那么为了将keepalived做成系统服务，您需要拷贝一些文件到指定的路径下，如下：


1
2
3
4
5
6
7
8
9
10
11
1cp /usr/keepalived-1.2.17/etc/sysconfig/keepalived  /etc/sysconfig/keepalived

2

3cp /usr/keepalived-1.2.17/sbin/keepalived /usr/sbin/keepalived

4

5cp /usr/keepalived-1.2.17/etc/rc.d/init.d/keepalived  /etc/rc.d/init.d/keepalived

6

7mkdir /etc/keepalived

8

9cp /usr/keepalived-1.2.17/etc/keepalived/keepalived.conf /etc/keepalived/keepalived.conf

10

11

然后您可以将keepalived做成服务了：


1
2
3
4
5
1/etc/rc.d/init.d/keepalived

2

3chkconfig keepalived on

4

5

3、检查Nginx状态

在正式介绍Nginx + Keepalived的配置前，我们首先介绍一下如何检查Nginx的状态。是的，这是为下一小节做准备。我们只有能够正确检查Nginx的状态，才说得上在Nginx节点出现问题的情况下，切换到另一台Nginx上接替其工作。

Nginx为什么会停止响应呢？在我的工作经验中，无非有以下几种情况：

Nginx的所有进程被强行终止（或管理进程）。

这种情况，是我们需要检查和切换的。无论什么情况下进程被终止了，如果它不能重启，我们就要切换到备机。

Nginx日志盘的挂载点崩溃或者磁盘写满。

这个也是我们需要检查和切换的。

Nginx已经达到设置的最大连接数，暂时停止响应。

这种情况下，我们不能进行备机切换，因为通过VIP:192.168.61.100连接过来的用户请求比较多（在我们优化参数后，可以达到65535 / 4的数量），一旦我们进行备机切换，这些用户请求将全部异常。这个问题的解决需要靠增加负载机器，而不是主备切换。

Nginx物理机异常关机。

这个肯定是需要进行检查和切换的。

我们来看一段Linux脚本：


1
2
3
4
5
6
7
8
9
10
11
1#!/bin/sh

2if [ $(ps -C nginx --no-header | wc -l) -eq 0 ]; then

3    /usr/nginx-1.6.2/sbin/nginx

4fi

5

6sleep 2

7if [ $(ps -C nginx --no-header | wc -l) -eq 0 ]; then

8    service keepalived stop

9fi

10

11

我们大致讲解一下“ps -C nginx –no-header | wc -l”这个命令：

ps 这个命令用来进行Linux中进程相关的查询，-C 意思是按照进程名称进行查询。查询出来后的结果如下：


1
2
3
4
5
6
1[root@vm2 ~]# ps -C nginx

2  PID TTY          TIME CMD

3 3374 ?        00:00:00 nginx

4 3375 ?        00:00:01 nginx

5

6

如果要去掉统计出来的结果表的头部，那么要使用 –no-header参数，加上参数后，查询结果如下：


1
2
3
4
5
1[root@vm2 ~]# ps -C nginx  --no-header

2 3374 ?        00:00:00 nginx

3 3375 ?        00:00:01 nginx

4

5

“|”，这是Linux中的管道流命令，将上一个命令的输出结果作为下一个命令的输入。
wc 统计命令，-l 参数，代表按行数进行统计。所以整个命令的输出结果为：


1
2
3
4
1[root@vm2 ~]# ps -C nginx --no-header | wc -l

22

3

4

清楚了其中最关键的命令，我们再来讲解一下整个脚本的含义：
第一个判断说明的是，如果当前nginx的进程数量 == 0，那么执行nginx的启动命令，试图重新启动nginx；接下来等待2秒（这是为了给nginx一定的启动时间），然后再次查看Nginx的进程数量，如果仍然 == 0，那么停止这台机器的keepalived服务，以便备用的Keepalived节点检查到Keepalived已经停止这个事件，并将浮动IP切换到备用服务器上。

注意，这段脚本是和我机器上的Nginx安装路径、Keepalived服务的状态有关的，您如果要用的话，请进行相应的更改。

4、Nginx + Keepalived最简配置

4.1、请再次确认前提

（首先，为了保证不会出现额外的问题，请首先关闭防火墙，当然正式环境里面，防火墙不能关闭）

外网进行Nginx访问的浮动IP：192.168.61.100

我们将192.168.61.129这台服务器上运行的Nginx作为主要的Nginx，其上的keepalived服务我们设置成Master方式。
我们将192.168.61.129这台服务器上运行的Nginx作为备用的Nginx服务，其上的keepalived服务我们设置为Backup方式。

4.2、正式开始设置

注意，经过安装，您的keepalived配置文件的位置在“/etc/keepalived/keepalived.conf”（如果没有，请创建一个，但是经过之前的步骤，这个位置肯定是有文件的，如果没有可能是之前您的步骤出现了什么问题）。

4.2.1、设置192.168.61.129上的MASTER

我们先来看看192.168.61.129上的原始ip信息：

注意，这个129机器上的网卡设备号是eth1，而不是eth0，这个参数我们将在配置keepalived的时候使用到。

下面是129上keepalived的最简配置：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
1! Configuration File for keepalived

2# global setting , notify email setting

3global_defs {

4   #存在于同一个网段中，一组keepalived的各个节点都有不同的名字

5   #在全局设置中，我们还可以设置管理员的email信息等。

6   router_id LVS_V1

7}

8

9#这个是我们在上一小结讲到的nginx检查脚本，我们保存在这个文件中（注意文件权限）

10vrrp_script chknginx {

11    script &quot;/usr/keepalived-1.2.17/bin/checknginx.sh&quot;

12    #每10秒钟，检查一次

13    interval 10

14}

15

16#keepalived实例设置，是最重要的设置信息

17vrrp_instance VI_1 {

18    #state状态MASTER表示是主要工作节点。

19    #一个keepalived组中，最多只有一个MASTER节点，当然也可以没有

20    state MASTER

21    #实例所绑定的网卡设备，我的网卡设备是eth1。您按照您自己的来

22    interface eth1

23    #同一个keepalived组，节点的设置必须一样，这样才会被识别

24    virtual_router_id 52

25    #节点优先级，BACKUP的优先级一定要比MASTER的优先级低

26    priority 100

27    #组播信息发送间隔，两个节点设置必须一样

28    advert_int 1

29    #实际的eth1上的固定ip地址

30    mcast_src_ip=192.168.61.129

31    #验证信息，只有验证信息相同，才能被加入到一个组中。

32    authentication {

33        auth_type PASS

34        auth_pass 1111

35    }

36    #虚拟地址和绑定的端口，如果有多个，就绑定多个

37    #dev 是指定浮动IP要绑定的网卡设备号

38    virtual_ipaddress {

39        192.168.61.100 dev eth1

40    }

41

42    #设置的检查脚本

43    #关联上方的“vrrp_script chknginx”

44    track_script {

45        chknginx

46    }

47}

48

49

4.2.2、设置192.168.61.130上的BACKUP

再来看看192.168.61.130这个备用节点上keepalived的设置：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
1! Configuration File for keepalived

2# global setting , notify email setting

3global_defs {

4   #这里和master节点不同

5   router_id LVS_V2

6}

7

8#check nginx

9vrrp_script chknginx {

10    script &quot;/usr/keepalived-1.2.17/bin/checknginx.sh&quot;

11    interval 10

12}

13

14# instance setting

15vrrp_instance VI_1 {

16    # 这里和Master节点不一样

17    state BACKUP

18    interface eth1

19    # 这里一定是一样的

20    virtual_router_id 52

21    # 这里的优先级比Master节点低

22    priority 99

23    advert_int 1

24    # 这里和Master节点不一样

25    mcast_src_ip=192.168.61.130

26    authentication {

27        auth_type PASS

28        auth_pass 1111

29    }

30    virtual_ipaddress {

31        192.168.61.100 dev eth1

32    }

33

34    track_script {

35        chknginx

36    }

37}

38

39

4.3、启动主节点和备用节点

以上配置中请注意几个关键点：

注意nginx状态检查的脚本的位置，根据自己创建文件的位置不一样，脚本检查的指定位置也不一样
注意优先级，MASTER节点的优先级一定要高于所有的BACKUP节点。
注意局域网的组播地址，一定要可用。局域网内所有keepalived节点都是利用组播方式寻找对方。
谁说BACKUP节点只能有一个！？
最后，keepalived一定要注册成服务形式，您可以想象上面所有脚本、配置、命令如果重启后再来一次，会是什么情况。

接下来，我们要开始启动Master节点和Backup节点了，为了准确的查看日志状态，您需要观察系统日志。系统日志所在的位置：


1
2
3
1tail -f /var/log/messages

2

3

先启动Master节点：


1
2
3
1service keepalived start

2

3

再启动Backup节点：


1
2
3
1service keepalived start

2

3

如果设置和启动都是成功的，您不会在日志信息中收到任何的keepalived报错信息。接下来您就可以使用192.168.61.100这个IP访问Nginx了：

架构设计：负载均衡层设计方案（6）——Nginx + Keepalived构建高可用的负载层

另外，这个绑定在192.168.61.129上的浮动ip：192.168.61.100，您通过ipconfig命令一般是看不到的，要使用ip addr命令进行查看：

架构设计：负载均衡层设计方案（6）——Nginx + Keepalived构建高可用的负载层

为了试验，我们主动停止Master节点上的keepalived服务（注意，杀Nginx进程不起作用，因为我们的检查脚本会试图重新启动Nginx进程），接下来我们可以看到浮动IP漂移到了130备机上：

架构设计：负载均衡层设计方案（6）——Nginx + Keepalived构建高可用的负载层

5、Nginx + Keepalived非抢占模式

通过第4节的详细介绍，相信您对Nginx + Keepalived的安装方式有了一个明确的理解。keepalived的切换可以是自动的，但是却做不到毫秒级别，他怎么都需要几秒钟的时间进行切换。

这就有一个问题，虽然在主节点出现问题我们转向备份节点时，这个延时无可避免，但是在我们修复主节点后，实际上并没有必要再马上做一次切换，所以Keepalived提供了一种非抢占模式，来满足这个要求。

下面我们就来介绍一下Keepalived的非抢占模式的配置（无MASTER节点，全部依据优先级确定哪个节点进行工作）：

5.1、原来主节点的配置改动


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
1! Configuration File for keepalived

2# global setting , notify email setting

3global_defs {

4   router_id LVS_V1

5}

6

7vrrp_script chknginx {

8    script &quot;/usr/keepalived-1.2.17/bin/checknginx.sh&quot;

9    interval 10

10    # 一旦节点失效，节点的优先级就减少2

11    # 有多少个keepalived节点，就填写多少数量。

12    # 这样保证这个节点的优先级比其他节点都低

13    weight -2

14    # fall 表示多少次检查失败，就算节点失效。默认1

15    #fall 1

16}

17

18vrrp_instance VI_1 {

19    #state状态都是BACKUP表示是主要工作节点。

20    state BACKUP

21    interface eth1

22    virtual_router_id 52

23    # 这个关键配置项，设置为“非抢占”模式

24    nopreempt

25    # 每个节点的优先级一定要不一样

26    priority 100

27    advert_int 1

28    mcast_src_ip=192.168.61.129

29    authentication {

30        auth_type PASS

31        auth_pass 1111

32    }

33    #虚拟地址和绑定的端口，如果有多个，就绑定多个

34    #dev 是指定浮动IP要绑定的网卡设备号

35    virtual_ipaddress {

36        192.168.61.100 dev eth1

37    }

38

39    #设置的检查脚本

40    #关联上方的“vrrp_script chknginx”

41    track_script {

42        chknginx

43    }

44}

45

46

原来的主节点设置更改完成。

5.2、原来备份节点的配置改动

加入“非抢占”模式的关键字、更改一个确定的优先级，设置检查失败后优先级的递减量，就行了。

6、后文介绍

这是我8月份的首篇文章，后文我们将介绍LVS + Keepalived + Nginx的安装和配置方式。注意，LVS被Keepalived后，就没有必要在对Nginx做Keepalived了。

{{userData.name}}已认证

架构设计：负载均衡层设计方案（6）——Nginx + Keepalived构建高可用的负载层

1、概述

2、准备工作

2.1、准备两台独立工作的Nginx系统

2.2、再分别独立安装Keepalived系统

3、检查Nginx状态

4、Nginx + Keepalived最简配置

4.1、请再次确认前提

4.2、正式开始设置

4.2.1、设置192.168.61.129上的MASTER

4.2.2、设置192.168.61.130上的BACKUP

4.3、启动主节点和备用节点

5、Nginx + Keepalived非抢占模式

5.1、原来主节点的配置改动

5.2、原来备份节点的配置改动

6、后文介绍

Google Adsense 技巧提示100条

安全咨询服务

{{userData.name}}已认证

1、概述

2、准备工作

2.1、准备两台独立工作的Nginx系统

2.2、再分别独立安装Keepalived系统

3、检查Nginx状态

4、Nginx + Keepalived最简配置

4.1、请再次确认前提

4.2、正式开始设置

4.2.1、设置192.168.61.129上的MASTER

4.2.2、设置192.168.61.130上的BACKUP

4.3、启动主节点和备用节点

5、Nginx + Keepalived非抢占模式

5.1、原来主节点的配置改动

5.2、原来备份节点的配置改动

6、后文介绍

Related posts:

Google Adsense 技巧提示100条

安全咨询服务

负载均衡器技术Nginx和F5的优缺点对比

架构设计：负载均衡层设计方案（6）——Nginx + Keepalived构建高可用的负载层

架构设计：负载均衡层设计方案（5）——LVS单节点安装

nginx反向代理，负载均衡，redis session共享，keepalived高可用