释放双眼，带上耳机，听听看~！

案例要实现的目标

在Kafka的shell 客户端中输入内容，通过Storm实时去kafka中取数据并进行计算单词出现的次数，并且实时把这些数据信息存储到redis中。

代码编写

编写Pom文件，代码如下：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
1&lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&gt;

2&lt;project xmlns=&quot;http://maven.apache.org/POM/4.0.0&quot;

3         xmlns:xsi=&quot;http://www.w3.org/2001/XMLSchema-instance&quot;

4         xsi:schemaLocation=&quot;http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd&quot;&gt;

5    &lt;modelVersion&gt;4.0.0&lt;/modelVersion&gt;

6

7    &lt;groupId&gt;cn.toto.storm.kafkastormredis&lt;/groupId&gt;

8    &lt;artifactId&gt;kafkastormredis&lt;/artifactId&gt;

9    &lt;version&gt;1.0-SNAPSHOT&lt;/version&gt;

10

11    &lt;dependencies&gt;

12        &lt;dependency&gt;

13            &lt;groupId&gt;org.apache.storm&lt;/groupId&gt;

14            &lt;artifactId&gt;storm-core&lt;/artifactId&gt;

15            &lt;!--&lt;scope&gt;provided&lt;/scope&gt;--&gt;

16            &lt;version&gt;1.1.0&lt;/version&gt;

17        &lt;/dependency&gt;

18        &lt;dependency&gt;

19            &lt;groupId&gt;org.apache.storm&lt;/groupId&gt;

20            &lt;artifactId&gt;storm-kafka&lt;/artifactId&gt;

21            &lt;version&gt;1.1.0&lt;/version&gt;

22        &lt;/dependency&gt;

23        &lt;dependency&gt;

24            &lt;groupId&gt;redis.clients&lt;/groupId&gt;

25            &lt;artifactId&gt;jedis&lt;/artifactId&gt;

26            &lt;version&gt;2.7.3&lt;/version&gt;

27        &lt;/dependency&gt;

28        &lt;dependency&gt;

29            &lt;groupId&gt;org.apache.kafka&lt;/groupId&gt;

30            &lt;artifactId&gt;kafka_2.8.2&lt;/artifactId&gt;

31            &lt;version&gt;0.8.1&lt;/version&gt;

32            &lt;exclusions&gt;

33                &lt;exclusion&gt;

34                    &lt;groupId&gt;org.apache.zookeeper&lt;/groupId&gt;

35                    &lt;artifactId&gt;zookeeper&lt;/artifactId&gt;

36                &lt;/exclusion&gt;

37            &lt;/exclusions&gt;

38        &lt;/dependency&gt;

39    &lt;/dependencies&gt;

40    &lt;build&gt;

41        &lt;plugins&gt;

42            &lt;plugin&gt;

43                &lt;artifactId&gt;maven-assembly-plugin&lt;/artifactId&gt;

44                &lt;configuration&gt;

45                    &lt;descriptorRefs&gt;

46                        &lt;descriptorRef&gt;jar-with-dependencies&lt;/descriptorRef&gt;

47                    &lt;/descriptorRefs&gt;

48                    &lt;archive&gt;

49                        &lt;manifest&gt;

50                            &lt;!--告诉运行的主类是哪个，注意根据自己的情况，下面的包名做相应的修改--&gt;

51                            &lt;mainClass&gt;cn.toto.strom.wordcount.StormTopologyDriver&lt;/mainClass&gt;

52                        &lt;/manifest&gt;

53                    &lt;/archive&gt;

54                &lt;/configuration&gt;

55                &lt;executions&gt;

56                    &lt;execution&gt;

57                        &lt;id&gt;make-assembly&lt;/id&gt;

58                        &lt;phase&gt;package&lt;/phase&gt;

59                        &lt;goals&gt;

60                            &lt;goal&gt;single&lt;/goal&gt;

61                        &lt;/goals&gt;

62                    &lt;/execution&gt;

63                &lt;/executions&gt;

64            &lt;/plugin&gt;

65            &lt;plugin&gt;

66                &lt;groupId&gt;org.apache.maven.plugins&lt;/groupId&gt;

67                &lt;artifactId&gt;maven-compiler-plugin&lt;/artifactId&gt;

68                &lt;configuration&gt;

69                    &lt;source&gt;1.7&lt;/source&gt;

70                    &lt;target&gt;1.7&lt;/target&gt;

71                &lt;/configuration&gt;

72            &lt;/plugin&gt;

73        &lt;/plugins&gt;

74    &lt;/build&gt;

75&lt;/project&gt;

76

在strom案例中需要有spout接收数据。在一些常规学习用的案例中通常从一个文件中获取数据。通常的代码如下：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
1package cn.toto.storm.kafkastormredis;/**

2 * Created by toto on 2017/6/20.

3 */

4

5import org.apache.commons.lang.StringUtils;

6import org.apache.storm.spout.SpoutOutputCollector;

7import org.apache.storm.task.TopologyContext;

8import org.apache.storm.topology.OutputFieldsDeclarer;

9import org.apache.storm.topology.base.BaseRichSpout;

10import org.apache.storm.tuple.Fields;

11

12import java.io.BufferedReader;

13import java.io.File;

14import java.io.FileReader;

15import java.util.ArrayList;

16import java.util.List;

17import java.util.Map;

18

19/**

20 * 这个类是模拟从文件中读取数据的代码。在本案例的strom + kafka + redis的案例中将用不到。

21 *

22 * @author tuzq

23 * @create 2017-06-20 23:41

24 */

25public class MyLocalFileSpout extends BaseRichSpout {

26    private SpoutOutputCollector collector;

27    private BufferedReader bufferedReader;

28

29    /**

30     * 初始化方法

31     * @param map

32     * @param context

33     * @param collector

34     */

35    @Override

36    public void open(Map map, TopologyContext context, SpoutOutputCollector collector) {

37        this.collector = collector;

38        try {

39            this.bufferedReader = new BufferedReader(new FileReader(new File(&quot;E:/wordcount/input/1.txt&quot;)));

40        } catch (Exception e) {

41            e.printStackTrace();

42        }

43    }

44

45    /**

46     * Strom实时计算的特性就是对数据一条一条的处理

47     * while(true) {

48     *     this.nextTuple();

49     * }

50     */

51    @Override

52    public void nextTuple() {

53        //每被调用一次就会发送一条数据出去

54        try {

55            String line = bufferedReader.readLine();

56            if (StringUtils.isNotBlank(line)) {

57                List&lt;Object&gt; arrayList = new ArrayList&lt;Object&gt;();

58                arrayList.add(line);

59                collector.emit(arrayList);

60            }

61        } catch(Exception e) {

62            e.printStackTrace();

63        }

64    }

65

66    @Override

67    public void declareOutputFields(OutputFieldsDeclarer declarer) {

68        declarer.declare(new Fields(&quot;juzi&quot;));

69    }

70

71}

72

73

在spout编写完成之后，通常通过Bolt来进行文本的切割。在下面的切割代码中，模拟的是从kafka中获取数据，并进行切割。代码如下：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
1package cn.toto.storm.kafkastormredis;/**

2 * Created by toto on 2017/6/21.

3 */

4

5import org.apache.storm.topology.BasicOutputCollector;

6import org.apache.storm.topology.OutputFieldsDeclarer;

7import org.apache.storm.topology.base.BaseBasicBolt;

8import org.apache.storm.tuple.Fields;

9import org.apache.storm.tuple.Tuple;

10import org.apache.storm.tuple.Values;

11

12/**

13 * 这个Bolt模拟从kafkaSpout接收数据，并把数据信息发送给MyWordCountAndPrintBolt的过程。

14 *

15 * @author tuzq

16 * @create 2017-06-21 9:14

17 */

18public class MySplitBolt extends BaseBasicBolt {

19

20    @Override

21    public void execute(Tuple input, BasicOutputCollector collector) {

22        //1、数据如何获取

23        //如果StormTopologyDriver中的spout配置的是MyLocalFileSpout，则用的是declareOutputFields中的juzi这个key

24        //byte[] juzi = (byte[]) input.getValueByField(&quot;juzi&quot;);

25        //2、这里用这个是因为StormTopologyDriver这个里面的spout用的是KafkaSpout，而KafkaSpout中的declareOutputFields返回的是bytes，所以下面用bytes，这个地方主要模拟的是从kafka中获取数据

26        byte[] juzi = (byte[]) input.getValueByField(&quot;bytes&quot;);

27        //2、进行切割

28        String[] strings = new String(juzi).split(&quot; &quot;);

29        //3、发送数据

30        for (String word : strings) {

31            //Values对象帮我们生成一个list

32            collector.emit(new Values(word,1));

33        }

34    }

35

36    @Override

37    public void declareOutputFields(OutputFieldsDeclarer declarer) {

38        declarer.declare(new Fields(&quot;word&quot;,&quot;num&quot;));

39    }

40}

41

42

对文本信息进行切割之后，需要对数据进行统计，这里使用另外一个Bolt来完成，代码如下：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
1package cn.toto.storm.kafkastormredis;/**

2 * Created by toto on 2017/6/21.

3 */

4

5import org.apache.storm.task.TopologyContext;

6import org.apache.storm.topology.BasicOutputCollector;

7import org.apache.storm.topology.OutputFieldsDeclarer;

8import org.apache.storm.topology.base.BaseBasicBolt;

9import org.apache.storm.tuple.Tuple;

10import redis.clients.jedis.Jedis;

11

12import java.util.HashMap;

13import java.util.Map;

14

15/**

16 * 用于统计分析，并且把统计分析的结果存储到redis中。

17 *

18 * @author tuzq

19 * @create 2017-06-21 9:22

20 */

21public class MyWordCountAndPrintBolt extends BaseBasicBolt {

22    private Jedis jedis;

23    private Map&lt;String,String&gt; wordCountMap = new HashMap&lt;String,String&gt;();

24

25    @Override

26    public void prepare(Map stormConf, TopologyContext context) {

27        //连接redis---代表可以连接任何事物

28        jedis = new Jedis(&quot;hadoop11&quot;,6379);

29        super.prepare(stormConf,context);

30    }

31

32    @Override

33    public void execute(Tuple input, BasicOutputCollector collector) {

34        String word = (String) input.getValueByField(&quot;word&quot;);

35        Integer num = (Integer) input.getValueByField(&quot;num&quot;);

36        //1、查看单词对应的value是否存在

37        Integer integer = wordCountMap.get(word) == null ? 0 : Integer.parseInt(wordCountMap.get(word));

38        if (integer == null || integer.intValue() == 0) {

39            wordCountMap.put(word,num + &quot;&quot;);

40        } else {

41            wordCountMap.put(word,(integer.intValue() + num) + &quot;&quot;);

42        }

43        //2、保存到redis

44        System.out.println(wordCountMap);

45        //redis key wordcount:--&gt;Map

46        jedis.hmset(&quot;wordcount&quot;,wordCountMap);

47    }

48

49    @Override

50    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {

51        //todo 不需要定义输出的字段

52    }

53}

54

55

接下来通过一个Driver串联起Spout、Bolt实现实时计算，代码如下：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
1package cn.toto.storm.kafkastormredis;/**

2 * Created by toto on 2017/6/21.

3 */

4

5import org.apache.storm.Config;

6import org.apache.storm.LocalCluster;

7import org.apache.storm.generated.StormTopology;

8import org.apache.storm.kafka.KafkaSpout;

9import org.apache.storm.kafka.SpoutConfig;

10import org.apache.storm.kafka.ZkHosts;

11import org.apache.storm.topology.TopologyBuilder;

12

13/**

14 * 这个Driver使Kafka、strom、redis进行串联起来。

15 *

16 * 这个代码执行前需要创建kafka的topic,创建代码如下：

17 * [root@hadoop1 kafka]# bin/kafka-topics.sh --create --zookeeper hadoop11:2181 --replication-factor 1 -partitions 3 --topic wordCount

18 *

19 * 接着还要向kafka中传递数据，打开一个shell的producer来模拟生产数据

20 * [root@hadoop1 kafka]# bin/kafka-console-producer.sh --broker-list hadoop1:9092 --topic wordCount

21 * 接着输入数据

22 *

23 * @author tuzq

24 * @create 2017-06-21 9:39

25 */

26public class StormTopologyDriver {

27

28    public static void main(String[] args) throws Exception {

29        //1、准备任务信息

30        TopologyBuilder topologyBuilder = new TopologyBuilder();

31        topologyBuilder.setSpout(&quot;KafkaSpout&quot;,new KafkaSpout(new SpoutConfig(new ZkHosts(&quot;hadoop11:2181&quot;),&quot;wordCount&quot;,&quot;/wordCount&quot;,&quot;wordCount&quot;)),2);

32        topologyBuilder.setBolt(&quot;bolt1&quot;,new MySplitBolt(),4).shuffleGrouping(&quot;KafkaSpout&quot;);

33        topologyBuilder.setBolt(&quot;bolt2&quot;,new MyWordCountAndPrintBolt(),2).shuffleGrouping(&quot;bolt1&quot;);

34

35        //2、任务提交

36        //提交给谁？提交内容

37        Config config = new Config();

38        config.setNumWorkers(2);

39        StormTopology stormTopology = topologyBuilder.createTopology();

40

41        //本地模式

42        LocalCluster localCluster = new LocalCluster();

43        localCluster.submitTopology(&quot;wordcount&quot;,config,stormTopology);

44        //集群模式

45        //StormSubmitter.submitTopology(&quot;wordcount1&quot;,config,stormTopology);

46    }

47}

48

这里我们使用：

//创建kafka的topic


1
2
3
1[root@hadoop1 ~]# cd $KAFKA_HOME 

2[root@hadoop1 kafka]# bin/kafka-topics.sh --create --zookeeper hadoop11:2181 --replication-factor 1 -partitions 3 --topic wordCount

3

接下来创建producer，来发送数据到kafka：


1
2
1[root@hadoop1 kafka]# bin/kafka-console-producer.sh --broker-list hadoop1:9092 --topic wordCount

2

在上面输入数据。

4、运行程序，进入StormTopologyDriver，右键run.最后的效果如下：

5、最后如果想看MyWordCountAndPrintBolt中记录到redis的wordcount内容，可以编写如下代码案例：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1package cn.toto.storm.kafkastormredis;/**

2 * Created by toto on 2017/6/21.

3 */

4

5import redis.clients.jedis.Jedis;

6

7import java.util.Map;

8

9/**

10 * 代码说明

11 *

12 * @author tuzq

13 * @create 2017-06-21 10:13

14 */

15public class TestRedis {

16

17    public static void main(String[] args) {

18        Jedis jedis = new Jedis(&quot;hadoop11&quot;,6379);

19        Map&lt;String,String&gt; wordcount = jedis.hgetAll(&quot;wordcount&quot;);

20        System.out.println(wordcount);

21    }

22}

23

24

运行后的结果如下：

{{userData.name}}已认证

Strom+Kafka + redis实时计算单词出现频率的案例

案例要实现的目标

代码编写

MySQL和MongoDB数据相互迁移

Ubuntu上NFS的安装配置

{{userData.name}}已认证

案例要实现的目标

代码编写

Related posts:

MySQL和MongoDB数据相互迁移

Ubuntu上NFS的安装配置

Linux kernel的中断子系统之（八）：softirq

Linux kernel的中断子系统之（六）：ARM中断处理过程

使用Rust开发操作系统(4级分页内存)

ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台