释放双眼，带上耳机，听听看~！

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

本文假设读者已经按照范老师的书搭建好了eclipse环境，并且已经导入myBi文件夹下面的子工程。

在阅读本文前，强烈建议阅读原书“实现数据分析工具模块”章节和本人博客系列之实战hadoop海量数据处理系列02: hql执行工具

本文的代码同步于https://github.com/titer1/Play_HadoopFelix

目标

目标确保python封装hql执行工具在Linux上面能够正常运行。

大纲

准备工作
python开发遇到的问题
map reduce排除故障的思考
hql工具在linux运行的情况
其他关于整个项目部署的阶段思考

读者朋友可以根据自己的需要选择阅读，希望开卷有益。

1 准备工作

环境依赖上，只需要hive正常安装，并且hive数据仓库有至少一个数据库。所以读者朋友不一定使用我们前面章节的Orders表等。

确定数据库后，就可以将自己需要的相关Hql语句放在工程的Query.xml里面

1.1 相关脚本的跨平台支持

环境相关的变量全部要做跨平台的支持。这里就要更新之前的pro_env.py


1
2
1windows下面的文件路径和linux下面是不一致的，文件路径中的分割符也是不一致的。

2

匹配python软件包的搜索策略


1
2
3
1windows平台下软件包被eclipse进行托管，不用担心；

2但是linux,需要显示的告诉解释器包在哪儿，这里主要的改动就是在查询主函数hql_exe.py。

3

python脚本的修改尽量在linux上进行


1
2
3
4
5
1开发过程中，遇到python脚本格式的问题。

2从windows的文本编辑器Notepad++中看，没有任何问题，但是linux上面就是报格式问题。

3折腾半小时后，用vi查看对应脚本，果然是windows上面的对齐在linux下没有生效。

4一句话，跨平台编写Python脚本，选好编辑器是第一步

5

2 python脚本排错插曲

在windows上模拟端运行好好的python程序，在Linux命令行下面不一定正常使用。
幸好python调试器很容易上手，调试的命令和gdb没有大的差异，这帮了我很大的忙。
此时懂Python调试将会帮上很大的忙。在这个项目中，我遇到如下问题

2.1 包找不到


1
2
3
1这里细节已经说明，就是要把当前工程路径加入Python搜索的路径中，解决方法如下：

2sys.path.append(os.path.abspath(&#x27;../../&#x27;))

3

2.2 xml配置文件找不到


1
2
1这是一个非常基本的问题，在执行完hive命令后，告知脚本找不到，路径关键词含有hivebin，我在本工程文件夹和hive配置文件夹寻找，都没有找到。差不多一个小时后，发现xml文件路径是代码合成的，问题出在路径拼接环节，原始字符串有问题。根本原因是环境配置的变量没有及时更新。所以细心的准备环境是很有必要的。

2

2.3 在xml配置文件找不到时，返回乱码的异常提示


1
2
1简单来说是编码问题,源于初始代码中的异常是中文写的，即使在python2代码显式说明utf8编码，依然无效，。当前这个问题还没有解决，我暂时把异常说明更新为英文，读者朋友有好的建议，可以留言告知。

2

2.4 没有报错，但是一直没有结果输出


1
2
1原始代码，使用命令封装函数执行hive执行，封装命令使用了终端静默模式(-S)。为了调试，我打开了静默模式，但是依然没有任何改进

2

在确认问题不是Python引起后，我把目光转移到map reduce上面

2 map reduce 排错插曲

现象是本工具中执行 select count(*) from users特别的慢，一直没有输出。

2.1尝试直接在hive命令行中执行

问题和python触发执行时一样，排除是python工具问题，在Hive的命令行输出只看到reducer数目的分配，看不到其他下文


1
2
3
1更多思考

2其实hive在0.13版本后，所有的job日志都放在 /tmp/root/hive.log，关于task运行异常的细节可以在此查看。

3

2.2 尝试运行hadoop经典列子wordcount

先看下错误现象


1
2
1ERROR [main]: ql.Driver (SessionState.java:printError(569)) - FAILED: Execut        ion Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exce        ption: java.net.ConnectException Call From sparkproject1/192.168.18.107 to sparkproject1:9000 failed         on connection exception: java.net.ConnectException: Connection refused; For more details see:  http        ://wiki.apache.org/hadoop/ConnectionRefused)

2

故障现象更近一步，从命令行log中看到driver不断的去连接某服务器,但是没有结果。细心一看，而该服务器对应的ip不是我期望的，问题出现眉目，原来host文件没有随网络环境进行更新。

在更新host文件后，依然没有触发任务，此时报连接resource manager错误，ip是正常的。

我忽然想到yarn服务没有启动。

在重启hadoop和启动yarn服务后，任务得到期望执行。

3 运行情况


1
2
3
4
1[root@sparkproject1 cal]# python exe_hql.linux.py 

2success

3[&#x27;17/06/09 09:27:45 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead&#x27;, &#x27;1\tstr1&#x27;, &#x27;2\tstr2&#x27;, &#x27;3\tstr3&#x27;, &#x27;3\tstr31&#x27;, &#x27;3\tstr33&#x27;, &#x27;4\tstr41&#x27;, &#x27;4\tstr42&#x27;]

4

问题的输出很简洁，需要了解详情的读者，请直接取最新的代码。

1分钟运行动态图

4 其他的心得

这里心得不仅仅在本章，也有前章数据库的设计上

4.1 代码异常方面

初期的代码中队所有的异常没有进行分类，导致一出错，不能快速定位

4.2 更新随机生成数据集的方法

随机数其实可以展开为取到随机不重复的值，取到某区间的随机值。
之前生成能实现的方法不是特别适合我们当前的环境，最好随机力度是以天为单位，新版本函数已经得到更新

4.3 存储过程很容易掉进过期的坑

过期的存储往往会打乱开发节凑，不知道有没有好的规避方法

4.4 数据维护方面

每一次删除Orders表,由于存在外键依赖，如果不接触外键检查的选项，系统会提示删除失败。
多trucate表，而不是drop后重建，尽量避免数据损失。

4.5 本地Mysql数据库的远程访问

记得为远程用户提供权限访问。访问。问。

小结

这是一篇记录排除bug的博文，读者可以根据兴趣选择章节查看。谢谢

{{userData.name}}已认证

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

目标

大纲

1 准备工作

1.1 相关脚本的跨平台支持

2 python脚本排错插曲

2 map reduce 排错插曲

2.1尝试直接在hive命令行中执行

2.2 尝试运行hadoop经典列子wordcount

3 运行情况

1分钟运行动态图

4 其他的心得

4.1 代码异常方面

4.2 更新随机生成数据集的方法

4.3 存储过程很容易掉进过期的坑

4.4 数据维护方面

4.5 本地Mysql数据库的远程访问

小结

MySQL到MongoDB的数据同步方法!

Ubuntu上NFS的安装配置

{{userData.name}}已认证

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

目标

大纲

1 准备工作

1.1 相关脚本的跨平台支持

2 python脚本排错插曲

2 map reduce 排错插曲

2.1尝试直接在hive命令行中执行

2.2 尝试运行hadoop经典列子wordcount

3 运行情况

1分钟运行动态图

4 其他的心得

4.1 代码异常方面

4.2 更新随机生成数据集的方法

4.3 存储过程很容易掉进过期的坑

4.4 数据维护方面

4.5 本地Mysql数据库的远程访问

小结

Related posts:

MySQL到MongoDB的数据同步方法!

Ubuntu上NFS的安装配置

15个私有云上的 DevOps 开源工具

hadoop组件---面向列的开源数据库(九)--python--python使用thrift连接hbase

ElasticSearch大数据分布式弹性搜索引擎使用—从0到1

jenkins+ansible+gitlab自动化部署三剑客