Hadoop实战(9)_Hive进阶及UDF开发

释放双眼,带上耳机,听听看~!

CDH Hadoop系列目录:

Hadoop实战(3)_虚拟机搭建CDH的全分布模式

Hadoop实战(4)_Hadoop的集群管理和资源分配

Hadoop实战(5)_Hadoop的运维经验

Hadoop实战(8)_CDH添加Hive服务及Hive基础

Hive目录及配置文件


1
2
3
4
5
1# 配置文件
2/etc/hive/conf
3# 根目录
4/opt/cloudera/parcels/CDH/lib/hive
5

当cm界面里执行部署客户端配置时,如上两个conf目录都会覆盖。

JDBC方式访问Hive

基于HiveServer2服务。

SecureRT,sz设置下载目录,Options-Xmodem/Zmodem-Download。

HiveServer2端口,10000。


1
2
3
1# user为提交作业的账户
2Connection con = DriverManager.getConnection("jdbc:hive2://cdhslave1:10000/default", "root", "123456");
3

idea设置,Settings-Build, Execution, Deployment-Compiler-Java Compiler,Project bytecode version: 1.7

Default Settings-Editor-File Encodings, Project Encoding: UTF-8。

Project Structure, Project, 设置jdk版本和编译版本,编译版本和Settings一致。Libraries, 把lib目录加进工程。Modules, 设置输出目录,Use module compile output path。

调整配置后,等待索引创建完。

UDF开发

UDF,一进一出。

UDAF,聚集函数,多进一出。

UDTF,一进多出。

UDF中的evaluate函数名不可变,可以任意重载。

使用方式:在Hive会话中add自定义函数的jar文件,然后创建function,继而使用函数。

需求:统计每个活动页的流量,获取活动ID。

  • Java开发

  • 导出jar

  • 使用


1
2
3
1add jar /root/project/lib/hive_udf.jar ;
2create temporary function GetActID as 'com.cloudy.hive.udf.GetActID';
3

sql中通过GetActID直接使用,用起来和内置函数无区别。

IDEA中打包

Project Structure-Artifacts, 有两类,分别是空的和有依赖包的,Build on make选上。然后Build-Make Project。

hive_udf.jar上传至/root/project/lib/


1
2
3
4
1# /root/project/rpt_act_visit_daily
2touch rpt_act_visit_daily.hql
3touch rpt_act_visit_daily.sh
4

hiveF命令封装

Q: hive -f不能传参,hql只能写在shell脚本里,导致shell脚本内容庞大和凌乱。

A: 开发一个hiveF的功能,用法同hive -f,但支持传参,使用格式:

  • hiveF aa.sql
  • hiveF aa.sql -date 2015-01-02
  • hiveF aa.sql -date 2015-01-02 -date1 2015-01-03

其中,aa.sql里通过**${date}**的方式对接。

hiveF开发思路

使用方式,hiveF aa.sql -date 2015-01-02

  • 开发一个Java应用程序读出aa.sql内容存入一个String变量里。

  • 把里面的${date}替换为2015-01-02,并System.out.println出来。

  • 在shell脚本里,用str接收2的输出,执行hive -e $str。


1
2
3
4
5
1# /root/project
2mkdir bin
3cd bin
4touch hiveF
5

难点,把Java程序的输出结果直接放到shell脚本里运行。
Java运行,参数传进来,shell脚本里$*接收参数。参数是哪里传的呢?哪里传给hiveF的呢?是shell脚本rpt_act_visit_daily.sh传过来的,交给java来处理,打印的str由cmd来接收,再用hive -e执行。


1
2
3
4
5
6
7
1#!/bin/sh
2. /etc/profile
3
4cmd=`java -jar /root/project/lib/HiveF.jar $*`
5echo $cmd
6hive -e "$cmd" -i /root/project/bin/init.hql
7

1
2
1chmod +x hiveF
2

1
2
3
4
5
1vi /etc/profile
2export PATH=$PATH:/root/project/bin
3
4source /etc/profile
5

打包hiveF.jar, Main Class: com.cloudy.hive.hiveF.Main

执行,


1
2
1sh ./rpt_act_visit_daily.sh 2015-08-28
2

给TA打赏
共{{data.count}}人
人已打赏
安全运维

Java定时框架Quartz实例详解与定时任务的Mongodb、Mysql持久化实现(一)Quartz组件

2021-12-11 11:36:11

安全运维

Ubuntu上NFS的安装配置

2021-12-19 17:36:11

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索