[特性]Hive使用UDF 2015-11-15 14:30

简介

Hive自定义函数UDF的使用方法。

准备UDF的jar包

创建源代码文件:

mkdir -p net/cheyo/udf/
vi net/cheyo/udf/MD5.java

源代码文件的内容如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
package net.cheyo.udf;

import java.security.MessageDigest;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public final class MD5 extends UDF {
    public Text evaluate(final Text s) {
        if (s == null)
        { 
            return null; 
        }

        char hexDigits[] = { '0', '1', '2', '3', '4',  
                             '5', '6', '7', '8', '9',  
                             'A', 'B', 'C', 'D', 'E', 'F' };  
        try {  
            byte[] btInput = s.getBytes();  
            //获得MD5摘要算法的 MessageDigest 对象  
            MessageDigest mdInst = MessageDigest.getInstance("MD5");  
            //使用指定的字节更新摘要  
            mdInst.update(btInput);  
            //获得密文  
            byte[] md = mdInst.digest();  
            //把密文转换成十六进制的字符串形式  
            int j = md.length;  
            char str[] = new char[j * 2];  
            int k = 0;  
            for (int i = 0; i < j; i++) {  
                byte byte0 = md[i];  
                str[k++] = hexDigits[byte0 >>> 4 & 0xf];  
                str[k++] = hexDigits[byte0 & 0xf];  
            }  
            return new Text(new String(str));
        }  
        catch (Exception e) {  
            e.printStackTrace();  
            return null;  
        }
    }
}

配置CLASSPATH:

export CLASSPATH=%CLASSPATH:/opt/hadoop/client/hive/lib/hive-exec-1.0.0.jar:/opt/hadoop/client/hive/lib/hive-serde-1.0.0.jar:/opt/hadoop/client/hadoop/share/hadoop/common/hadoop-common-2.7.1.jar

将源代码编译成jar:

javac net/cheyo/udf/MD5.java
jar cvf cheyo_udf.jar net/cheyo/udf/*.class

使用jar创建函数

临时函数

将生成的jar拷贝到HiveServer上:

scp cheyo_udf.jar ctrl:/root/

在Hive上加载jar包:

ADD JAR /root/cheyo_udf.jar;

在Hive创建临时函数:

CREATE TEMPORARY FUNCTION md5 as 'net.cheyo.udf.MD5';

注意:Hive中的函数是不区分大小写的

永久函数

将jar上传至HDFS上:

hdfs dfs -put cheyo_udf.jar /data/

创建永久函数:

CREATE FUNCTION md5 as 'net.cheyo.udf.MD5' USING JAR 'hdfs://myns1/data/cheyo_udf.jar';

使用

1
SELECT id,name,MD5(name) FROM student2;
Tags: #Hive    Post on Hadoop