hive自定义函数的学习笔记

服务器

hive自定义函数的学习笔记

2019/10/10/17:46:22 阅读：2119 来源：谷歌SEO算法标签：夫唯SEO视频教程

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行下面我们来看看.

Hive可以将类sql查询语句转换成Hadoop的map reduce任务,让熟悉关系型数据库的人也可以利用hadoop的强大并行计算能力,Hive提供了强大的内置函数支持,但是总有一些特殊情况,内置函数无法覆盖,这就要求我们对定义自己的函数,接下来我们通过一个例子看一下如何自定义hive函数.

1.自定义函数的实现

假设我们的关系型数据库中user表有一个status字段,代表着用户的活跃等级,取值为1~10,活跃度一次递增,现在我们要根据status字段将用户分为3个活跃度等级,Hive显然没有这种与业务逻辑强耦合的内置函数,但这不应该成为阻碍我们使用Hive的理由,下面的扩展函数就可以满足需求.

packagecom.test.example;
importorg.apache.hadoop.hive.ql.exec.Description;
importorg.apache.hadoop.hive.ql.exec.UDF;
importorg.apache.hadoop.io.Text;
publicclassUserStatusextendsUDF{
publicTextevaluate(Textinput){
if(input==null)returnnull;
intstatus=Integer.parseInt(input.toString());
if(status>=1&&status<=3){
returnnewText(String.valueOf(1));
}elseif(status>=4&&status<=7){
returnnewText(String.valueOf(2));
}elseif(status>=7&&status<=10){
returnnewText(String.valueOf(3));
}//phpfensi.com
returnnull;
}
}