Doris 自定义函数之JAVA UDF详解

文摘 2024-10-25 00:00 重庆

导读本文主要分享 Apache Doris 1.2版本之后如何构建 JAVA UDF。

全文目录：

背景信息
原理简介
环境信息
IDEA准备
JAVA UDF开发流程
注意事项
总结

一、背景信息

UDF 主要适用于，用户需要的分析能力 Doris 并不具备的场景。用户可以自行根据自己的需求，实现自定义的函数，并且通过 UDF 框架注册到 Doris 中，来扩展 Doris 的能力，并解决用户分析需求。

UDF 能满足的分析需求主要分为两种（本文中的 UDF 指的是二者的统称）：

UDF（User Defined Function）: 用户自定义函数，这种函数会对单行进行操作，并且输出单行结果。当用户在查询时使用 UDF ，每行数据最终都会出现在结果集中。典型的 UDF 比如字符串操作 concat() 等。
UDAF（User-Defined Aggregate Functions）: 用户自定义的聚合函数，这种函数对多行进行操作，并且输出单行结果。当用户在查询时使用 UDAF，分组后的每组数据最后会计算出一个值并在结果集中。典型的 UDAF 比如集合操作 sum() 等。一般来说 UDAF 都会结合 group by 一起使用。

正式推出Java UDF 之前，Apache Doris提供了原生 UDF即C++ UDF 。由于是使用 C++ 来编写的，执行效率高、速度更快，但是在实际使用中也会存在一些问题：

跟 Doris 代码耦合度高，需要自己打包编译 Doris 源码
只支持 C++ 语言并且 UDF 代码出错会影响 Doris 集群稳定性
对于只熟悉 Hive、Spark 等大数据组件的用户有一定使用门槛

针对以上问题，Apache Doris 在1.2.0版本中正式推出全新的Java UDF ，让用户可以更方便高效地开发和迁移UDF。

二、原理简介

众所周知，Doris的FE主要由JAVA编写、而BE是由C++编写。因此，如果需要C++编写的BE与JAVA UDF联动，那么必然需要借助网络通信或JNI（Java Native Interface）：

网络通信：可以跨语言交互，但是会带来网络传输等额外的性能开销，PASS。
JNI：用于在Java程序中调用本地（C/C++）代码。通过JNI，可以将C++代码编译成动态链接库，然后在Java程序中加载该动态链接库，并通过JNI接口进行函数调用和数据传递。

JNI调用需要进行Java与本地代码之间的切换和数据转换，这也会带来一定的性能开销，如果频繁的JNI调用还可能会对应用的性能产生不利影响。那么Doris该如何设计 Java UDF 呢？

开发规范：制定一些开发规范让流程有序且容错率高，例如UDF 类必须具有 evaluate 方法，并且必须是 Public 和 Non-Static 的。
重用JVM：BE 会创建或重用一个 JVM 来调用真正的 Java UDF，保证效率的同时让资源利用率最大化。
向量化执行：执行时是向量化的，可以实现一次执行多行数据只调用一次 JNI，给用户带来更好的性能体验。

下面，就来一起体验下Apache Doris 的 Java UDF吧。

三、环境信息

1.硬件信息

CPU：48C
内存：256G

2.软件信息

系统：CentOS
JAVA版本：1.8
Apache Doris版本：2.1 rc01

四、IDEA准备

直接 IntelliJ IDEA：

五、JAVA UDF开发流程

Java UDF 使用起来非常简单。只需要按规范开发完并通过mvn打成jar包后，在 Apache Doris 内注册一下，即可调用 jar 包来实现 UDF 逻辑：

1.源码准备

(1) pom.xml

仅补齐dependencies和build部分：

    <dependencies>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>2.3.5</version>
            <exclusions>
                <exclusion>
                    <groupId>org.pentaho</groupId>
                    <artifactId>*</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
    </dependencies>

    <build>
        <finalName>doris_java_udf</finalName>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <version>3.2.2</version>
                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>org.apache.doris.udf.AddOne</mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.3.0</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>org.apache.doris.udf.AddOne</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>8</source>
                    <target>8</target>
                </configuration>
            </plugin>
        </plugins>
    </build>

(2) JAVA代码

直接使用官方的demo：

https://github.com/apache/doris/blob/master/samples/doris-demo/java-udf-demo/src/main/java/org/apache/doris/udf/AddOne.java

package org.apache.doris.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class AddOne extends UDF {
    public Integer evaluate(Integer value) {
        return value == null? null: value + 1;
    }
}

2.mvn打包

先clean清理target：

再package打新包：

3.函数使用

(1) upload

打好的jar包（即doris_java_udf.jar，不需要传依赖jar包），可以以两种方式存放：

服务化：多机环境时，也可以使用http的方式下载jar包
本地路径：FE、BE节点都要放置，并且都有权限访问的路径

本文选择本地路径的方式演练：

(2) use

-- udf
-- 查看
show full functions;

-- 删除
DROP FUNCTION add_one(int);

-- 创建
-- 函数名可自定义
CREATE FUNCTION add_one(int) RETURNS int PROPERTIES (
 -- 文件路径，可本地或http
    "file"="file:///udf/doris_java_udf.jar",
    -- extends UDF 的类名
    "symbol"="org.apache.doris.udf.AddOne",
    -- 可选，如果在计算中对出现的NULL值有特殊处理，确定结果中不会返回NULL，可以设为false
    "always_nullable"="true",
    -- 默认为 Native，使用 Java UDF时传 JAVA_UDF
    "type"="JAVA_UDF"
)

-- 测试，在传参基础上+1，如果非数字或者null则返回null
select add_one('0');

六、注意事项

虽然JAVA UDF整起来非常顺畅方便，但实际生产使用中有如下一些官方提醒：

不支持复杂数据类型（HLL，Bitmap）
当前允许用户自己指定JVM最大堆大小，BE配置项是jvm_max_heap_size。配置项在BE安装目录下的be.conf全局配置中，默认512M，如果需要聚合数据，建议调大一些，增加性能，减少内存溢出风险
char类型的udf在create function时需要使用String类型
由于jvm加载同名类的问题，不要同时使用多个同名类作为udf实现，如果想更新某个同名类的udf，需要重启be重新加载classpath

七、总结

Java UDF相对1.2之前的C++ UDF而言，使用起来会更加便捷高效，而且更利于Hive/Spark的UDF jar包迁移，并且Doris团队对其底层实现流程进行了一系列性能优化，面面俱到。各位看官大可放心使用！

往期推荐

大数据平台开发规范示例

【Apache Doris】Manager 极致丝滑地运维管理

【Apache Doris】如何一键实现MySQL万表整库同步？

【Apache Doris】如何实现高并发点查？（原理+实践全析）

Kafka TO Doris 保姆级入门详解

Flink CDC 1.0至3.0回忆录

如何正确地使用ChatGPT（角色扮演+提示工程）

超强满血不收费的AI绘图教程来了（在线Stable Diffusion一键即用）

http://mp.weixin.qq.com/s?__biz=Mzg5Mzg3MzkwNA==&mid=2247490047&idx=5&sn=f7b91e1d6b6629b8e5b1ffe2e6d30f63

大数据技能圈

分享大数据前沿技术，实战代码，详细文档

最新文章

从0到1建设电商项目数据湖实战教程

Seatunnel 如何设置资源隔离 ↗

需要知道的 Seatunnel 8个命令行写法

性能超越Spark 13.3 倍,比某MPP整体快数十秒 | 多项性能指标数倍于主流开源引擎 | 云器科技发布性能测试报告

Seatunnel 检查点用法看这篇文章就够了

Seatunnel 如何生成保存点及通过保存点恢复任务 ↗

官方推荐 | 企业级 SeaTunnel 集群部署详细教程

SeaTunnel 默认引擎Zeta ，用起来真香！

Hi 介绍一下，这是腾讯ima

自己手搓一个 Seatunnel Access Connector

手把手教你贡献一个Seatunnel Connector PR | 新增jtds方式链接sqlserver

Seatunnel 快速安装详细步骤↗

爆肝三天，我整理了500+ Seatunnel Connector 模板！

全网最全Doris实战文章合集↗

Doris 数据库链接参数调优（经验篇）

从小时级到毫秒：Doris Light Schema Change技术详解

Doris 查询缓存优化机制详解

万字长文讲解什么是 Doris 物化视图

Doris 超全索引实战教程

Doris如何做到将查询性能提升100倍

再见火山模型！Doris2.0 正式将Pipeline模型确定为新一代执行模型 ↗

什么是湖仓一体数据平台？怎么构建湖仓一体数据平台

Doris MPP架构和 Hadoop 分布式架构到底有什么区别？

Doris向量化技术大解密↗

大数据仓库开发规范示例

大数据平台开发规范示例

通过一条SQL 理解 Doris 优化器（RBO/CBO）原理

Elasticsearch，Github 7万多star一夜清零，究竟发生了什么？

Datavines 集成 DolphinScheduler 打通数据质量管理最后一公里 ↗

请不要自己写，这款数据质量可视化配置工具用起来够方便！

最全Doris实战文章汇总↗

Doris Flink Connector 整库同步使用指南

Doris 3.0存算分离｜标准部署篇

Doris 数据副本问题排查指南

Doris Compaction 原理 | 实践全析

Doris BE宕机问题排查指南

Doris 数据均衡问题排查指南

为什么Apache Doris适合做大数据的复杂计算，MySQL不适合？

Kafka TO Doris 保姆级入门详解

Doris 资源隔离详解

Doris IP变更问题详解

Doris 自定义函数之C++ UDF详解

Doris 如何一键实现MySQL万表整库同步？

Doris Manager 极致丝滑地运维管理

Doris 如何实现高并发点查？（原理+实践全析）

Doris 审计日志插件 | 快速体验

Doris 自定义函数之JAVA UDF详解

建议收藏｜现在 Apache Doris 应该选择什么版本部署和升级？

程序员会被AI平替？Claude 3.5学习使用电脑，就像给人装上翅膀练习飞翔

一文聊透开放表格式和开放数据Lakehouse

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉