Apache Hudi 1.0 正式发

科技 2025-01-24 14:11 北京

作者 | Renato Losio

译者 | 平川

策划 | Tina

最近，Apache 软件基金会宣布 Apache Hudi 1.0 正式发布。这是一个支持近实时分析的事务型数据湖平台，最初于 2017 年推出。Apache Hudi 提供了一种做过专门优化的开放式表格式，可实现增量数据管道的高效写入，提供可靠的查询性能。

最初，Hudi 是作为 Apache Hadoop 上的增量处理框架在 Uber 开发的，并于 2019 年提交给 Apache 软件基金会，旨在弥合类似数据库的功能与开放的数据湖架构之间的差距。Hudi 的主要优势在于能够同时支持近实时查询和批量查询。

最新版本引入的新特性旨在将数据湖转化为项目社区所认为的完备的 “数据湖管理系统”（DLMS）。Uber Hudi 项目创建者、Onehouse 首席执行官 Vinoth Chandar 写道：

Hudi 的亮点在于提供了高性能的开放式表格格式以及全面的开源软件栈，可对数据湖进行摄取、存储、优化和有效的自管理。在 Hudi 所处的大型供应商生态系统中，开放格式和开放软件之间的区别经常被忽略。尽管如此，对于 Hudi 的用户来说，避免‍与任何特定的数据供应商的计算锁定仍然是一个重要的考虑因素。

Hudi 1.0 （遵循 Apache 2.0 许可）引入了新的二级索引系统，旨在提高查询性能并降低数据扫描成本。现在，用户可以在二级列上创建基于 SQL 的索引，从而大大加快查询执行速度。该版本还包括基于表达式的索引，和 PostgreSQL 中的一项功能类似，它取代了传统的分区策略，使数据组织更加灵活高效。去年，当预览版发布时，Snyk 首席软件工程师 Boris Litvak 曾经写道：

在对象存储的三大 ACID 存储格式中，Apache Hudi 1.0（测试版）是第一个引入数据 “函数索引 ”的格式。在 SQL DB 术语中，我们通常称之为 “二级索引”。Delta.io 和 Apache Iceberg 何时会跟进？

图片来源：Apache Hudi 博客

该版本引入了对部分更新的支持，允许对特定字段而不是整行进行更新，从而提高了存储和计算效率。此外，非阻塞并发控制使多个流作业可以写入同一个数据集，而且不会造成瓶颈或故障。在谈到数据库架构时，Chandar 补充道：

至于完备的 DLMS 功能，Hudi 1.0 可以通过 Apache Spark 提供最接近的体验。用户可以部署安装了 Hudi 1.0 的 Spark 服务器（或 Spark Connect），提交 SQL/ 任务，通过 SQL 命令协调表服务，尽情使用二级索引功能，从而像 DBMS 一样加快查询速度。

Hudi 1.0 增强了存储引擎，包括采用日志结构合并（LSM）树来实现高效的时间线管理。这样就可以支持长期数据保留，并确保高性能查询规划，即使是包含数十亿条记录的数据集也不例外。Onehouse 和 Apache Hudi PMC 软件工程师 Bhavani Sudha Saktheeswaran 评论说：

无论是要构建开放式数据平台，将数据流导入数据湖仓，并摒弃数据仓库，还是要优化高性能查询，Hudi 1.0.0 都能让你比以往更轻松地使用数据湖仓。

在旧金山 QCon 大会上，Saktheeswaran 和 Uber 软件工程师 Saketh Chintapalli 发表了关于使用 Apache Hudi 进行增量数据处理的演讲。会议录音可从 InfoQ 上获取。

原文链接：

https://www.infoq.com/news/2025/01/apache-hudi/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

卖身、豪赌Killer App的AI 厂商：被“吊”麻了，明年咋活？

B站员工向代码投毒“封杀”用户账号，并放话：“拿着一天几千的工资整你”！现已被开除

突发！TikTok恢复在美服务，被困12小时后重获新生

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

DeepSeek霸榜一周：奥特曼终于承认在开源问题上处于“历史错误的一边”；迅雷斥资5亿收购“直男社区”虎扑 | Q资讯

微软、AWS后，英伟达也已接入DeepSeek，扎克伯格：是的，我们也将“偷师”DeepSeek

一场由DeepSeek引发的技术裂变，正在重写AI时代的权力分配方程式

一场关于 DeepSeek 的高质量闭门会：比技术更重要的是愿景

DeepSeek震动硅谷AI圈，GPT-5还秘而“不发”？7千亿利润奥特曼都看不上了

AI大模型、机器人上春晚！直点播收视28.17亿次，用云量达历年之最

DeepSeek“人均百万”传言引爆求职热潮，非算法岗应届生年薪百万，HR简历收到手软

OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？

英伟达 RTX 5090、5080 和 5070 Ti 最新基测：不支持 DLSS 的游戏将拥有更多 AI 能力

Java近期新闻：JDK 24进入Rampdown Phase Two、Spring、JobRunr、Commonhaus基金会

17 岁移民少年靠 AI 逆袭！一夜之间到账数十亿，这个小众赛道赚麻了

大厂“年终奖”开卷！你发了多少？用友预计年亏损超17亿！员工数减少三千多人；“支付宝碰一下”启动“你敢碰我敢赔”保障 | Q资讯

游戏开发者已经厌倦了老板的 AI 计划

Java 24 功能已冻结，进入 Rampdown 第二阶段

PHP 程序员被特朗普特赦：本应终老监狱，因“技术细节”落网

用 5 万换价值 73 亿的股份？因离职让寒武纪市值蒸发 60 亿的 CTO，与老东家“开撕”了！

使用 DuckDB 的进程中分析数据管理

“自由画布”开启公测，百度文库 AI 功能月活量突破 9000 万

Baichuan-M1-preview 发布！集齐语言、视觉、搜索三大推理能力，解锁医疗循证模式

硅谷三巨头组AI联盟，“大腿”特朗普壕砸5000亿美元！网友：有孙正义铁定要黄

海量日志数据检索ELK场景下Kafka磁盘故障技术解密

微软的 Hyperlight WebAssembly 虚拟机现已开源

Apache Hudi 1.0 正式发

做 CTO 还不如自己干？他靠独立开发赢得平静自由的生活，收入比当 CTO 还高！

开源方案之外的选择：阿里内部为设计打造的 AIGC 生产力平台 MuseAI

Express.js 时隔十年发布 5.0.0 版本，聚焦稳定性与安全性

Rust 1.84 已发布，包括可能会破坏工具链的 WASI 目标更名

k1.5多模态思考模型登场，再一次震惊海外AI圈，网友：压力给到OpenAI

AI 杀死了程序员培训班：花 1.3 万美元学编程，却连面试机会都没有？

北航 &ZGCLAB 提出首个检索增强生成基准测试工具库 XRAG

软件开发人员为何需要打造个人品牌

GitHub Git 因配置更新错误而停机

卖身、豪赌Killer App的AI 厂商：被“吊”麻了，明年咋活？

大模型推理新突破：分布式推理技术探索与实践

中国 AI 人才缺口将达到 400 万，企业如何掌握 AI 人才资源？｜附免费福利

撤销拜登所做的一切！特朗普明天上任“大洗牌”：绿卡“不卡”硅谷人才、TikTok“开香槟”还太早？

Java 近期新闻：WildFly 35、Jakarta EE 11更新、Java Operator SDK 5.0-RC1

RAG 的未来，走向繁荣、重塑还是消亡？

半空：LLM 辅助的 Go2Rust 项目迁移

加强对“完成的定义”可改善最小可行架构

微软研究院开源 AIOpsLab：一个 AI 驱动的云运维框架

这群 00 后“杀疯”了！没靠资本、大学刚毕业狂赚 7 千万，TikTok 助攻 AI 爆款应用出世

支付宝深夜回应重大bug事故；英伟达造富神话：近八成员工已是百万富翁；TikTok“难民”闯荡小红书 | Q资讯

加速 AI 训推：Lepton AI 如何构建多租户、低延迟云存储平台？

敏捷联盟加入项目管理协会

刚刚！谷歌宣布重大调整：没 JavaScript 将无法启动搜索！网友怒斥“技术霸权”！

大语言模型应用开发框架 Eino 正式开源！

拜登 AI 芯片新规把自家公司也坑进去了！英伟达怒斥“乱搞”，OpenAI 以超越中国为由索要机密数据

英伟达 Nemotron 模型旨在加速 AI 智能体代理的开发

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉