首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Apache Paimon 0.9版本的一些特性解读！

科技 2024-09-26 08:30 浙江

Apache Paimon 0.9.0版本已经发布一周时间了，网上还没看到有人对此的解读，我们稍微看一下这个版本需要注意的特性，抛砖引玉。

核心改动主要有，以下内容来自Paimon官方：

Paimon Branch：此版本 Branch 功能正式生产可用，并且引入了 'scan.fallback-branch' 功能帮助业务更好的统一流批一体存储。
Universal Format：此版本引入了原生的 Iceberg 兼容，你可以开启 Iceberg 兼容模式，Paimon 将实时的额外产生 Iceberg 兼容的 Snapshots，你可以使用 Iceberg 相关生态来读取此 Paimon 表。
Caching Catalog：此版本默认引入了 Caching Catalog 的实现，Table 元数据以及 Manifest 文件都将被缓存到 Catalog 里面，这可以加速 OLAP Query 的性能。
Bucketed Append 表可用性改进，它的小文件问题得到大大缓解，并且它可以被 Spark 应用到 Bucketed Join 中 (减少了 Join 中的 Shuffle)。
Append 表的删改支持：此版本引入了 Append 的 DELETE & UPDATE & MERGEINTO 支持，你可以通过 Spark SQL 来删改 Append 表，并且它还支持 Deletion Vectors 模式。

目前0.9版本的更新偏向更加易用。这里面有2个比较大的使用上的feature需要大家关注。

Paimon Branch

在此之前其实Paimon支持了tag的能力：

创建标签（Tag）策略可以保留关键快照。创建Tag的快照，在进入过期清除流程时，快照的元数据与数据文件仍会被持续保存。在快照过期后，借助标签仍能追溯查询到特定时间点的数据。在实践中，每日生成一个标签尤为实用，能够确保对每一天历史数据的持久访问能力，为数据分析、审计追溯等应用场景提供了坚实支撑。

如果你对Git不陌生，可以把它想象成Git的branch功能。你可以创建多个branch，branch之间也可以进行数据的replace，达到类似数据订正的目的。

从作用上来讲，tag和branch的功能基本上是完全可以按照git里的能力来理解。

Bucketed Append表

0.8版本及以前的表类型分为两大类：主键表和非主键表。

其中非主键表又分为：Append Table 和 Append Queue。

他们的区别是什么呢？只看你是否设置Bucket。 如果你设置了就是Append Queue表，再根据你设置的bucket-key进行hash散列，达到单个bucket有序的目的。你看是不是很像Kafka？

这个能力很重要，一是我们在做流读流写的时候可以保证单bucket数据是有序的。此外我们在使用Spark进行批关联的时候可以用到Bucketed Join减少数据shuffle的目的，效率更高。

在旧版本中如果你设置了bucket但是不设置bucket-key，Paimon会按照所有字段进行hash散列，这并不合理。

而且这其实是一个很奇怪的设计，如果我指定分区(bucket)，但是不指定分区键(bucket-key)，那么分区的意义其实并不大。

Paimon社区显然注意到了这个问题，在新版本中如果你依然犯蠢，指定分区(bucket)，但是不指定分区键(bucket-key)，那么这个表对不起，你建不了！

官方给我们的建议是，如果你不是闲的没事干，那么最好不要创建Bucketed Append表。

好了上面这两个feature就是本次更新对大家影响最大的，更多的资讯还是以官方文档为主。😄

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

http://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247522934&idx=1&sn=2f9bd9906c78b1ccd67e1be20027e923

大数据技术与架构

王知无，大数据卷王，专注大数据技术分享。

最新文章

数据开发SQL写得好有没有用？

Spark 4.0｜自适应查询(AQE)优化革命！

【收藏版】抖音集团指标管理与消费体系建设实践

10万字、近20家企业BI智能分析决策合集

【排查问题/面试必备】Doris SQL执行流程全解析

强烈建议尽快搞个软考证！（重大利好）

Paimon x StarRocks 实时湖仓落地实战

Paimon的Changelog Producer到底有什么用？

Apache Paimon主键表的一些最佳实践

大数据湖仓一体架构未来思考

Apache Doris 3.0核心特性和生产实践解读

从Clickhouse到Doris，湖仓一体架构升级实践

<From官网>Paimon你必须要知道的核心概念

Apache Paimon 0.9版本的一些特性解读！

自助者天助之｜记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历！

【查询优化】Doris性能优化不要慌，再看看这里！

Doris性能优化不要慌，再看看这里！

抱歉，年前我劝各位真的别轻易离职......

Doris性能优化不要慌，看看这里！

面试界经典的「如果xx怎么办？」问题回答思路

技术类面试，面试官的决策标准

关于Flink内存分配核心知识点

Apache Paimon走在正确的道路上｜一些使用体验和未来判断

Doris Compaction生产环境最佳实践这个问题该怎么回答？

零售消费数据分析案例｜七秒易购供应链管理全流程解析（附下载）

Flink 1.20 版本发布，一些值得注意的特性！

简简单单一份大数据面经

Apache Doris 入门 10 问

关于Apache Paimon你需要知道的基本知识

数据开发方向选择问题一次性说完

互联网末法时代的一些思考

最近换工作的一些启示，清华学姐篇

Doris 2.0 ｜高并发点查询性能提升！

收藏版｜数据湖在快手的应用实践

除了写代码，有哪些技能可以让你突破瓶颈期？

有人给我提了一个「差不多就行」的需求？

好多朋友离开大数据开发这个行业了吗？

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

为了摸鱼，我用AI自动清洗数据

收藏级｜蚂蚁金服EB级大数据治理最佳实践

（待会删）yyds，大数据开发请低调使用！

从 0 到 1 构建一站式数据开发治理平台

裁员了，很严重，大家做好准备吧！

面试中的数据模型设计问题该怎么回答？

Apache Paimon毕业，湖仓架构的未来发展趋势！

第一批用AI工作的大数据开发，已经碾压同事了！

Apache Paimon毕业，湖仓架构的未来发展趋势！

B站数据治理平台建设

数据治理要不要在简历中体现？

金三银四还有没有？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉