Apache Paimon 0.9版本的一些特性解读!

科技   2024-09-26 08:30   浙江  

Apache Paimon 0.9.0版本已经发布一周时间了,网上还没看到有人对此的解读,我们稍微看一下这个版本需要注意的特性,抛砖引玉。

核心改动主要有,以下内容来自Paimon官方:

  1. Paimon Branch:此版本 Branch 功能正式生产可用,并且引入了 'scan.fallback-branch' 功能帮助业务更好的统一流批一体存储。
  2. Universal Format:此版本引入了原生的 Iceberg 兼容,你可以开启 Iceberg 兼容模式,Paimon 将实时的额外产生 Iceberg 兼容的 Snapshots,你可以使用 Iceberg 相关生态来读取此 Paimon 表。
  3. Caching Catalog:此版本默认引入了 Caching Catalog 的实现,Table 元数据以及 Manifest 文件都将被缓存到 Catalog 里面,这可以加速 OLAP Query 的性能。
  4. Bucketed Append 表可用性改进,它的小文件问题得到大大缓解,并且它可以被 Spark 应用到 Bucketed Join 中 (减少了 Join 中的 Shuffle)。
  5. Append 表的删改支持:此版本引入了 Append 的 DELETE & UPDATE & MERGEINTO 支持,你可以通过 Spark SQL 来删改 Append 表,并且它还支持 Deletion Vectors 模式。

目前0.9版本的更新偏向更加易用。这里面有2个比较大的使用上的feature需要大家关注。

Paimon Branch

在此之前其实Paimon支持了tag的能力:

创建标签(Tag)策略可以保留关键快照。创建Tag的快照,在进入过期清除流程时,快照的元数据与数据文件仍会被持续保存。在快照过期后,借助标签仍能追溯查询到特定时间点的数据。在实践中,每日生成一个标签尤为实用,能够确保对每一天历史数据的持久访问能力,为数据分析、审计追溯等应用场景提供了坚实支撑。

如果你对Git不陌生,可以把它想象成Git的branch功能。你可以创建多个branch,branch之间也可以进行数据的replace,达到类似数据订正的目的。

从作用上来讲,tag和branch的功能基本上是完全可以按照git里的能力来理解。

Bucketed Append表

0.8版本及以前的表类型分为两大类:主键表和非主键表。

其中非主键表又分为:Append Table 和 Append Queue。

他们的区别是什么呢?只看你是否设置Bucket。 如果你设置了就是Append Queue表,再根据你设置的bucket-key进行hash散列,达到单个bucket有序的目的。你看是不是很像Kafka?

这个能力很重要,一是我们在做流读流写的时候可以保证单bucket数据是有序的。此外我们在使用Spark进行批关联的时候可以用到Bucketed Join减少数据shuffle的目的,效率更高。

在旧版本中如果你设置了bucket但是不设置bucket-key,Paimon会按照所有字段进行hash散列,这并不合理。

而且这其实是一个很奇怪的设计,如果我指定分区(bucket),但是不指定分区键(bucket-key),那么分区的意义其实并不大。

Paimon社区显然注意到了这个问题,在新版本中如果你依然犯蠢,指定分区(bucket),但是不指定分区键(bucket-key),那么这个表对不起,你建不了!

官方给我们的建议是,如果你不是闲的没事干,那么最好不要创建Bucketed Append表。

好了上面这两个feature就是本次更新对大家影响最大的,更多的资讯还是以官方文档为主。😄

300万字!全网最全大数据学习面试社区等你来!


如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)
互联网最坏的时代可能真的来了
我在B站读大学,大数据专业
我们在学习Flink的时候,到底在学习什么?
193篇文章暴揍Flink,这个合集你需要关注一下
Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS
Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点
我们在学习Spark的时候,到底在学习什么?
在所有Spark模块中,我愿称SparkSQL为最强!
硬刚Hive | 4万字基础调优面试小总结
数据治理方法论和实践小百科全书
标签体系下的用户画像建设小指南
4万字长文 | ClickHouse基础&实践&调优全视角解析
【面试&个人成长】社招和校招的经验之谈
大数据方向另一个十年开启 |《硬刚系列》第一版完结
我写过的关于成长/面试/职场进阶的文章
当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

大数据技术与架构
王知无,大数据卷王,专注大数据技术分享。
 最新文章