首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Apache Paimon毕业，湖仓架构的未来发展趋势！

科技科技 2024-04-30 12:55 河南

北京时间 2024 年 4 月 16日，开源软件基金会 Apache Software Foundation（以下简称 ASF）正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新，Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破，数据湖步入实时新篇章！

恭喜Paimon进入一个新的篇章，这篇文章也是我个人结合当前整个湖仓领域的发展和实践写的一个总结性质的文章。

本文对湖仓方向的核心几个框架没有做对比，Hudi、Paimon、Iceberg、Delta在各个公司都有非常成熟的应用，无丝毫拉踩之意。主要目的是透过当前的各个框架对湖仓领域的发展做一个基本的判断和预测。

湖仓框架能力模型

湖仓领域开源的几个核心框架，基本着眼点都在「同一批流一体存储服务」。那么湖仓领域的框架应该具备的能力包含：

流式读写

应该具备秒级的数据数据写入和数据增量消费能力。

并且如果湖仓的框架想要取代Kafka的部分能力，这个RPS要求在千万级别，但是明显目前是达不到的。在高RPS的业务场景中，湖仓架构不是一个很好的选择，因为性能瓶颈明显，什么都想做的结果就是什么都不能做到极致，

批式读写

在批读和批写方面应该完全涵盖Hive的能力，并且提供分区并发更新、主键更新等额外能力，绝大多数情况下吞吐量应该持平Hive。

此外，湖仓领域的框架需要探索例如部分列更新、维度表等能力，这些能力也是湖仓的框架明显优于传统数据方向框架的标志，目前在各个框架都有在推进中，十分期待。

多引擎集成

湖仓的框架要考虑跟Spark、Flink、Presto等引擎进行高度的集成，不能厚此薄彼。

其他

集中在一些额外的扩展能力，这些能力在传统的数仓框架中不具备/较弱的能力，例如Changelog的聚合、外表挂载等等。

解决的主要问题

首先需要明确的是，湖仓是解决特定场景下问题的能力，基于传统数据仓库的不足而产生的，不存在完全替代xx，只是在特定领域解决特定问题的更优的解决方案。

在湖仓领域，通常我们解决的问题有传统链路不能解决或者成本较高的部分。

我们随便举几个例子：

我们可以基于Hudi/Paimon的表直接进行分析，在流读场景取代Kafka的部分能力，解决Kafka对查询分析能力的弱支持；

基于OLAP成本过高，通过挂在外部表实现存储、计算分离，链路解耦；

在批读场景解决主键更新问题，有效减少下游计算的排序去重成本等等。

这些能力是原来的离线和实时链路不具备的能力，或者支持较弱，需要额外的开发成本，从开发效率、质量和稳定性等方向综合考量的结果，是可以通过湖仓链路进行替代。

最后

湖仓领域发展趋势很好，在国内的几家大厂已经有了成熟的应用，并且在替代原有链路上在进行积极的探索。

未来大家会看到，湖仓领域框架的能力越强，传统的数据开发的理论和开发模式越容易被替代。等到湖仓框架大成的那一天，也许大家已经掌握的技能又要全部推翻重来了。

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

http://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247521569&idx=1&sn=3774c47291db1deb30ee4f8d6ac94d23

大数据技术与架构

王知无，大数据卷王，专注大数据技术分享。

最新文章

数据开发SQL写得好有没有用？

Spark 4.0｜自适应查询(AQE)优化革命！

【收藏版】抖音集团指标管理与消费体系建设实践

10万字、近20家企业BI智能分析决策合集

【排查问题/面试必备】Doris SQL执行流程全解析

强烈建议尽快搞个软考证！（重大利好）

Paimon x StarRocks 实时湖仓落地实战

Paimon的Changelog Producer到底有什么用？

Apache Paimon主键表的一些最佳实践

大数据湖仓一体架构未来思考

Apache Doris 3.0核心特性和生产实践解读

从Clickhouse到Doris，湖仓一体架构升级实践

<From官网>Paimon你必须要知道的核心概念

Apache Paimon 0.9版本的一些特性解读！

自助者天助之｜记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历！

【查询优化】Doris性能优化不要慌，再看看这里！

Doris性能优化不要慌，再看看这里！

抱歉，年前我劝各位真的别轻易离职......

Doris性能优化不要慌，看看这里！

面试界经典的「如果xx怎么办？」问题回答思路

技术类面试，面试官的决策标准

关于Flink内存分配核心知识点

Apache Paimon走在正确的道路上｜一些使用体验和未来判断

Doris Compaction生产环境最佳实践这个问题该怎么回答？

零售消费数据分析案例｜七秒易购供应链管理全流程解析（附下载）

Flink 1.20 版本发布，一些值得注意的特性！

简简单单一份大数据面经

Apache Doris 入门 10 问

关于Apache Paimon你需要知道的基本知识

数据开发方向选择问题一次性说完

互联网末法时代的一些思考

最近换工作的一些启示，清华学姐篇

Doris 2.0 ｜高并发点查询性能提升！

收藏版｜数据湖在快手的应用实践

除了写代码，有哪些技能可以让你突破瓶颈期？

有人给我提了一个「差不多就行」的需求？

好多朋友离开大数据开发这个行业了吗？

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

为了摸鱼，我用AI自动清洗数据

收藏级｜蚂蚁金服EB级大数据治理最佳实践

（待会删）yyds，大数据开发请低调使用！

从 0 到 1 构建一站式数据开发治理平台

裁员了，很严重，大家做好准备吧！

面试中的数据模型设计问题该怎么回答？

Apache Paimon毕业，湖仓架构的未来发展趋势！

第一批用AI工作的大数据开发，已经碾压同事了！

Apache Paimon毕业，湖仓架构的未来发展趋势！

B站数据治理平台建设

数据治理要不要在简历中体现？

金三银四还有没有？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉