首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

大数据湖仓一体架构未来思考

科技 2024-10-22 18:13 浙江

湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。

网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。

文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。

一个基本判断是湖仓一体架构在形式上不止一种

大家可以从网上看到很多关于基于Doris、Paimon+Flink等等的不同的技术方案的实现。

几个例子，比如：

《从Clickhouse到Doris，湖仓一体架构升级实践》》

《字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践》

《B站基于Iceberg的湖仓一体架构实践》

所以你看基于Doris、Hudi、Iceberg等的湖仓方案在不同公司的落地形式完全不同。

但是一个基本的共识是，湖存储框架(Hudi/Iceberg/Paimon)、OLAP引擎(Clickhouse/Doris)，计算引擎框架(Flink/Spark)，在不同的架构中都扮演着重要的作用。

湖仓架构的几个特性和框架

存储&计算分离的架构是普遍的架构设计。

目前存储端类似Hudi/Paimon这样的框架是综合成本、效率最低、最推荐的框架。

不止如此，Flink、Doris在和湖存储框架兼容上在各个社区也是处于较高的优先级。举个例子就是Doris/StarRocks在Hudi、Paimon的外表能力支持上。

读写能力要求变高。

相比于传统的数仓开发中，读写能力以及ACID等能力对于湖仓架构下提出了更高的要求。

这个相信大家也都不陌生，传统的Lambda架构的数仓开发模式至今都是行业内各大公司的主流开发模式。

这套模式一方面受制于存储、计算成本不得已而为之，另外一方面是读写能力限制更多。

所以无论是Paimon还是Doris等这些框架在读写设计中都进行了大量的优化，例如Paimon支持主键表并为此进行了大量的读写优化，Doris本身作为OLAP引擎也进行了大量读写优化。

此外还有一些数据治理、数据服务类的要求我们就不过度展开了。

公司内部的落地偏好

在中大公司，从成本和效率的角度上，在小范围内验证后会更加激进的推进离线/在线融合，除了框架本身的特性支持外，大规模推进架构落地会被优先考虑。

在小公司或者特定的业务场景中，这些框架的「特性」才是更加被重视的部分，例如Changelog、Partial update等等。

所以未来你会看到，社区的分享也主要会有两大类组成。

第一类，偏向宏观叙事，聚焦在成本和架构演进。第二类，聚焦在技术方案，偏向特定场景下的业务解决方案。

这两类没有优劣之分，完全是站的视角不同。

所以我们不仅要从宏观上关注架构方向的演进，特定场景下的落地方案也应该多多考虑。

写的思路比较乱，凑合看吧。😄

http://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247523048&idx=1&sn=fd1f1e161e761881e058d36c09891694

大数据技术与架构

王知无，大数据卷王，专注大数据技术分享。

最新文章

数据开发SQL写得好有没有用？

Spark 4.0｜自适应查询(AQE)优化革命！

【收藏版】抖音集团指标管理与消费体系建设实践

10万字、近20家企业BI智能分析决策合集

【排查问题/面试必备】Doris SQL执行流程全解析

强烈建议尽快搞个软考证！（重大利好）

Paimon x StarRocks 实时湖仓落地实战

Paimon的Changelog Producer到底有什么用？

Apache Paimon主键表的一些最佳实践

大数据湖仓一体架构未来思考

Apache Doris 3.0核心特性和生产实践解读

从Clickhouse到Doris，湖仓一体架构升级实践

<From官网>Paimon你必须要知道的核心概念

Apache Paimon 0.9版本的一些特性解读！

自助者天助之｜记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历！

【查询优化】Doris性能优化不要慌，再看看这里！

Doris性能优化不要慌，再看看这里！

抱歉，年前我劝各位真的别轻易离职......

Doris性能优化不要慌，看看这里！

面试界经典的「如果xx怎么办？」问题回答思路

技术类面试，面试官的决策标准

关于Flink内存分配核心知识点

Apache Paimon走在正确的道路上｜一些使用体验和未来判断

Doris Compaction生产环境最佳实践这个问题该怎么回答？

零售消费数据分析案例｜七秒易购供应链管理全流程解析（附下载）

Flink 1.20 版本发布，一些值得注意的特性！

简简单单一份大数据面经

Apache Doris 入门 10 问

关于Apache Paimon你需要知道的基本知识

数据开发方向选择问题一次性说完

互联网末法时代的一些思考

最近换工作的一些启示，清华学姐篇

Doris 2.0 ｜高并发点查询性能提升！

收藏版｜数据湖在快手的应用实践

除了写代码，有哪些技能可以让你突破瓶颈期？

有人给我提了一个「差不多就行」的需求？

好多朋友离开大数据开发这个行业了吗？

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

为了摸鱼，我用AI自动清洗数据

收藏级｜蚂蚁金服EB级大数据治理最佳实践

（待会删）yyds，大数据开发请低调使用！

从 0 到 1 构建一站式数据开发治理平台

裁员了，很严重，大家做好准备吧！

面试中的数据模型设计问题该怎么回答？

Apache Paimon毕业，湖仓架构的未来发展趋势！

第一批用AI工作的大数据开发，已经碾压同事了！

Apache Paimon毕业，湖仓架构的未来发展趋势！

B站数据治理平台建设

数据治理要不要在简历中体现？

金三银四还有没有？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉