适逢 Apache Flink 诞生 10 周年,今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时,基于当前 AI 时代的新场景,展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会,并与业界领袖共同探讨 Apache Flink 的过去、现在及未来,以及其在实际应用中的潜力。
FFA 2024 流式湖仓专场由 Apache Flink 核心贡献者与来自淘天集团、抖音集团、vivo、小米、中原银行、阿里云智能、蚂蚁集团、贝壳找房、货拉拉等公司的一线技术专家解析流批一体、存算分离、湖仓融合的实时湖仓架构,探讨以 Apache Paimon 为流批一体湖存储的湖仓架构建设实践,如何帮助业务获得更实时的数据来驱动业务决策,并实现数据管理的降本增效。
▪️ Paimon 1.0: Unified Lake Format for Data + AI
2024 年 3 月,Apache Paimon 毕业成为 Apache 顶级项目,Paimon 结合 Flink 打造 Streaming Lakehouse,在阿里集团以及各行各业得到了大规模的生产实践。2024 年底,Paimon 正在准备发布 1.0 版本,面向 Data 及 AI 全面可用的湖存储版本。此次分享主要介绍:
1. 数据架构演进
2. 介绍 Paimon 1.0
3. 在 Lakehouse 上构建流式链路
4. 在 Lakehouse 上构建 AI 应用
▪️ 基于Flink+Paimon+Hologres搭建淘天集团湖仓一体数据链路
业务方希望更多实时数据在数据产品上呈现,业务BI也有了更多实时分析诉求,这对实时数据开发团队提出了新的挑战。传统的消息队列系统(如Kafka、TT)难以有效解决流批一体化存储的问题。而Paimon与Flink的无缝集成不仅支持精确一次(exactly-once)处理语义,还实现了流批统一存储方案。此外,Paimon作为湖存储解决方案,天然具备了良好的可见性和开放性特点,使得无论是实时还是离线数据都能通过SQL进行查询,这极大地提升了数据开发效率及BI查询性能。
鉴于Paimon展现出的诸多优势,淘天集团自今年起已将交易记录、日志信息、引导成交详情及引导日志等多种公共层级的数据导入至Paimon湖中,并并成功应用于流量通道、排行榜以及各类营销活动场景下,在经历618和双11两大促销活动后证明了其稳定性和高效性。本文旨在分享以下几个方面的内容:
1. 淘天集团当前实时数仓架构概览及其面临的主要挑战;
2. 如何利用Paimon与Holo动态表构建湖仓一体化能力;
3. 详细介绍淘天集团公共层数据入湖的具体实施方案、当前进展以及基于Holo动态表搭建的应用层实例;
4. 简述Paimon架构升级所带来的项目价值;
5. 展望未来Paimon的应用规划,特别是在增强系统稳定性方面的工作重点。
▪️ 抖音集团基于Paimon的流式数据湖应用实践
目前抖音数仓主要采用 Lambda 架构实现,其中实时链路使用 Flink 和 Kafka 进行搭建,主要优点是数据新鲜度高、架构成熟,但是在开发、问题排查等阶段的成本较高,同时在流式场景特有的中间状态存储也面临着巨大的技术挑战。为了解决上述问题,数据工程团队探索了多种技术方案,最终选择基于 Flink 和 Apache Paimon 构建流式湖仓。本文将基于两个典型业务实时数仓场景,介绍 Apache Paimon 在抖音集团直播、游戏业务的流式湖仓生产实践。
1 背景介绍
1.1 原有数仓架构;(1). 架构实现;(2). 技术挑战
1.2 湖仓一体架构;(1)架构实现;(2) 新架构带来的变化
2 Paimon落地实践
2.1 长周期指标聚合场景;(1) 业务背景与痛点;(2) 业务实践;(3) 收益介绍
2.2 大流量请求维表场景;(1) 业务背景与痛点;(2) 业务实践;(3) 收益介绍
3 未来规划和展望
▪️ vivo基于Paimon的湖仓一体落地实践
本议题讲述vivo互联网湖仓团队基于Apache Paimon打造实时数据湖能力,建设分钟级延迟、流批统一、数据质量完整的湖仓体系的历程。湖仓能力在离线加速、链路统一、cdc实时同步、消息组件平替、样本拼接等多个业务场景大幅提高任务时效的同时,有效降低计算与存储资源成本。vivo湖仓组件团队基于开源版本Paimon进行能力拓展,围绕大数据、算法等相关业务在查询提速、文件/快照管理、历史数据迁移等方向有效赋能。大纲:
1. vivo湖仓组件的选型
2. vivo湖仓体系架构一览
3. 离线加速为时效提升带来质变
4. 链路优化,流与批的完全统一
5. 消息组件平替场景实践
6. 湖仓体系下的样本拼接实践
7. 查询提速的挑战与解决方案
8. 总结与展望
▪️ 小米基于 Apache Paimon 的流式湖仓实践
1. Apache Paimon 是什么?我们为什么要引入 Paimon
- 当前流式湖仓架构的介绍
- Paimon 的定位和主要应用场景
2. 基于 Paimon 构建近实时的数据湖仓
- 典型应用场景实践
3. 总结与展望
▪️ 中原银行实时场景企业级解决方案
一、建设背景 中原银行经过多年探索和实践,对银行业交易行为和数据操作特点进行分析总结,逐步构建了金融业、企业级、全场景实时化的解决方案。
二、流式湖仓 介绍基于changelog触发计算的流式湖仓架构、银行业交易数据特点遇到的技术挑战等。
1)落地方案:构建了流式湖仓架构,包含实时采集、实时计算、实时存储、实时服务全链路的解决方案;
2)分层模型:基于仓库的多层实时计算模型,提供实时报表或实时指标,并保证端到端保证数据的正确性和稳定性;
3)技术挑战:近亿级账户表实时更新、千万级维度表join、冗余容错设计保证故障快速恢复等。
三、场景案例 以典型银行业务场景为例,阐述在行内的应用成效。
1)行为分析:手机银行、微信银行用户行为轨迹分析,辅助发现用户异常行为;
2)实时核对:风险模型上线后,实时验证,保证风险模型投产准确性;
3)交易协同:零售贷款、信用卡逾期实时冻结、扣划、催收等内容。
四、总结展望
▪️ 基于 Flink+ Paimon + MaxCompute 搭建流式湖仓
一、背景信息:简要说明以下内容:
1. 流式湖仓的特点和优势;2.介绍 MaxCompute 以及与 Paimon 的集成
二、方案架构
1. 流式湖仓的分层设计;2. 通过 Flink ETL 作业导入数据到 Paimon;3. 通过 MaxCompute 读取和分析 Paimon
三、MaxCompute 读写 Paimon 10 倍提升:性能优化及对比测试
1. 优化点:行存,native 优化;2. 纵向对比:与旧版 Paimon connector 对比;3. 横向对比:hudi, delta,内表
▪️ Flink x Paimon 在抖音集团生活服务的落地实践
冯向宇|抖音集团流式计算开发工程师,Apache Flink/Paimon Contributor
当前抖音集团生活服务业务实时数仓建设主要还是使用 MQ 作为实时模型数据存储层,MQ 本质上是消费队列,作为实时数仓存储有很多的局限性,不能很好的满足实时数仓开发、管理、运维等过程的一些诉求。通过 Flink X Paimon 新型流式湖仓架构,可以有效解决实时数仓在开发、管理、运维过程中的一系列问题。本次分享主要从以下 4 个方面介绍 Flink X Paimon 湖仓架构在抖音生服业务上的一些落地实践
一、 生活服务实时数仓业务背景,建设现状,问题以及挑战
二、业务实践
1. Paimon 维表在治理体验业务应用实践
2. Paimon Partial Update Merge Engine构建主键宽表应用实践
3. Paimon Changelog audit_log 在DMP业务应用实践
4. Paimon logsystem 构建秒级数据应用实践
三、使用总结和问题
四、未来规划展望
▪️ Flink+StarRocks+Paimon:构建企业级开源实时湖仓
1、Flink+StarRocks+Paimon开源实时湖仓技术揭秘
2、Flink+StarRocks开源实时数仓案例
3、Flink+StarRocks+Paimon开源实时湖仓分析案例
▪️ 阿里妈妈基于Flink+Paimon的Lakehouse应用实践
提纲:
- 背景:
- 业务场景与规模
- 业务&技术目标
- 整体设计:
- 架构演进
- 基于Paimon的流批一体应用
- 应用治理
- 收益
▪️ 蚂蚁基于Flink+Paimon的数据湖建设
1. paimon在蚂蚁集团建设情况和经验
2. paimon应用场景
3. 蚂蚁在paimon上的创新
▪️ 基于 Paimon + DLF 构建阿里云 OpenLake 数据湖存储底座
孙大鹏|DLF 数据湖构建高级技术专家
1. 为什么要有OpenLake,OpenLake需要什么样的存储,以及Paimon提供的能力
2. DLF Paimon Catalog介绍:云原生 Paimon 存储
3. DLF 提供的扩展功能与托管能力
4. DLF 与 Paimon 社区的发展方向
▪️ Flink+Paimon在贝壳家装业务中的探索与实践
吴俊迪|资深数据仓库工程师
Part1、家装行业特点及其实时数据解决方案
一、业务背景与个人介绍
二、产业特征与数据挑战
2.1 业务特征
2.2 用户诉求特征
2.3 数据挑战
三、贝壳家装业务的整体数据架构
3.1 数据架构的规划策略
3.2 家装业务整体数据架构
3.3 数据内核从Lambda架构向流式湖仓的过渡
3.4 整体数据架构的发展方向
四、数据产品化与数据普惠
4.1 数据产品化的应对
4.2 数据普惠助力科学管理方法落地
Part2、流式湖仓在贝壳家装业务中的探索与实践
五、家装数仓从离线数仓到流式湖仓的演进
5.1 贝壳家装数仓建设历程
5.2 天级离线+小时级准实时离线数仓阶段
5.3 离线+经典实时链路的Lambda架构阶段
5.4 Flink+Paimon流式湖仓阶段
六、典型场景的流式湖仓建设实践
6.1 客源状态跟进场景
6.2 业绩计算场景
七、总结与展望
7.1 总结
7.2 展望
▪️ 货拉拉基于Paimon的湖仓思考与实践
01 湖仓架构模式的思考
02 数据湖系统能力建设
---数据多种入湖方式支持
---实时任务列级血缘管理
---catalog管理和Schema进化的应用支持
---多云多对象存储支持
03 数据湖关键能力建设
---原生指标+指标埋点
---数据湖关键参数,读写任务计算引擎相关参数自优化
---多种读写场景:多读多写,读历史,读当前,读热点等场景下的思考和处理
04 数据湖在数据领域的应用
---数据质量
---数据回放场景
---数据trace
---业务波动告警
▼ 「大会报名」扫码立即参会报名 ▼