FFA 2024 「流式湖仓」专场:流批一体的湖仓架构实践

科技   2024-11-18 20:04   湖南  

Flink Forward Asia 2024 即将盛大开幕!
作为 Apache Flink 社区备受期待的年度盛会之一,本届大会将于 11 月 29 至 30 日上海 隆重举行。Flink Forward Asia(简称 FFA)是由 Apache 官方授权的社区技术大会,旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下,FFA 已成功举办六届。

适逢 Apache Flink 诞生 10 周年,今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时,基于当前 AI 时代的新场景,展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会,并与业界领袖共同探讨 Apache Flink 的过去、现在及未来,以及其在实际应用中的潜力。

FFA 2024 流式湖仓专场由 Apache Flink 核心贡献者与来自淘天集团、抖音集团、vivo、小米、中原银行、阿里云智能、蚂蚁集团、贝壳找房、货拉拉等公司的一线技术专家解析流批一体、存算分离、湖仓融合的实时湖仓架构,探讨以 Apache Paimon 为流批一体湖存储的湖仓架构建设实践,如何帮助业务获得更实时的数据来驱动业务决策,并实现数据管理的降本增效。


▪️ Paimon 1.0: Unified Lake Format for Data + AI

李劲松|阿里云智能开源湖存储负责人,Paimon PMC 主席,Flink PMC 成员

2024 年 3 月,Apache Paimon 毕业成为 Apache 顶级项目,Paimon 结合 Flink 打造 Streaming Lakehouse,在阿里集团以及各行各业得到了大规模的生产实践。2024 年底,Paimon 正在准备发布 1.0 版本,面向 Data 及 AI 全面可用的湖存储版本。此次分享主要介绍:

1. 数据架构演进

2. 介绍 Paimon 1.0 

3. 在 Lakehouse 上构建流式链路 

4. 在 Lakehouse 上构建 AI 应用


▪️ 基于Flink+Paimon+Hologres搭建淘天集团湖仓一体数据链路

朱奥|高级数据开发工程师

业务方希望更多实时数据在数据产品上呈现,业务BI也有了更多实时分析诉求,这对实时数据开发团队提出了新的挑战。传统的消息队列系统(如Kafka、TT)难以有效解决流批一体化存储的问题。而Paimon与Flink的无缝集成不仅支持精确一次(exactly-once)处理语义,还实现了流批统一存储方案。此外,Paimon作为湖存储解决方案,天然具备了良好的可见性和开放性特点,使得无论是实时还是离线数据都能通过SQL进行查询,这极大地提升了数据开发效率及BI查询性能。

鉴于Paimon展现出的诸多优势,淘天集团自今年起已将交易记录、日志信息、引导成交详情及引导日志等多种公共层级的数据导入至Paimon湖中,并并成功应用于流量通道、排行榜以及各类营销活动场景下,在经历618和双11两大促销活动后证明了其稳定性和高效性。本文旨在分享以下几个方面的内容:

1. 淘天集团当前实时数仓架构概览及其面临的主要挑战;

2. 如何利用Paimon与Holo动态表构建湖仓一体化能力;

3. 详细介绍淘天集团公共层数据入湖的具体实施方案、当前进展以及基于Holo动态表搭建的应用层实例;

4. 简述Paimon架构升级所带来的项目价值;

5. 展望未来Paimon的应用规划,特别是在增强系统稳定性方面的工作重点。


▪️ 抖音集团基于Paimon的流式数据湖应用实践

苏兴|抖音集团数据工程师,负责抖音游戏实时数仓建设工作

目前抖音数仓主要采用 Lambda 架构实现,其中实时链路使用 Flink 和 Kafka 进行搭建,主要优点是数据新鲜度高、架构成熟,但是在开发、问题排查等阶段的成本较高,同时在流式场景特有的中间状态存储也面临着巨大的技术挑战。为了解决上述问题,数据工程团队探索了多种技术方案,最终选择基于 Flink 和 Apache Paimon 构建流式湖仓。本文将基于两个典型业务实时数仓场景,介绍 Apache Paimon 在抖音集团直播、游戏业务的流式湖仓生产实践。

1 背景介绍

  1.1 原有数仓架构;(1). 架构实现;(2). 技术挑战

  1.2 湖仓一体架构;(1)架构实现;(2) 新架构带来的变化

2 Paimon落地实践

  2.1 长周期指标聚合场景;(1) 业务背景与痛点;(2) 业务实践;(3) 收益介绍

  2.2 大流量请求维表场景;(1) 业务背景与痛点;(2) 业务实践;(3) 收益介绍

3 未来规划和展望


▪️ vivo基于Paimon的湖仓一体落地实践

徐昱|vivo互联网大数据专家,Apache Paimon Committer

本议题讲述vivo互联网湖仓团队基于Apache Paimon打造实时数据湖能力,建设分钟级延迟、流批统一、数据质量完整的湖仓体系的历程。湖仓能力在离线加速、链路统一、cdc实时同步、消息组件平替、样本拼接等多个业务场景大幅提高任务时效的同时,有效降低计算与存储资源成本。vivo湖仓组件团队基于开源版本Paimon进行能力拓展,围绕大数据、算法等相关业务在查询提速、文件/快照管理、历史数据迁移等方向有效赋能。大纲:

1. vivo湖仓组件的选型

2. vivo湖仓体系架构一览

3. 离线加速为时效提升带来质变

4. 链路优化,流与批的完全统一

5. 消息组件平替场景实践

6. 湖仓体系下的样本拼接实践

7. 查询提速的挑战与解决方案

8. 总结与展望


▪️ 小米基于 Apache Paimon 的流式湖仓实践

钟宇江|计算平台软件研发工程师,Apache Parquet、Apache Iceberg 和 Apache Paimon 社区贡献者

1. Apache Paimon 是什么?我们为什么要引入 Paimon

  - 当前流式湖仓架构的介绍

  - Paimon 的定位和主要应用场景 

2. 基于 Paimon 构建近实时的数据湖仓 

  - 典型应用场景实践 

3. 总结与展望


▪️ 中原银行实时场景企业级解决方案

杜威科|实时数据开发平台负责人

一、建设背景 中原银行经过多年探索和实践,对银行业交易行为和数据操作特点进行分析总结,逐步构建了金融业、企业级、全场景实时化的解决方案。

二、流式湖仓 介绍基于changelog触发计算的流式湖仓架构、银行业交易数据特点遇到的技术挑战等。

1)落地方案:构建了流式湖仓架构,包含实时采集、实时计算、实时存储、实时服务全链路的解决方案;

2)分层模型:基于仓库的多层实时计算模型,提供实时报表或实时指标,并保证端到端保证数据的正确性和稳定性;

3)技术挑战:近亿级账户表实时更新、千万级维度表join、冗余容错设计保证故障快速恢复等。

三、场景案例 以典型银行业务场景为例,阐述在行内的应用成效。

1)行为分析:手机银行、微信银行用户行为轨迹分析,辅助发现用户异常行为;

2)实时核对:风险模型上线后,实时验证,保证风险模型投产准确性;

3)交易协同:零售贷款、信用卡逾期实时冻结、扣划、催收等内容。

四、总结展望


▪️ 基于 Flink+ Paimon + MaxCompute 搭建流式湖仓

翁才智|阿里云技术专家,Apache Paimon PMC member & Committer 

一、背景信息:简要说明以下内容:

1. 流式湖仓的特点和优势;2.介绍 MaxCompute 以及与 Paimon 的集成

二、方案架构

1. 流式湖仓的分层设计;2. 通过 Flink ETL 作业导入数据到 Paimon;3. 通过 MaxCompute 读取和分析 Paimon

三、MaxCompute 读写 Paimon 10 倍提升:性能优化及对比测试

1. 优化点:行存,native 优化;2. 纵向对比:与旧版 Paimon connector 对比;3. 横向对比:hudi, delta,内表


▪️ Flink x Paimon 在抖音集团生活服务的落地实践

陆魏|抖音集团数据工程师
冯向宇|抖音集团流式计算开发工程师,Apache Flink/Paimon Contributor


当前抖音集团生活服务业务实时数仓建设主要还是使用 MQ 作为实时模型数据存储层,MQ 本质上是消费队列,作为实时数仓存储有很多的局限性,不能很好的满足实时数仓开发、管理、运维等过程的一些诉求。通过 Flink X Paimon 新型流式湖仓架构,可以有效解决实时数仓在开发、管理、运维过程中的一系列问题。本次分享主要从以下 4 个方面介绍 Flink X Paimon 湖仓架构在抖音生服业务上的一些落地实践

一、 生活服务实时数仓业务背景,建设现状,问题以及挑战

二、业务实践

1. Paimon 维表在治理体验业务应用实践

2. Paimon Partial Update Merge Engine构建主键宽表应用实践

3. Paimon Changelog audit_log 在DMP业务应用实践

4. Paimon logsystem 构建秒级数据应用实践

三、使用总结和问题

四、未来规划展望


▪️ Flink+StarRocks+Paimon:构建企业级开源实时湖仓

周康|阿里云高级技术专家,StarRocks TSC Member

1、Flink+StarRocks+Paimon开源实时湖仓技术揭秘

2、Flink+StarRocks开源实时数仓案例

3、Flink+StarRocks+Paimon开源实时湖仓分析案例


▪️ 阿里妈妈基于Flink+Paimon的Lakehouse应用实践

陈亮|技术专家

提纲:

- 背景:

- 业务场景与规模

- 业务&技术目标

- 整体设计:

- 架构演进

- 基于Paimon的流批一体应用

- 应用治理

- 收益


▪️ 蚂蚁基于Flink+Paimon的数据湖建设

李志刚|高级技术专家

1. paimon在蚂蚁集团建设情况和经验

2. paimon应用场景 

3. 蚂蚁在paimon上的创新


▪️ 基于 Paimon + DLF 构建阿里云 OpenLake 数据湖存储底座

王道远|DLF 数据湖构建高级技术专家
孙大鹏|DLF 数据湖构建高级技术专家

1. 为什么要有OpenLake,OpenLake需要什么样的存储,以及Paimon提供的能力 

2. DLF Paimon Catalog介绍:云原生 Paimon 存储 

3. DLF 提供的扩展功能与托管能力 

4. DLF 与 Paimon 社区的发展方向


▪️ Flink+Paimon在贝壳家装业务中的探索与实践

李文超|整装事业线大数据负责人
吴俊迪|资深数据仓库工程师

Part1、家装行业特点及其实时数据解决方案

一、业务背景与个人介绍

二、产业特征与数据挑战

    2.1 业务特征

    2.2 用户诉求特征

    2.3 数据挑战

三、贝壳家装业务的整体数据架构

    3.1 数据架构的规划策略

    3.2 家装业务整体数据架构

    3.3 数据内核从Lambda架构向流式湖仓的过渡

    3.4 整体数据架构的发展方向

四、数据产品化与数据普惠

    4.1 数据产品化的应对

    4.2 数据普惠助力科学管理方法落地

Part2、流式湖仓在贝壳家装业务中的探索与实践

五、家装数仓从离线数仓到流式湖仓的演进

    5.1 贝壳家装数仓建设历程

    5.2 天级离线+小时级准实时离线数仓阶段

    5.3 离线+经典实时链路的Lambda架构阶段

    5.4 Flink+Paimon流式湖仓阶段

六、典型场景的流式湖仓建设实践

    6.1 客源状态跟进场景

    6.2 业绩计算场景

七、总结与展望

    7.1 总结

    7.2 展望


▪️ 货拉拉基于Paimon的湖仓思考与实践

王世涛|货拉拉大数据实时离线任务平台负责人陈政羽|货拉拉大数据高级开发工程师,Apache Amoro PMC

01 湖仓架构模式的思考 

02 数据湖系统能力建设 

---数据多种入湖方式支持 

---实时任务列级血缘管理 

---catalog管理和Schema进化的应用支持 

---多云多对象存储支持 

03 数据湖关键能力建设 

---原生指标+指标埋点 

---数据湖关键参数,读写任务计算引擎相关参数自优化 

---多种读写场景:多读多写,读历史,读当前,读热点等场景下的思考和处理 

04 数据湖在数据领域的应用 

---数据质量 

---数据回放场景 

---数据trace 

---业务波动告警 


Flink Forward Asia 2024 合作伙伴


▼ 「大会报名」扫码立即参会报名 ▼


     
 
活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
了解活动详情:https://free.aliyun.com/?pipCode=sc



▼ 关注「Apache Flink」,获取更多技术干货 


   点击「阅读原文」跳转 FFA 2024官网报名

Apache Flink
Apache Flink 中文社区唯一官微,由 Flink PMC 维护;
 最新文章