适逢 Apache Flink 诞生 10 周年,今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时,基于当前 AI 时代的新场景,展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会,并与业界领袖共同探讨 Apache Flink 的过去、现在及未来,以及其在实际应用中的潜力。快来预约主论坛直播,享受大数据技术盛宴~
FFA 2024 流批一体专场由 Apache Flink 核心贡献者与来自阿里云智能、小米、快手、美团、腾讯及抖音集团公司的一线技术专家聚焦于流批一体的最新进展与实践,涵盖从理论探索到实际应用的全方位内容。围绕构建高效、统一的流批处理架构展开深入探讨。内容涵盖 Flink Materialized Table 统一流批 ETL、基于 Flink 的增量批计算探索、还覆盖了流批一体存储的应用实践等等。此外,还将分享多个实际案例,展示这些技术如何助力企业提升数据处理效率与灵活性。
▪️ Flink Materialized Table:构建流批一体 ETL
Flink SQL 作为流批一体的计算引擎,一致致力于为用户提供流批一体的数据开发体验,由于流处理和批处理在存储选型、计算模式上的差异,实际上用户一直都只能使用 Lambda 架构来构建流批一体数仓,这就导致不得不使用两套存储、两套代码,导致数据口径不一致,重复的开发、运维成本等。基于上述问题,我们在 Flink 中提出一种新的 Materialized Table,通过在建表时指定数据新鲜度和数据处理逻辑,让用户只需关注业务逻辑和数据新鲜度。通过使用一套代码,一套存储、一套计算引擎,从而简化批处理和流处理数据管道,为用户提供一体化的实时湖仓数据分析体验。在本议题中我们首先会为大家介绍当前业界在流批一体数仓的各种探索以及问题,然后介绍如何通过 Materialized Table 来解决这些问题,最后会通过一个 demo 为大家演示如何使用 Materialized Table 构建一体数仓。
▪️ 基于 Flink 进行增量批计算的探索与实践
增量批计算可以支持分钟级的近实时数据产出,并且成本可以比实时的流计算低很多,也能够支持用户对业务的数据新鲜度和计算成本灵活地进行权衡。本次演讲会给大家分享我们在让 Flink 支持增量批计算做的一些探索和实践的工作,主要包含以下内容:
一、为什么要让 Flink 支持增量批计算
二、介绍我们让 Flink 支持增量批计算的设计思路和一些关键点
三、总结当前的工作成果,展望后续改进工作
▪️ 小米实时数仓实践
一、统一元数据,提升批流开发体验
• 介绍通过 Spark、Flink、Trino 实现的统一元数据框架,及其在简化批流处理中的重要性。
二、实时开发核心问题及解决方案
• 状态膨胀优化:Join 和聚合场景中的状态增长与数据倾斜优化,解决方案包括 Broadcast Join、Lookup Join、Partial Update 策略等。
• 点查优化:优化 Hive、Redis、HBase、MySQL 的点查场景,介绍 Paimon 的应用。
• CDC + Exactly Once + 延迟平衡:完整 CDC 去重方案,Exactly Once 的延迟挑战。
• 数据修正:Merge Into 场景与分区覆盖策略优化。
三、流批一体的存储方案
• 实时数仓(Flink SQL + Holo)和准实时数仓(Flink SQL + Paimon)解决方案解析。
四、业务实践案例
▪️ 湖仓实时化升级:Uniflow构建流批一体实时湖仓
1.实时湖仓发展趋势解读
2.Paimon实时湖仓基石再升级
3.Flink+打造湖仓全链路实时体验
4.Uniflow湖仓全面流批一体
5.Demo演示
▪️ 快手流批一体探索和演进
蔡睿诚|快手数据架构师
一、快手Flink规模和行业流批一体探索方向
1.1 快手Flink当前规模;1.2 单一引擎短时间无法完全解决流和批场景上的所有问题;1.3 充分发挥新技术优势,结合引擎特性可以获得实际的业务收益
二、快手流批一体技术探索经验 (主讲快手内部典型业务场景和引擎的优化)
2.1 介绍快手流批一体探索发展的三个阶段;2.2 流计算和数据湖的结合助力核心离线公共模型提效2小时;2.3 简化离线生产链路复杂度,如何在不同场景选择合适的湖仓方案
三、快手数仓流批一体实际案例分享 (数仓实际案例分享)
3.1 发现问题症结,时效,资源,数仓架构介绍和优化点;3.2 DWD层流批融合方案,实时使用和离线数据使用和认知的不同;3.3 DIM、DWS层流批融合方案;3.4 质量保障方案;3.5 如何规模化流批融合
四、未来湖仓方案规划
4.1 优化Flink hudi 实时化架构,使其更好支持业务场景
4.2 完善湖仓实时化的能力,比如实时大宽表拼接
4.3 探索更多业务场景,比如算法领域QA
▪️ 美团增量湖仓Beluga的架构设计与实践
一、发展历程与挑战
1. 简介自研离线增量数仓、列式生产解决方案hidi的落地与问题(引出实时读写需要timeline);2. 简介基于hudi的实时增量数仓的落地与问题(单层bucket、文件上限、compact rescale不透明、timeline bucket依赖hdfs效率低、低成本实时cdc、表快照精准切分等问题);
二、Beluga架构设计
1. Beluga从架构到实现;2. Beluga性能表现
三 批流一体roadmap;
1. 适合美团的批流一体:开发平台、生产调度、存储与算子;2. 算子视角补齐;3. 技术换运营的增量改造推进
▪️ 流存储Fluss:迈向湖流一体架构
流存储(如 Kafka)提供了更低的延迟,湖存储(如 Iceberg)提供了更高的吞吐和分析性能,通常构建数仓时,流存储和湖存储需要重复建设,以满足实时和离线不同的需求。这导致目前流存储和湖存储依然很割裂,数据的重复存储带来的成本、一致性、治理等问题都面临很大的挑战。本次议题,我们将首先探讨湖流割裂的现状下用户面临的问题和挑战,以及目前业界在湖流一体存储上的趋势。然后,会介绍我们团队设计的 Fluss x Paimon 构建湖流一体存储的方案,分析该湖流一体存储相比传统割裂地使用流存储和湖存储能带来的收益,深度解析其技术架构和原理。最后将以一个 Demo 的形式完整展示 Fluss x Paimon 湖流一体存储提供的能力。
▪️ 腾讯大数据天穹流批一体建设之流批一体存储BSS
深入剖析流批一体存储技术的起源背景,探讨其在业界的实现方式,并评估现有解决方案与实际业务需求之间的差异。将从行业生态、未来发展方向以及技术创新等多维度进行分析。此外,将详细介绍公司自主研发的流批一体存储解决方案(BSS 全称 Batch & Stream Storage),包括其设计方案、性能优势以及在不同应用场景下的应用案例。期望通过BSS 的技术分享,推动流批一体存储技术的进步,为大数据处理领域带来更高效的解决方案。本次分享主要从以下6个方面介绍腾讯批流一体存储
1.背景介绍;2.业内实现;3.BSS方案设计;4.性能数据;5.应用场景;6.落地案例
▪️ BTS - 抖音集团流批一体存储服务
1. 抖音集团流批一体存储 BTS 介绍
2. BTS + Flink 流批一体方案
3. BTS 技术原理
4. BTS 在抖音集团流量数据的实践
5. 未来规划
Flink Forward Asia 2024 合作伙伴
▼ 「大会报名」扫码立即参会报名 ▼