WXRedian | Apache Flink | FFA 2024「生产实践」专场：探索Flink在实际部署中的挑战与解决方案

Flink Forward Asia 2024 即将盛大开幕！

作为 Apache Flink 社区备受期待的年度盛会之一，本届大会将于 11 月 29 至 30 日在上海隆重举行。Flink Forward Asia（简称 FFA）是由 Apache 官方授权的社区技术大会，旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下，FFA 已成功举办六届。

适逢 Apache Flink 诞生 10 周年，今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时，基于当前 AI 时代的新场景，展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会，并与业界领袖共同探讨 Apache Flink 的过去、现在及未来，以及其在实际应用中的潜力。快来预约主论坛直播，享受大数据技术盛宴～

FFA 2024生产实践专场由 Apache Flink 核心贡献者与来自快手、eBay、阿里云、抖音集团、Uber、鹰角、移动云、京东、用友畅捷通、搜配云、度小满、天翼云等公司的一线技术专家带来，将聚焦于在生产中使用和部署Flink的痛点, 经验以及最佳实践, 共同探讨如何在真实环境中更高效, 安全, 敏捷地落地实时数据处理框架。

▪️ 快手Flink智能化异常节点治理实践

郭旸泽｜快手技术专家 Apache Flink Committer
李国君｜快手技术专家 Apache Paimon Committer

在快手内部，Flink的作业规模已经增长到上万量级，资源使用也已突破百万核，在如此大规模的使用场景下，异常节点逐渐成为了稳定性保障与运维工作中最重要的问题之一，也带来了诸多挑战，为了缓解异常节点造成的问题，我们将工程师日常的异常排查经验与运维经验沉淀，开发了 Flink 智能化异常节点治理服务。在本次 talk 中，我们将分以下几个方面介绍 Flink 智能化异常节点治理服务:

一、异常节点的智能发现介绍异常节点的分类与检测逻辑

二、对异常节点的启发式自动化运维介绍对异常节点的启发式运维策略

三、Flink 单点容错能力增强介绍对Flink引擎 JobManager / TaskManager 单点容错能力的增强

▪️ Enhancing Real-Time API analytics with Apache Flink at eBay

Keshun Deng｜Software Engineer
Wei Chen｜MTS 2, Software Engineer

1. Introduction to eBay APIs and Their Impact Overview of how eBay APIs empower partners.

2. Importance of real-time insights for fraud detection, business intelligence, and user experience enhancement.

3. Architecture of eBay’s Real-Time Analytics System Automatic data collection mechanisms. Data filtering processes. Introduction to the Flink-empowered real-time processor.

4.Strategies for managing and aggregating data

5. Case Study and Results

6. Q&A Session

▪️ Flink实例级稳定性体系建设实践

许瑞文｜阿里云运维工程师

（一）背景：阿里云Flink多租户架构与运维挑战

（二）思路：Flink实例级稳定性体系概览

（三）方案：全链路无感探针技术方案、实例级异常发现与处置方案、可用率运营提升方案

（四）总结：实例级稳定性体系建设的价值、反思与展望

▪️ 抖音集团基于Flink的亿级RPS实时计算优化实践

陶王飞｜抖音集团数据工程师，负责抖音短视频实时数仓建设工作
羊艺超｜抖音集团数据工程师，负责抖音直播实时数仓建设工作

在抖音集团业务的超大用户体量下，用户侧产生的数据量异常庞大(亿级RPS)，业务对于实时数据的准确性、时效性诉求很高，在如此海量数据之下的实时计算也面临很多技术挑战。如视频场景的全链路超大流量处理如何保障端到端时效性，直播场景的长周期大状态计算如何保障作业稳定性及可恢复性。在发展前期会选择冗余资源和人力去做定向保障，现今我们通过架构设计、链路优化、引擎能力改造等手段实现了低成本解决这些复杂问题的方案。本次分享将从现状与痛点、链路通用优化、业务场景优化以及规划展望这四个方面阐述，介绍如何保证全链路作业的稳定运行。

1.现状与痛点（a.业务现状；b.数仓架构；c.问题挑战）

2.链路通用优化

3.业务场景优化（a.视频场景；b.直播场景；4.规划展望）

▪️ 汽车之家实时平台4.0 建设实践

王刚｜高级数据工程师，Apache Paimon Committer ，Starrocks，Iceberg，Milvus Contributor

一. Paimon湖仓架构升级

1. Paimon介绍

2. 之家落地的湖仓架构

3. 应用场景

a. 加速数仓数据加工

b. 提升数据分析查询效率

c. 业务库数据快速入湖

二. 集群资源治理

1. 实时离线混部

2.常态化资源治理

三. AI Agent助力数据开发提效

背景：人工排查问题效率低下且响应较慢，解答用户问题存在大量重复工作。

1. 实时平台智能助手

a. Agent平台简介

b. 智能助手整体框架

2. 任务智能诊断

3. AI Agent重构指标查询交互

▪️ 抖音基于Flink的DataOps能力实践

黄鑫｜抖音集团数据工程师

目前抖音实时数仓主要基于Flink引擎搭建，业务还在高速发展期，高数据诉求下作业迭代非常频繁。受限于Flink作业依赖环境复杂，开发人员众多、经验及习惯参差不齐，在流程规范、研发效率和稳定性等方面面临极大的挑战。DataOps是作用于人+流程+工具的一套方法论，围绕需求管理、作业开发、数据测试、部署发布等整个研发流程，通过工具保障实时开发同学的流程性，提高数据质量和开发效率，尤其作业开发/部署发布环节能力实现依赖Flink引擎改造并需要有成熟的开发经验沉淀。目前实时开发DataOps能力已经在抖音业务落地使用，在降低Flink作业的开发成本、提升测试/部署/发布环节质量等方面拿到了不错的收益。

一、 Flink作业开发现状与痛点

1.1 当前现状；1.2 痛点

二、基于Flink的DataOps能力建设2.1 需求管理2.2 作业开发2.3 数据测试 2.4 部署发布

三、效果收益

四、规划展望

▪️ 京东零售基于Flink的推荐系统智能数据体系

张颖｜京东技术专家，Alink、TF on Flink Contributor

整个推荐系统的数据体系是非常复杂的，召回、模型、策略、效果等每个阶段都离不开海量数据能力的支持，但是整体链路遇到的问题也是多种多样的，比如说在离线不一致、数据回刷、数据治理等，具体包括实时离线埋点口径、数仓模型、计算口径不一致导致的效果降低，整个推荐系统数据质量 && 校验难以保证等，我将从以下几个方面介绍下我们在推荐系统智能数据方面是如何基于Flink解决这些问题的

1、特征

1）特征背景、遇到的问题、解决方案

2）实时、离线特征整体架构（批流一体）

2、样本

1）超大规模实时样本拼接架构（多流拼接、超大窗口大状态优化、样本纠偏、样本采样、特征调研）

2）样本在离线一致性保证（包含样本实时、离线架构）

3）样本质量 && 校验（样本分布、样本拼接率、样本延时）

4）批流一体算子化支持，SourceOps 、ParseOps 等

3、索引 && 召回体系

1）索引 && 召回背景、分类（原始数据、正排数据、倒排数据）（基础倒排、个性化倒排、热门倒排、兜底倒排、i2i 召回等）

2）索引批流一体构建架构（离线索引、增量索引、实时索引）

3）索引监控 && 报警体系、双流建设等

▪️ 鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践

朱正军｜鹰角大数据开发工程师，Apache Hudi Contributor

1、背景：鹰角数据平台现状以及游戏相关业务介绍

1.1、鹰角大数据平台基础架构设计及数据平台使用场景；1.2、明日方舟游戏背景介绍

2、实践：Paimon 在明日方舟存档业务下落地实践

2.1、HG-Paimon 支持；2.2、基于云原生vvp flink 下 paimon 入仓；2.3、Paimon Feature 实践

3、实践：Flink + Trino + Paimon 湖仓一体平台实践

3.1、数据湖权限管控；3.2、支持 Paimon 自助查询

4、展望：湖仓一体化平台方案未来规划

4.1、自建 Trino 集成 Paimon 能力增强；4.2、StarRocks 集成 Paimon，加速 Olap 数据分析；4.3、推进现有 Hive 表切换 Paimon

▪️ Flink Celeborn 集成最新进展以及在Bilibili的实践

冯明潇｜阿里云高级开发工程师，Apache Celeborn PMC 成员
蒋晓峰｜哔哩哔哩资深开发工程师， Apache Celeborn PMC 成员

Apache Celeborn 是一个为大数据计算引擎设计的中间数据服务，能够有效的提高大数据引擎的性能，稳定性和灵活性。本文将介绍 Celeborn 和 Flink 集成的原理和最新进展以及 Celeborn 在B站的实践。

▪️ 京东物流基于Flink的低代码开发实践

吴云涛京东物流大数据架构师，ClickHouse Contributor

一、背景介绍

二、低代码建设

三、血缘关系建设

四、未来规划

▪️ 移动云基于 Apache Flink 的实时湖仓建设与实践

沈家邵｜移动云流计算专家，Apache Flink Contributor，主要负责移动云流计算平台研发以及和实时数据湖建设

计算场景的多元持续驱动着大数据技术革新，而实时湖仓代表了当下主流趋势，实时湖仓被广泛应用于移动云各大业务，面向复杂的使用场景和超大的数据量，在实时湖仓的建设过程中遇到许多挑战，本次分享将介绍移动云在实时湖仓方面的思考和建设。本次分享主要包括以下几个方面的内容：

一、实时湖仓演进介绍实时湖仓在移动云的架构演进过程

1.1 背景介绍，传统离线数仓、时效性差，不满足业务需求

1.2 通过Doris，Paimon组件构建实时湖仓，进行统一数仓构建

二、平台的建设与治理体现工程实践以及治理方面，分享遇到的问题

2.1 数据湖整体架构设计；2.2 数据湖治理；2.3 作业稳定性治理

三、实时湖仓实践应用案例

3.1 移动云云电脑的湖仓业务实践，基于Flink+Paimon+Doris的实时湖仓探索，利用Doris的物化视图进行汇总层和应用层的计算，并同时通过Doris进行数据湖查询、分析

四、展望移动云实时湖仓未来发展方向

4.1 完善湖仓平台建设，提升易用性；4.2 完善实时湖仓元数据管理能力

▪️ 用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

王龙强｜数据架构师

01. 业务背景：传统的T+1离线计算已经不再满足客户需求，越来越多的业务通过flink流批一体实时入仓

02. 数仓建设：当前用友畅捷通流计算的数据规模，与新增的几条业务线，与最新的数据仓库的技术架构

03. 当前挑战：当前数仓建设在同步数据方面面临的一些挑战（数据延迟，链路出错重启，表结构不一致，数据不一致等问题）

04. 最佳实践：针对上述挑战，用友畅捷通所做出的一些措施与努力

05. 未来发展方向：最后介绍下接下来2025年以及以后整个数仓架构的发展事项，以及哪些业务还可能会使用我们flink进行实时链路的搭建

▪️ Dinky x Paimon 在搜配云实时数仓建设实践

高岩｜大数据架构师，Dinky PMC

搜配云数仓业务改造，原有lambda架构存在开发成本大，数据一致性校验困难，问题排查困难等问题，调研后最终决定通过Flink与paimon+doris构建流式数仓体系，并随着Flink on k8s的成熟，逐步将业务迁移到云平台

本次分享包含以下内容：

1.Flink on k8s建设，探究Flink k8s native与operator

2.Paimon引入实践

3.Dinky平台使用

4.Paimon在日志业务生产实践

5.Dinky集成Paimon开发实践

6.Flink CDC Pipline的尝试与实践

▪️ 抖音集团电商流量实时数仓建设实践

姚遥｜抖音集团电商数据工程师

现今，抖音集团电商业务的用户基数十分庞大，具有复杂多元的特点，旗下的实时数据产品亦丰富多样。为了更好地与业务发展相适配，实时数仓在时效性、稳定性以及数据质量等方面需达到更高的要求标准。历经一系列的深入探索，电商数据BP团队积累了若干经验，在此与诸位分享。本次分享主要涵盖抖音集团电商业务流量域数据架构的演进历程，同时也会分享一些在实践落地过程中具有代表性问题的解决方案，期望能给大家带来有益的启发和助力。

1. 背景

- 流量业务介绍

- 技术挑战

2. 数仓建模架构的演进

- 纵向分层

- 横向拆分

3 流批一体架构的演进

- 流批发展流程

- 任务一体化

- 口径一体化

4 大流量下的性能优化实战

- 大流量数据消费问题：Header索引

- 数据倾斜：weak-hash

5 总结&规划

▪️ Flink CDC在阿里云实时计算Flink版的云上实践

阮航｜阿里云高级开发工程师，Apache Flink Committer

1. 实时计算 Flink 产品简介

2. 数据摄入 YAML 能力介绍

3. YAML 作业典型应用场景

4. Demo（（整库入Holo，binlo入Kafka）与未来规划

▪️ 京东物流基于Flink的湖仓分析

梁宝彬｜京东物流高级数据开发工程师，Apache Flink Contributor

01 实时湖仓探索与建设
02 实时湖仓应用
03 问题与思考
04 未来展望

▪️ 实时计算在度小满的落地发展历程

桑贤栋｜Flink实时架构工程师

一、实时计算平台在度小满的落地发展历程

二、落地初探——流计算落地与推广

1. 实时同步服务——基于DataX的全量查询切换为基于FlinkX的流式同步落地推广

2. 实时计算平台——Flink Jar任务&SQL任务全生命周期管理

三、质量保障——Metrics采集与应用

1. 基于PushGateway的Flink on yarn指标采集方案

2. 基于运行时指标的任务健康度判定体系

四、场景拓展——数据集成外延建设

1. 基于Kerberos Ticket 缓存的Flink on yarn权限认证方案

2. 对接自有HiveMetastore的FlinkSQL字段级权限管控

五、未来规划

▪️ 天翼云实时湖仓的生产实践

邱从贤｜技术专家，Apache Flink Committer

1. 业务场景介绍单表数据量在亿级别，单天更新频度超过 100%

2. 数据入湖的挑战和方案基于 FlinkCDC 3.0 的实时入湖挑战（时间字段问题，隔离性问题，分库分表同步，新增 Connector 如何保证 SchemaEvolution 正常，安全问题等）

3. 数据湖的挑战和解决方案单表频繁更新（单天更新超过 100%）情况下，如何避免存储压力，如何保证读取性能，并且保证性能

4. 未来展望

Flink Forward Asia 2024 合作伙伴

▼ 「大会报名」扫码立即参会报名 ▼

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动：

新用户复制下方链接或者扫描二维码即可0元免费试用 Flink + Paimon

了解活动详情：https://free.aliyun.com/?pipCode=sc

▼ 关注「Apache Flink」，获取更多技术干货 ▼

点击「阅读原文」跳转 FFA 2024官网报名 ～