WXRedian | Apache Flink | FFA 2024「数据集成」专场：聚焦实时技术在数据集成场景的价值与发展

Flink Forward Asia 2024 即将盛大开幕！

作为 Apache Flink 社区备受期待的年度盛会之一，本届大会将于 11 月 29 至 30 日在上海隆重举行。Flink Forward Asia（简称 FFA）是由 Apache 官方授权的社区技术大会，旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下，FFA 已成功举办六届。

适逢 Apache Flink 诞生 10 周年，今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时，基于当前 AI 时代的新场景，展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会，并与业界领袖共同探讨 Apache Flink 的过去、现在及未来，以及其在实际应用中的潜力。

FFA 2024数据集成专场由 Apache Flink 核心贡献者与来自阿里云智能、杭州银行、光大银行、货拉拉、数新智能、镜舟科技等公司的一线技术专家聚焦于实时技术在数据集成场景的价值与发展，讨论实时技术如何提升数据处理的全链路时效性，分析如何基于 Flink 设计实时数据集成框架，以及实时数据集成技术在不同业务领域的最佳实践。

▪️ Flink CDC YAML: 面向数据集成的 API 设计

徐榜江｜阿里云技术专家，Apache Flink PMC Member

2023年底，Flink CDC 在其里程碑版本 3.0 里推出了 YAML API，一年的时间过去，YAML API 支持的功能越发强大，社区用户基数不断扩大，成为了数据集成场景，特别是CDC数据实时集成场景的用户首选方案。本次分享将会和大家一起深入分析 CDC YAML 设计的动机和思考，也会深入讲解部分核心功能的实现，如细粒度的 Schema Evolution 支持，RAG 场景下 AI model 的支持等，最后和大家一起回顾社区的发展，展望 Flink CDC 项目未来规划。

▪️ 实时数据采集（Flink CDC）在杭州银行的应用实践

欧阳武林｜杭州银行实时数据采集项目负责人

在当今快速发展的金融科技时代，实时数据处理与分析已成为金融机构提升运营效率、增强客户体验、和加强风险管理的重要工具。本议题将深入探讨杭州银行如何利用Flink CDC技术实现实时数据流采集，以满足日益增长的业务需求。Flink CDC能够高效捕捉数据库中的变化，实时将数据更新推送至下游系统，为杭州银行大数据系统提供快速供给的能力。这种能力在多个金融应用场景中展现出重要价值，包括客户交易监控、风险管理、反欺诈检测和合规审计等。

▪️ Flink X OceanBase 实现海量数据的快速迁移和实时分析

王赫｜OceanBase 开源生态研发，主要负责OceanBase Binlog Service 社区版的维护和生态项目的对接

一、OceanBase 的列存特性和多模特性

二、Flink + OceanBase 旁路导入实现海量数据的高性能迁移

三、Flink CDC OceanBase Pipeline 实时整库同步

四、Flink + OceanBase 构建新型实时数仓

▪️ Amoro + CDC 构建数据入湖管理新体验

陈政羽｜货拉拉高级大数据开发工程师，Apache Amoro PMC

一、数据入湖介绍 -- 数据湖是什么 -- 数据入湖场景介绍 -- 数据 ACID/Append场景 -- CDC高效入湖架构解析

二、数据入湖 - CDC数据Pipeline 一键入湖 Paimon - CDC数据Pipeline 一键入湖 iceberg - 演示相关入湖作业 - 入湖所带来的一些新挑战

三、Amoro 湖仓管控你的入湖作业 - 基于Amoro湖上文件优化合并 - Amoro管控数据分支/Tag/Snapshot - 湖上数据管控介绍

四、未来规划 - Dinky+CDC+Amoro 构造湖仓一体新体验 - Paimon小文件合并深度支持 - Amoro + CDC可视化的CDC入湖

▪️ Flink CDC 3.0在医保局多中心多库多表场景应用实践

李斌松｜数新智能数据智能引擎技术负责人

一、医保项目背景及挑战

二、基于Flink CDC3.0的实时数据采集方案

三、对Flink CDC3.0的能力增强解析

四、项目成果

在多数据中心多库多表的场景下，怎样实现高效实时数据的采集、保证数据一致性的同时大幅提升集群资源利用率。数新智能的数据智能引擎技术负责人将以某省医保局的项目落地实践为案例，解析数新智能的一站式多云数据智能平台怎样结合Flink CDC3.0相关特性，升级其数据平台架构，以及对Flink CDC哪些能力进行增强，最后达到解决客户痛点的同时，Flink集群计算资源比Flink CDC 2.0节省高达90%以上。

▪️ Flink+StarRocks 高并发实时导入场景优化实践

李鹏飞｜镜舟科技资深数据库研发工程师，StarRocks Active Contributor

一、高并发实时导入的需求背景

二、StarRocks 在高并发场景下的挑战

三、基于 StarRocks 服务端攒批的导入链路优化

四、用户实际场景中的效果验证

▪️ Flink CDC + Hologres高性能数据同步优化实践

胡一博｜阿里云高级技术专家

一、Flink+Hologres构建一站式实时数仓

二、Flink实时写入Hologres新增功能

三、Flink近实时写入Hologres

四、Flink实时订阅Hologres数据变更新增功能

▪️ 光大银行基于实时数据与开放表格式的高效入湖方案

王磊｜数据资产管理部大数据团队主管

一、现状：T+1文件传输的传统数据链路存在开发效率低和错误率高的问题

二、方案：数据集成（E）和数据加载（L）两部分

2.1 数据集成，CDC实时链路替换换批量文件方式，自动推送数据变更和表模式变更，通过Kafka Schema Registry存储模式变更信息

2.2 数据加载，批量从Kafka读取数据，从Schema Registry读取表模式变更信息，写入Hudi表格文件

三、效果与收益，数据和表模式的大多数变更都可以自动推送到数据湖。省去了大量沟通和开发成本，开发效率提升了100倍。

四、未来：对存量表进行推广，降低变更成本。

▪️ Dinky 和 FlinkCDC 在实时整库同步的探索之路

亓文凯｜Dinky社区负责人，Apache FlinkCDC contributor

当今实时数据处理与分析的技术发展迅速，为各行各业的数据分析与应用带来了时效性的跨越式提升。这一大进步的核心是变化数据捕获（CDC）。而 Apache FlinkCDC已然成为最强大和最受欢迎的工具之一。今年，FlinkCDC3重新定义为端到端的数据集成工具，独立实现了实时整库同步技术。由于站在巨人的肩膀上，基于 Flink 实现的Dinky实时计算平台的能力也随之提升。本议题将分享 Dinky 开源实时计算平台如何基于 Flink 和 FlinkCDC构建 CDCSOURCE 实时整库同步链路，并深度解读 FlinkCDC Pipeline实时整库同步的能力与实现细节，帮助用户清晰两者的实现差异与应用场景，以便在使用中快速定位问题，促进 Flink 及 FlinkCDC技术更新，一起探索实时数据集成技术的发展与创新。

Flink Forward Asia 2024 合作伙伴

▼ 「大会报名」扫码立即参会报名 ▼

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动：

新用户复制下方链接或者扫描二维码即可0元免费试用 Flink + Paimon

了解活动详情：https://free.aliyun.com/?pipCode=sc

▼ 关注「Apache Flink」，获取更多技术干货 ▼

点击「阅读原文」跳转 FFA 2024官网报名 ～