FFA 2024「行业解决方案、Data+AI、云原生」专场:Flink在行业应用、AI大模型与云原生技术中的创新探索

科技   2024-11-26 20:03   湖南  

Flink Forward Asia 2024 即将盛大开幕!

作为 Apache Flink 社区备受期待的年度盛会之一,本届大会将于 11 月 29 至 30 日上海隆重举行。Flink Forward Asia(简称 FFA)是由 Apache 官方授权的社区技术大会,旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下,FFA 已成功举办六届。

适逢 Apache Flink 诞生 10 周年,今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时,基于当前 AI 时代的新场景,展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会,并与业界领袖共同探讨 Apache Flink 的过去、现在及未来,以及其在实际应用中的潜力。快来预约主论坛直播,享受大数据技术盛宴~


FFA2024行业解决方案专场由 Apache Flink 核心贡献者与来自中国联通、阿里云、腾讯、中国电信、微财、谙流科技、平凯星辰、飞轮科技等公司的一线技术专家带来分享,探讨Apache Flink在关键行业场景中落地的实时数据驱动决策和分析的方案,通过这些案例,一起解析技术挑战,分享业务成果,促进实时数据处理技术的创新与发展。


  • 腾讯广告基于flink的实时特征平台

宋奇|腾讯广告 - 大数据开发工程师

一、业务背景与架构介绍

1. 特征平台演进史(广告业务 1k+ 特异的特征链路催生统一特征平台) 

2. 基于 PythonDSL + Flink + 数据湖 搭建的一站式特征平台 

二、基于 Flink 的特征生产实践 

1. 流批一体目标下特征生产 DSL 的设计与实现 

2. 广告内容理解、窗口和序列特征在实时场景下的诉求、挑战与解决方案 

3. Flink+Iceberg 打造多版本、多场景流式特征存储 

三、未来展望 

1. 在腾讯搜推业务场景推广 

2. 探索对流式任务的自动优化


  • 中国联通网络资源湖仓一体应用实践

李晓昱|中国联通专家

中国联通网络资源采用集约化建设,现已实现对31省、骨干、国际等各级资源的集中管理,覆盖十多个专业领域、数百种资源类型、涵盖数百亿条资源数据,实现了全网网络资源的数智化管理。2024年网络资源研发团队基于 Flink + Paimon 对数据链路进行了重构,不仅彻底解决了分布式数据库CDC乱序问题,使数据准确性达到 100%,还将增量时延控制在分钟级、处理性能和查询性能提升了 数倍至数十倍,网络资源管理全面迈入湖仓一体新时代。

分享大纲:

一、现状和挑战

二、基于 Flink + Paimon 构建湖仓一体新架构

三、效果和收益

四、未来规划


  • 微财基于Flink构造实时变量池

穆建魁|资深数据开发工程师

  1. 公司简介

  2. 实时变量池建设背景(数据规模)

  3. 构建过程

  4. 遇到的问题

  5. 当前成果

  6. 未来规划


  • 陆上风光电站实时监测数据治理和架构思考

姚远|工程师

  1. 监测背景:当前陆上风光电站监测面临的问题;前期团队已经完成的工作明

  2. 数据治理:海量、复杂多元的数据如何利用算子进行数据的核心处理;数据治理后续的操作,存储、统计及分析

  3. 监测架构:基于简单实用的原则,选择流式和多样化的存储技术构建的整体技术架构

  4. 总结及展望:针对整体情况,进行介绍;展望后续系统改进。


  • 基于Flink的中国电信星海时空数据多引擎实时改造

李新虎|中国电信集团大数据架构师

  1. 中国电信集团时空数据现状及能力体系

  2. 基于Flink构建多引擎实时场景匹配介绍

  3. 实时改造的典型应用

  4. 中国电信时空智能方面的工作布局

简介:中国电信多引擎的实时改造工作基于Flink组件,结合电信31省实时时空信令数据,采用出行方式识别引擎、OD分析引擎、身份推测引擎等多引擎融合的方式,构建了应急、交通、文旅、金融等行业场景的智能匹配机制,形成电信的时空位置综合服务能力,成为中国电信星海大数据产品的重要数据能力之一。2024年8月,中国电信的星海大数据时空位置综合服务能力,获得中国国际大数据产业博览会2024优秀科技成果奖。


  • Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

姜伟华|阿里云Hologres负责人

实时湖仓实现了数据在多引擎之间的共享,并达到了分钟级的时效性,是未来数据架构的方向。但目前实时湖仓的建设还有非常多的挑战。比方说,OLAP查询的性能、如何构建实时的数据分层、实时和离线计算的口径对齐(lambda架构或者流批一体)、湖和仓的定位等。本次分享通过Flink+Paimon+Hologres的产品组合帮助用户更好的构建面向未来的一体化实时湖仓,介绍Hologres Dynamic Table在实时数据分层方面的优势和在阿里集团核心业务场景的成功实践。


  • 基于 Flink 和 Paimon 构建 Pulsar 的大规模消息追踪平台

翟佳|谙流科技联合创始人兼CEO, Apache Pulsar PMC Member,Apache Member

Apache Pulsar 采用了存算分离的云原生架构,在保证消息系统的性能同时,提供了多租户、多集群高可用等丰富的企业级功能,引领着消息系统云原生化的变革。Apache Paimon是一款高效的分布式数据存储与处理框架,旨在为大规模数据处理提供一个灵活且高性能的解决方案,践行着新一代实时湖仓的架构理念。作为企业内部做为基础平台,Pulsar 的消息追踪体系(Message Tracing System)对于确保消息传递系统的可靠性、可审计性、合规性和可维护性至关重要。本次分享将会介绍我们使用 Flink 和 Paimon 构建 Pulsar 的大规模消息追踪平台的实践和收益。

  1. Pulsar 消息追踪体系背景介绍

  2. 基于 Flink + Paimon 的 Pulsar 消息追踪体系的整体架构和实践

  3. 总结和未来规划


  • 基于 Paimon x Spark 构建极速湖仓分析

邹欣宇|阿里云基础平台开发

1. Paimon x Spark 最新进展 - 社区 0.9 ... - 所有功能完备 

2. Paimon x Spark 极致查询优化 - Flink 写主键表 + Spark dv 查询 - bucket join - cache catalog - nested column pruning - select count(*) - ... 

3. 湖仓场景下 Paimon x Spark 典型案例 - 生产案例 ... - Flink 写 + Spark ETL - Flink 写 + Spark Clustering + Spark query - ... 

4. 未来展望与规划 - spark 4.0 集成 + Variant - view - ...


  • 基于 TiDB + Flink 实时数据汇聚平台实践

李振环|平凯星辰科技解决方案架构师

一、TiDB 简介和架构原理

1.平凯星辰公司介绍

2.TiDB 简介

3.TiDB 架构原理

4.TiDB HTAP 架构原理

5.TiDB 产品特性

6.TiDB 客户 LOGO 墙

二、HTAP & Flink 实时数仓场景分析和案例

1.传统实时数仓架构

2.TiCDC 架构和能力说明

3.基于 TiDB 的批流一体架构

4.TiDB 实时数仓架构图

5.Flink + TiDB 实时数仓案例介绍

三、HTAP VS 传统分布式数据库架构

1.TiDB VS 集中式数据库

2.TiDB VS 分库分表数据库

3.TiDB VS AP类数据库

四、TiDB 通用场景:数据库选型说明

1.TiDB 通用解决方案概述

2.TiDB OLTP Scale 场景和案例

3.TiDB 实时汇聚场景和案例

4.TiDB 多业务融合场景和案例

5.银行分布式数据库选型场景说明


  • Flink + Doris 的实时湖仓解决方案

陈明雨|SelectDB 技术副总裁、Apache Doris PMC Chair

一. 实时数仓设计架构的局限性

二. 全新实时湖仓架构建设

三. 基于 Flink + Apache Doris 构建的实时湖仓产品能力

四. Apache Doris + Paimon 实时湖仓用户实践


FFA2024Data+AI专场由 Apache Flink 核心贡献者与来自哔哩哔哩、抖音集团、Elastic、京东、硕橙科技等公司的一线技术专家带来,聚焦实时大数据处理与人工智能的前沿融合,共同探讨如何利用Flink助力AI大模型技术的实时化升级,议题涵盖但不限于特征工程、训练、推理、大模型架构优化、以及实时AI大模型在各行业领域的创新应用。


  • LLM技术在B站大规模Flink运维中的探索与实践

张勋祥|哔哩哔哩资深开发工程师

随着Flink在B站业务中持续深入的使用,目前有6000+实时作业、20w+Core、760TB+memory的集群规模,且平均每周有25+咨询量,问题具有发散、专业知识高的特点,使得在运维上带来了很大挑战。为了快速解决运维问题,降低人效成本,实现运维自动化的目标,引入并开发了Flink运维系统。根据运维场景的复杂情况,Flink运维服务系统也在不断进行演进。

以下是本次分享的大纲:

一. 背景介绍 

二. 运维解决方案 

2.1 Flink运维1.0版主要围绕Flink垂直领域基础能力的建设 

2.2 Flink运维2.0版主要围绕llm中RAG、AI Agent技术能力在线复杂场景运维的建设 

三. 实践成果 

四. 未来展望


  • 抖音集团推荐场景万亿级Feature Store演进历程和挑战

李旺|抖音集团推荐架构工程师

杨健章|抖音集团推荐架构工程师

抖音集团推荐架构团队在过去一年里通过Python DSL和Planner等能力的补齐,在作业的性能以及用户易用性方面都有了不错的进展。与此同时,随着生成式推荐在Meta 的落地和抖音集团短视频、直播、电商等业务上量和需求演进,在数据量上给系统带来了极大的挑战,更加多样化的场景也考验着系统的拓展性和能力边界。在此背景下,结合业界成功实践和现状,抖音推荐架构团队提出了新一代Feature Store架构,统一流/批/用户/物料/序列等多种特征的计算范式,在此之上,利用业界开源框架和 LLM 技术,将系统性能和特征管理的能力又提升了一个台阶。

一 背景 

二. 推荐场景Feature Store架构 

三. 序列特征存算引擎 

四. LLM 在特征场景应用 五. 未来和展望

  • 基于Flink和Elasticsearch设计企业级高级RAG架构

朱杰|Elastic中国首席解决方案架构师,Elastic社区和阿里云Elasticsearch社区布道者

  1. 高级RAG整体架构,展示Flink和Elasticsearch在整个架构中所起的作用 

  2. RAG之数据抽取、切片。Flink在这个阶段的处理管道作用,比如需要调用各种服

  3. 务处理数据,多模态的复杂抽取转化工作等等 

  4. RAG核心向量数据库,Elasticsearch原生向量引擎的特色和优化,Flink在企业实时数据向量化方面发挥作用 

  5. RAG之LLM问答缓存,Flink实现基于用户实时交互的缓存更新策略 

  6. RAG企业信息合规,隐私安全,Elasticsearch实现数据精细化权限控制,规则查询匹配能力。Flink实现企业信息合规审查规则引擎


  • 京东零售基于Flink的推荐系统智能数据体系

张颖|京东技术专家,Alink、TF on Flink Contributor

整个推荐系统的数据体系是非常复杂的,召回、模型、策略、效果等每个阶段都离不开海量数据能力的支持,但是整体链路遇到的问题也是多种多样的,比如说在离线不一致、数据回刷、数据治理等,具体包括实时离线埋点口径、数仓模型、计算口径不一致导致的效果降低,整个推荐系统数据质量 && 校验 难以保证等, 我将从以下几个方面介绍下我们在推荐系统智能数据方面是如何基于Flink解决这些问题的。

一、特征

1.特征背景、遇到的问题、解决方案

2.实时、离线特征整体架构(批流一体)

二、样本

1.超大规模实时样本拼接架构(多流拼接、超大窗口大状态优化、样本纠偏、样本采样、特征调研)

2.样本在离线一致性保证(包含样本实时、离线架构)

3.样本质量 && 校验(样本分布、样本拼接率、样本延时)

4.批流一体算子化支持,SourceOps 、ParseOps 等

三、索引 && 召回体系

1.索引 && 召回背景、分类(原始数据、正排数据、倒排数据)(基础倒排、个性化倒排、热门倒排、兜底倒排、i2i 召回等)

2.索引批流一体构建架构(离线索引、增量索引、实时索引)

3.索引监控 && 报警体系、双流建设等


  • 基于pyflink的算法工作流设计和改造

程兴源|硕橙科技大数据工程师,Spring Cloud Alibaba Committer,Flink Contributor

一、业务介绍以及背景 

1.1 业务简介 

1.2 目前接入的设备数据量以及数据规模 

二、目前机器学习工作流的实现以及改造 

2.1 时序检测算法的种类介绍 

2.2 一条机器学习工作流的编排 

2.3.公司框架演进和历史数据验证背景下存在的问题 

2.3.1 特征计算框架的演进 2.3.2 历史数据验证背景下存在的问题 

2.4.点位数据延迟-自定义补数连接器 

三、对现状的探索 

3.1 pyflink现有的序列化流程改造 

3.2 SQL重构特征计算工程 

四、对未来的展望以及规划 

4.1 基于flink + drools的告警系统 + flink cep dsl简化表达式引擎 

4.2 算法服务支持更多丰富的算法组合



FFA2024云原生专场由 Apache Flink 核心贡献者与来自阿里云、网易游戏、小红书、美团、哔哩哔哩等公司的一线技术专家带来,聚焦Flink与云原生技术的结合,探讨如何在云原生环境中高效部署和深度优化Flink流批任务。通过实战经验分享,帮助开发者利用容器化、K8s、Serverless等工具,在稳定、性能、成本之间取得平衡。

  • 如何建设流批混部的高可用Serverless Flink平台

潘志雄|阿里云高级技术专家

一. Serverless Flink的整体架构,主要介绍在Flink on K8s技术逐渐成熟的前提,如何基于云原生技术(K8s、Koordinator、VirtualCluster、Kata等)构建Serverless Flink平台,以及Serverless Flink平台应该包括哪些能力 

二. 跨可用区容灾与无感调度,主要介绍:Serverless Flink平台如何应对可用区故障的场景,提供三个九乃至更好的可靠性,保证高优业务的连续性 

三. Serverless Flink在流批混部面临的挑战,包括:启动加速、调度性能、优先级抢占、磁盘与网络隔离等 

四. 未来展望,从Serverless Flink平台到通用大数据底座Pyxis,沉淀通用能力支持更多大数据引擎Serverless化


  • 网易游戏 Flink 云原生实践

林小铂|网易游戏实时计算&数据湖平台负责人

陈宇智|网易游戏大数据开发工程师

一、背景 

介绍平台当前的作业和资源状况,使用 YARN 管理 Flink 作业资源遇到的瓶颈

二、架构演进 

引入 K8s 管理 Flink 作业资源解决 YARN 管理遇到的问题,分享平台不同阶段的资源管理架构演进

三、实践挑战 

1. 混合云部署 

分享 K8s 自建集群 + Virtual-Kubelet 双控制面集群 + 阿里云集群的混合云部署架构和实践

2. 在线/实时/离线混合部署 分享 Flink on K8s 作业与其它服务的混布场景: 

* 与 接入 K8s 管理的服务混部

* 与 未接入 K8s 管理的服务混部

3. 自动扩缩容&流批一体

4. Operator 服务优化 

四、总结与展望 


  • Serverless Flink:小红书在云上k8s的Flink集群部署演进之路

赵宝珠|数据引擎研发工程师

小红书在2019年就选择了k8s来部署运行Flink集群,但是在方案上选择了各个业务线独占物理机器的方式,经过5年以来的迭代,在降本增效的大背景下,该方案暴露了很多问题:1)每台机器上总有碎片资源无法使用 2)用户新增和退订资源步骤冗长,集群资源池运维成本过高 3)很多Flink作业的pod规格不大,很适合与公司各个业务线资源混合部署,填补机器上的缝隙剩余资源,提供资源池分配率。基于这些判断,我们于2024年与容器团队开始推动将Flink的部署方式向池化资源迁移,完成Serverless Flink的升级。为了保障迁移的稳定性,我们通过作业告警规则,以及原资源池的资源用量情况,筛选出初步符合要求的相关作业;并且为了保障池化资源宿主机的利用率,适配每天的驱逐请求,我们还开发了Flink作业的热迁移能力,能在秒级内将作业从待驱逐机器上迁移走,减少断流时间。容器团队为了保障Serverless Flink集群的稳定性,研发了包括:1)资源quota化交付能力,可以弹性高效交付资源 2)优化节点的驱逐资源策略,保障故障节点的驱逐优化 3)采用计算资源隔离以及IO单独挂盘等方案,保障了作业的稳定运行。目前我们已经从独占资源中,迁移了6万core到公司整体的池化资源上,在整个公司层面额外节省了x core的成本,并且在保障池化资源利用率的前提下,平稳运行了半年时间。未来我们也将会进一步推广Serverless Flink的覆盖度。


  • Flink on K8s 在美团的落地实践

冯斐|计算引擎研发工程师

袁怀旺|资源调度系统研发工程师

  1. 美团实时计算平台的现状和架构介绍 

  2. Flink上云探索和实践 (容器化改造、工具链适配、稳定性优化)

  3. K8s针对flink场景的支持和优化(集群规模、调度性能、集群稳定性提升)

  4. 未来展望(弹性伸缩、资源优化等)


  • Flink在B站的大规模云原生实践

丁国涛|哔哩哔哩资深开发工程师

在降本增效的背景下,云原生化几乎是一致的发展趋势。目前在B站大部分Flink作业运行在K8S上。在此过程中,Flink任务稳定性、运行效率、运维等方面的带来了一些列问题与挑战。本次分享将分为4个方面介绍Flink在B站的大规模云原生落地实践。

  1. 功能和稳定性优化。介绍适配云原生环境的容器化改造和云原生场景的稳定性优化。

  2. 效率优化。围绕落地过程中,启动性能、调度性能等方面的优化改造。

  3. 运维优化。介绍在云原生环境下,任务迁移,Troubleshooting等方面改造。

  4. 未来展望。未来将进一步在潮汐混部,负载均衡,多机房灾备等方向上探索。


主论坛直播预约



PC 端主会场直播观看

我们诚挚地邀请您观看 Flink Forward Asia 2024|上海站主论坛!这不仅是一次深入了解 Apache Flink 最新技术动态与应用场景的机会,更是一个让您亲手实践、探索无限可能的平台!在观看直播的同时,我们特别设置了互动环节——完成指定的Flink实验任务,就有机会赢取一系列精美好礼:Apache Flink 黑色款双肩包、Flink Forward 长袖卫衣、Flink 咖啡杯、阿里云定制帆布袋、花朵坐垫!

报名预约,你将在视频开始前收到短信通知:https://developer.aliyun.com/topic/flinkforward2024?utm_content=g_1000399316

移动端主会场直播观看

可关注「ApacheFlink」视频号或扫码下方二维码预约直播


▼ 「预约直播」扫码立即预约主论坛直播 ▼ 


Flink Forward Asia 2024 合作伙伴




     
 
活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
了解活动详情:https://free.aliyun.com/?pipCode=sc

▼ 关注「Apache Flink」,获取更多技术干货 

   点击「阅读原文」跳转 FFA 2024直播

Apache Flink
Apache Flink 中文社区唯一官微,由 Flink PMC 维护;
 最新文章