本次 CommunityOverCode Asia 2024 的 DataOps 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!
专题介绍
CommunityOverCode Asia 2024
在 ApacheCon 的 DataOps 专题,该专题集中展示了 Apache 生态系统中一些最具创新性和尖端的项目。该专题汇聚了来自 Apache DolphinScheduler、Apache Airflow、Apache SeaTunnel、Apache Flume、Apache Sqoop、Apache Griffin、Apache Atlas 以及其他与 DataOps 相关的项目的领先专家和贡献者,探索数据操作、自动化和编排的最新进展。无论您是经验丰富的数据专业人员还是刚刚入门的新手,这个专题都为每个人提供了有价值的内容,包括数据管道、ETL、编排、数据质量、元数据等多个主题的会话。在 ApacheCon 上,加入我们一起深入探索 DataOps 领域的精彩世界。
出品人
CommunityOverCode Asia 2024
郭炜
CommunityOverCode Asia 2024
白鲸开源 CEO, Apache 软件基金会成员。郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,TGO 鲲鹏会北京分会会长,Apache SeaTunnel PMC,Apache DolphinScheduler PMC,波兰 DataOps 峰会、北美 ApacheCon 演讲嘉宾,北美 Big Data Day 演讲嘉宾,虎啸十年杰出数字技术人物,中国开源社区最佳 33 人,中国 2021 年开源杰出人物。
聂励峰
CommunityOverCode Asia 2024
白鲸开源 COO,Apache SeaTunnel PMC & Apache DolphinScheduler Committer,2023 中国开源先锋 33 人之心尖上的开源人物,ClickHouse 中国社区志愿者组长。
议程亮点
CommunityOverCode Asia 2024
7 月 26 日 14:00 - 16:45
在过去的两年里,Cisco Webex 团队基于 Apache DolphinScheduler 持续优化我们的大数据处理平台。本次分享将介绍这些自适应的改进和创新,同时也会分享一些业务挑战和解决方案。
Qingwang Li丨Cisco Webex, Software Engineer
思科 Webex,软件工程师,Apache DolphinScheduler Committer
Apache SeaTunnel 是如何基于 Flink 构建一个高效的数据集成工具的?
Chao Tian丨Apache SeaTunnel PMC Member
开源爱好者,曾为一些数据集成项目如 DataX、Flink CDC、Debezium、Chunjun 等做出贡献,是 Apache SeaTunnel 的项目管理委员会(PMC)成员。
这篇演讲介绍了小米在数据集成实践中构建的可视化全链路数据监测系统。
本次分享的重点是小米数据集成全链路数据监测技术的实现。从数据集成链路系统出发,针对数据集成实践中遇到的可靠性挑战,从可视化全链路数据监测建设方案的角度,分享并解释了提案和实施等方面。以数据集成可靠性和全链路监测两个主题为重点,演讲解释了构建可观察的数据集成全链路监测系统对提高数据集成可靠性和用户体验的益处。
第一部分:小米数据集成的发展
在小米的日常运营中,数据集成扮演着至关重要的角色。它是连接各个业务模块的桥梁,实现数据的共享和流通。通过数据集成,我们可以高效地整合来自不同来源和格式的数据,为后续的数据分析和业务决策提供强有力的支持。本章将介绍小米数据集成的发展历史、支持的数据链路、业务范围以及作业量级。
第二部分:数据集成面临的可靠性挑战
对于普通用户来说,数据集成往往是一个黑盒过程。他们不了解数据如何从一个系统转移到另一个系统,或者在转移过程中可能遇到的问题。这种不透明性增加了用户对数据可靠性的担忧。本章将介绍用户对数据集成可靠性的疑虑以及小米在数据集成过程中遇到的数据一致性挑战。
第三部分:全链路数据监控的构建与实践本章从同步链接的可靠性出发,介绍了全链路数据监控系统的构建,包括大规模数据统计、操作的实时流量监控、基于滚动窗口的全链路数据计数统计以及端到端数据比对。通过这些能力的建设努力,展示了小米在数据集成可靠性方面的工作成果。
第四部分:未来展望和改进方向在未来,将扩大实时监控链路的范围,提升流量控制能力以提高链路的稳定性,并支持离线场景下的数据验证。
在数据集成领域,构建可观测的监控链路系统、增强数据集成的稳定性、提高用户体验方面具有参考意义。
Jianqiang Sun丨Xiaomi
小米软件研发工程师,主要负责与数据集成相关的工作。
通过分享 SeaTunnel 项目技术架构的演进,我们将了解如何从零开始构建一个数据集成工具,需要考虑哪些核心要求,以及如何最好地实现这些要求。
同时,我们还将向大家介绍 SeaTunnel 在 AI 领域的应用。
Jun Gao丨ASF Member, Apache SeaTunnel PMC Chair, Apache DolphinScheduler PMC Member
ASF 成员,Apache SeaTunnel 项目管理委员会(PMC)主席,Apache DolphinScheduler 项目管理委员会(PMC)成员。
1、基于 Apache DolphinScheduler,整个数据处理链路被串联起来,从数据采集到数据应用的全流程运营管理。
2、匹配代码数据研发平台,将数据探索和数据研发转变为低成本、高效率的方向。
3、针对标准、商业智能(BI)和数据开发提供的智能实用解决方案。
Liu Wu丨Senior big data development engineer
在大数据领域有数年的系统管理与平台开发方面的经验,涉及的技术栈包含了大数据生态系统、实时计算和存储、数据仓库、数据湖,并积极参与相关社区代码贡献,如调度工具 DolphinScheduler、数据湖 Paimon、Dinky 等。
7 月 27 日 14:00 - 16:45
Apache Dolphinscheduler 是一个分布式且易于扩展的工作流调度平台,它可以帮助用户实现高效可靠的工作流调度和管理。阿里云 EMR Workflow 是一个基于 Apache Dolphinscheduler 构建的云原生无服务器大数据开发和调度平台。本次演讲将从易用性、可扩展性和稳定性等角度,分享基于 Apache Dolphinscheduler 的 EMR Workflow 的探索与实践。
Xin Cheng丨SDE with Alibaba Cloud, Apache Dolphinscheduler Committer
2019 年获得北京邮电大学的学士学位,并于 2022 年获得清华大学的硕士学位。目前是阿里云的软件开发工程师,同时也是 Apache Dolphinscheduler 的贡献者。
演讲议题:为什么我们需要构建一个统一的元数据层 —— Gravitino?
分享时间:7 月 27 日 14:30 - 15:00
如今,越来越多的数据以不同形式存储在不同的云和系统中,这给企业的数据治理、安全控制和数据合规性带来了挑战。AI 需求的激增也对数据治理提出了更多要求。统一的元数据管理平台 Gravitino(计划捐赠给 Apache 孵化器)可以帮助企业清晰地掌控其数据 + AI 资产,实现多云和多引擎支持、数据权限的统一管理、敏感数据识别、脱敏规则设置等;本主题将围绕以元数据为核心的数据合规性和数据治理,并结合具体案例进行讨论。
Shaofeng Shi丨Datastrato, VP of engineering;
史少锋,Apache 成员,Apache 孵化器项目管理委员会(PMC)成员,Apache Kylin 项目管理委员会(PMC)成员,Apache Gluten 和 Apache Horaedb 的导师等;Datastarto 工程副总裁,Gravitino 贡献者。
主题:讨论如何在 DolphinScheduler 中利用 AI 来增强工作流内部任务依赖性的管理,以确保更高效的数据工程和改进的数据质量。
主要内容:
1、Apache DolphinScheduler 简介
详细介绍 Apache DolphinScheduler 作为一个分布式易扩展的可视化工作流调度系统,旨在让数据同步、数据处理、AI 算法等各种任务类型能开箱即用。
2、AI增强的工作流编排智能
预测调度:通过利用 AI 预测任务执行时间,DolphinScheduler 可以更智能地调度任务,优化资源利用并最小化等待时间。
异常检测和自动修复:利用 AI 的力量监控工作流执行状态,DolphinScheduler 可以自动检测异常并触发修复过程,从而提高系统的稳定性和可靠性。
3、案例研究和实际应用
展示具体案例研究,说明企业如何在数据工程操作中有效使用 DolphinScheduler,以及通过这些实践取得的实际成果。
针对不同行业的使用案例。
4、未来展望
探索 Data + AI 的整合潜力和方向:
讨论 Data 与 AI 结合的未来前景,重点关注其进一步自动化和增强工作流智能的潜力,包括在数据驱动的过程管理中增加自动化和优化的可能性。
Lidong Dai丨WhaleOps Technology co-founder, Apache DolphinScheduler PMC Chair
Apache 孵化器导师,白鲸开源联合创始人,Apache DolphinScheduler 项目管理委员会(PMC)主席,Apache SeaTunnel PMC 成员, CommunityOverCode Asia 湖仓论坛出品人。
演讲议题:Apache DolphinScheduler API 重构的实践
依赖任务是 Apache DolphinScheduler 中的一个高级功能,为用户在管理复杂的跨 DAG 依赖关系时提供了出色的灵活性。然而,由于其复杂性和在不同版本中的变化,有时用户对其行为感到困惑。本演示将详细介绍依赖任务的含义、工作原理以及相关的每一个细节,帮助您全面了解该功能!
Chufeng Gao丨SDE@Alibaba Cloud, PMC Member@Apache DolphinScheduler
阿里云 EMR Serverless Spark 团队的软件工程师。他专注于大数据编排工具已经超过三年。同时也是一位开源爱好者,对多个开源项目做出了贡献,如 Apache DolphinScheduler 和 Apache Airflow。https://github.com/EricGao888
扫码购票
CommunityOverCode Asia 2024