CommunityOverCode Asia 2024 专题介绍之 Data Lake & Data Warehouse

科技 2024-07-10 17:02 浙江

本次 CommunityOverCode Asia 2024 的 Data Lake & Data Warehouse 专题，将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践，现在就一起来看看吧！

专题介绍

CommunityOverCode Asia 2024

数据湖和数据仓库是存储和管理数据的重要解决方案，它们在数据管理、数据分析和决策中发挥着关键作用。在 ASF，有不少是与数据湖和数据仓库有关的项目，例如：Apache Hive, Apache Hudi, Apache Iceberg, Apache Paimon, Apache Cassandra, Apache HBase 等。在这个主题中，你将得到数据湖和仓库的最新情况，公司在生产中使用它们的最佳做法，以及这些项目的路线图。

出品人

CommunityOverCode Asia 2024

代立冬

CommunityOverCode Asia 2024

白鲸开源联合创始人、Apache 软件基金会成员 & Apache 孵化器导师、Apache DolphinScheduler PMC Chair & Apache SeaTunnel PMC、Apache Local Community Beijing 成员，中国开源先锋，入选中国科协 “2023 开源创新榜” 优秀人物。持续多年的开源贡献者及不遗余力的在推广 Apache 开源文化，推广 Apache 成功之道，致力于让开源文化更好的在开发者群体传播。

史少锋

CommunityOverCode Asia 2024

Datastarto VP of engineering；Apache 软件基金会成员，Apache Incubator PMC，Apache Kylin PMC chair，Apache Gluten & Apache Horaedb mentor 等；专注于大数据分析和云计算技术。曾任 Kyligence 首席架构师，eBay 全球分析基础架构部大数据高级工程师，IBM 云计算部门软件架构师。

议程亮点

CommunityOverCode Asia 2024

7 月 26 日 14:00 - 17:15

演讲议题：在网易公司使用 Apache Gluten 和 Velox 引擎加速 Apache Kyuubi 的查询

分享时间：7 月 26 日 14:00 - 14:30

议题介绍：

本次会议将探讨在 SQL 查询性能方面，通过协同使用纯 SQL 网关 Kyuubi 和矢量化执行引擎 Gluten 来提升性能。Kyuubi 通过 Thrift JDBC/ODBC 接口或 RESTful API 简化了终端用户的大规模数据操作，降低了使用 Lakehouse 的障碍。其多租户架构确保了服务器端的资源隔离/共享和数据安全性。本次会议重点介绍了网易在 Kyuubi 上与 Gluten 和 Velox 作为后端引擎的实现，旨在解决性能瓶颈，并分享真实案例的结果。

演讲嘉宾：

尤夕多丨网易数帆技术专家

网易数帆 Spark 团队成员，专注在大数据领域工作，同时也是 Apache Kyuubi PMC Member / Apache Spark Committer / Apache Gluten PPMC Member。

演讲议题：Apache Paimon：用于流处理、批处理和联机分析处理的统一数据湖

分享时间：7 月 26 日 14:30 - 15:00

议题介绍：

Apache Paimon 是一种数据湖格式，可以通过 Flink 和 Spark 构建实时 Lakehouse 架构，同时支持流处理和批处理操作。它于去年进入孵化器，并于今年正式毕业成为 TLP。从 Flink 内置存储发展为通用的存储格式。本次会议介绍以下内容：

1、Paimon 从实时更新开始，解决了 CDC 数据进入数据湖的核心问题。

2、Paimon 解决了大量的可用性问题，可以使用 Spark 构建离线数据仓库。

3、Paimon 提供了删除向量、Z-order 和索引等技术，以提供高性能的 OLAP 查询。

演讲嘉宾：

李劲松丨PMC Chair of Apache Paimon, PMC Member of Apache Flink

Apache Flink 和 Apache Beam 的贡献者，阿里巴巴高级工程师。自 2014 年以来，他一直专注于阿里巴巴内部流式计算的研究和开发工作。自 2017 年以来，他专注于阿里巴巴 Blink 的开发，并积极为 Apache Flink 社区做出贡献。最近，他主要关注在数据仓库架构中使用 Apache Flink 实现流处理和批处理的统一。

演讲议题：使用 Apache Amoro 高效管理和优化 Apache Iceberg

分享时间：7 月 26 日 15:00 - 15:30

议题介绍：

Apache Iceberg 作为一种开放的数据湖表格式，提供了一个高度开放和高效的统一存储解决方案。在生产环境中，管理和优化 Iceberg 的文件和元数据是实现更好性能和减少开销的关键。作为一个数据湖管理系统，Amoro 可以压缩 Iceberg 的小文件，并实时删除文件，提升实际查询性能。此外，它还协助 Iceberg 自动执行维护过程，如过期快照的清理、清理孤立数据和删除过期数据，极大减少了手动维护工作的工作量。

演讲嘉宾：

白旭丨Cisco Webex, Software Engineer

来自思科 Webex 数据平台团队，从事数据湖的相关开发、优化和管理工作。同时也是 Apache Amoro Committer 和 PPMC 成员。

演讲议题：Impala 发现 Iceberg 元数据表

分享时间：7 月 26 日 15:45 - 16:15

议题介绍：

存储大量元数据是 Apache Iceberg 表格式的主要功能之一，可帮助查询引擎高效地规划和执行查询。由于 Iceberg 提供了查询这些元数据的应用程序接口（API），因此可在查询引擎中将其显示为一组虚拟表，并可使用 SQL 进行查询，包括过滤、聚合以及与其他元数据或常规表的连接。这一功能为数据库管理员提供了宝贵的表维护工具。

在过去一年中，我们一直致力于在 Apache Impala（一个高性能、分布式、大规模并行查询引擎）中提供 Iceberg 元数据表。Impala 中的查询执行是用 C++ 实现的，这带来了一些挑战，因为 Iceberg API 是基于 Java 的。

此外，Iceberg 返回数据的格式（作为 Java 对象，通过 JNI 访问）也与 Impala 通常从磁盘文件接收输入数据的格式不同，即使是相同的 SQL 数据类型也是如此。这种差异在复杂类型（结构体、数组和映射）的情况下尤为明显，因此有必要采取额外的步骤来整合它们。

本讲座将引导您了解与 Iceberg 元数据表相关的所有 Impala 新特性，并介绍我们是如何克服实施过程中出现的障碍的。

演讲嘉宾：

Daniel Becker丨Software Engineer, Cloudera

Daniel Becker 于 2019 年在 Cloudera 开始研究 Apache Impala。他对 Impala 的贡献涉及多个主题，包括 LLVM 代码生成、复杂类型、Parquet 和 Iceberg。他是 Apache Impala PMC 成员，拥有 Pázmány Péter Catholic University 学位。

演讲议题：字节跳动 SparkSQL 降本增效实践

分享时间：7 月 26 日 16:15 - 16:45

议题介绍：

通过对线上任务的分析，我们发现三大导致 Spark 应用程序性能下降的因素：Shuffle 大量数据、扫描众多小文件以及低效的推测执行。

在本次分享中，我们将介绍字节跳动解决前述问题、降低计算成本的最佳实践。

首先，本次分享将介绍我们为了消除 Shuffle 对现有 Bucket 优化所做的增强、以及优化场景挖掘的方法；此外，还将介绍用 ZSTD 替代 LZ4 减少 Shuffle 数据的方法及效果。其次，本次分享将介绍一种基于 Shuffle 的小文件合并功能，它以较低的成本避免产出小文件，并且能够支持写动态分区的场景。最后，本次分享将介绍我们提高 Spark 推测执行效率的方法，以及最终效果 —— 无效推测执行任务的数量减少 15%、计算资源消耗减少 9%。

演讲嘉宾：

甘红楠丨 ByteDance Senior R&D Engineer, 字节跳动高级研发工程师

复旦大学学士学位和硕士工程学位
字节跳动的 SparkSQL 内核开发人员
对 SQL 优化感兴趣

演讲议题：在快手公司基于 Apache Hudi 构建 Lakehouse 的实践

分享时间：7 月 26 日 16:45 - 17:15

议题介绍：

Apache Hudi 通过强大的增量处理框架，重新构思了传统的缓慢老式批处理数据处理方式，实现了低延迟分钟级分析。

在本次分享中，我们首先介绍传统数据仓库所面临的问题。然后，我们将描述如何基于 Apache Hudi 来解决这些问题。最后，我们将通过几个快手的用户案例，介绍在使用 Apache Hudi 替代传统的数据处理流程后所带来的好处。

演讲嘉宾：

Jing Zhang丨Kuaishou Inc, Technical expert

快手的软件工程师。她是 Apache Flink、Apache Calcite 和 Apache Hudi 的提交者。她目前从事流处理和 Lakehouse 方面的工作。

7 月 27 日 14:00 - 17:15

演讲议题：基于 Apache Paimon 的中国联通流式 Lakehouse 的应用实践

分享时间：7 月 27 日 14:00 - 14:30

议题介绍：

本专题计划介绍中国联通基于 Apache Paimon 构建流式数据仓库的实践经验，主要包括中国联通的两个核心业务项目：实时用户标签和自然人。内容包括业务背景、流批量集成数据仓库架构、实践中遇到的问题及相应的解决方案、使用 Apache Paimon 解决问题所取得的收益以及未来的计划。

演讲嘉宾：

王云朋丨Apache Paimon Contributor; currently a big data technology expert in the Data Intelligence Division of China Unicom Digital Technology Co., Ltd., responsible for trillion-level Flink real-time comput

Apache Paimon 贡献者；现任中国联通数字科技有限公司数据智能事业部大数据技术专家，负责万亿级 Flink 实时计算开发、运维及平台建设，并负责流式 Lakehouse 的实施。

Zhenhao Li丨Expert software development engineer at Data Intelligence Division of China Unicom Digital Technology Co., Ltd., Responsible for trillion-level real-time computing platform development.

中国联通数字技术有限公司数据智能部门的专业软件开发工程师，负责万亿级实时计算平台的开发工作。专注于流式 Lakehouse 的构建和基础架构编排。

演讲议题：Gravitino Apache Iceberg REST 目录服务：动机与更多可能性

分享时间：7 月 27 日 14:30 - 15:00

议题介绍：

本次会议将介绍 Apache Iceberg 社区引入 Apache Iceberg REST 目录的原因以及 REST 目录的最新进展。还将讨论 Apache Gravitino(incubating) 为何集成 Apache Iceberg REST 目录服务以及其未来发展。

演讲嘉宾：

房孝敬丨datastrato, software engineer

在大数据领域有十年的经验，在阿里巴巴、腾讯和快手工作过，主要涉及分布式计算和调度系统。

演讲议题：满怀信心地航行于 Lakehouse：使用 Apache Iceberg 实施的最佳实践

分享时间：7 月 27 日 15:00 - 15:30

议题介绍：

数据湖和数据仓库融合成一个统一的架构，即所谓的 Lakehouse 范式，在数据工程界已获得极大的关注。Apache Iceberg 已成为实施 Lakehouse 架构的基石技术，为高效管理大规模事务数据湖提供了强大的功能。

在本次会议中，我们将探讨使用 Apache Iceberg 实施 Lakehouse 架构的最佳实践。通过真实案例和实用见解，与会者将学习如何设计、部署和优化一个利用 Iceberg 的 Lakehouse 解决方案，以实现数据管理、可靠性和性能的优势。

演讲嘉宾：

Bill Zhang丨Cloudera, Product Manager, Data Warehouse, Iceberg Integration

Bill 是 Cloudera 产品管理高级总监，负责开放数据 Lakehouse 产品战略和 Apache Iceberg 与所有 Cloudera 数据平台（CDP）形式因素的集成。Bill 还负责 Apache Hive 产品路线图的制定和采用。最近，Bill 负责 SAP HANA 数据平台和 SAP HANA Cloud 的解决方案管理。在此之前，他负责 Sybase Replication Server 的产品管理。

演讲议题：数据湖在小米的 Data 和 AI 场景的实践

分享时间：7 月 27 日 15:45 - 16:15

议题介绍：

这次分享主要介绍了小米在数据和人工智能场景下的数据湖实践。在 BI 场景中，我们将介绍使用 Apache Iceberg 的业务实践和智能优化策略。在 AI 场景中，我们将介绍非结构化数据的管理。此外，我们还将介绍使用 Gravitino 在数据和人工智能场景下实现元数据统一化的解决方案。

1. 小米中的 Apache Iceberg 实践

Apache Iceberg 在小米内部管理着数以万计的表格和近 50PB 的数据。我们将介绍小米使用 Apache Iceberg 的内部业务场景，包括离线和实时场景，以及 Apache Iceberg 如何帮助用户降低成本并提高效率。

2. 非结构化数据管理实践

我们将介绍如何使用 Gravitino Fileset 来管理非结构化数据。如何标准化对非结构化数据的路径访问，如何管理数据生命周期，如何与 Spark 引擎集成，以及如何与 TensorFlow 或 PyTorch 等机器学习引擎集成。

3. 基于 Gravitino 的元数据湖统一实践

我们将介绍如何使用 Gravitino 来管理 Apache Iceberg 的元数据。如何使用 Gravitino 为数据湖统一元数据，以及统一元数据给我们带来的优势。

演讲嘉宾：

李培殿丨Xiaomi Software R&D Engineer

小米软件研发工程师，负责 Apache Iceberg、Apache Paimon 和 Gravitino 的开发。

演讲议题：Apache Paimon 数据湖架构设计分析

分享时间：7 月 27 日 16:15 - 16:45

议题介绍：

1、为什么我们需要一个 lake format？

2、Hive 为什么解决不了？

3、事情的核心复杂度来源是哪里？

4、做 trade off 来解复杂度

5、Paimon 知识体系解析

演讲嘉宾：

陈卓宇丨Apache Streampark PPMC Member, Apache Paimon Contributor

热衷于开源。

演讲议题：使用 openEuler 的 Bigtop 和 Bigtop-Manager：大数据分发的新时代

分享时间：7 月 27 日 16:45 - 17:15

议题介绍：

目前，还没有可用的免费大数据组件管理平台来简化数据管理和分析。这是因为 Cloudera Data Platform（CDP）已不再免费。

随着人们对类似平台的兴趣与日俱增，Apache Bigtop 及其孵化项目 Bigtop-Manager 开始成为 CDP 的免费开源替代方案。这些替代方案旨在提供更简单、更快捷的数据管理和分析方法。

此外，openEuler 已拥有 300 多个组织成员，并在企业中，尤其是在中国，进行了大量部署。越来越多的中国用户对 Bigtop 和 openEuler 产生了兴趣。

在本演讲中，我们将概述即将发布的 Bigtop 3.3 版本及其对 openEuler 的支持情况。我们还将发布新的工具包 Bigtop-Manager。通过简单的演示，展示大数据组件的部署和管理解决方案。

演讲嘉宾：

顾煜祺丨Work@Arm

在 Arm 中国工作。与开源软件部、架构技术部以及 Arm 各业务部门密切合作。工作内容包括为 Arm 服务器启用和优化开源软件栈。

Apache Bigtop PMC 成员，Apache Bigtop 前主席（2021~2023 年）。Apache Ambari PMC 成员，Committer。

吴治国丨Apache Ambari PMC Member, Apache Bigtop Committer

开源爱好者，目前致力于 Bigtop Manager 的开发。

扫码购票

CommunityOverCode Asia 2024

🌟 点击下方二维码或文末【阅读原文】进行扫码购票！数量有限，快来参与吧～

作为 Apache 软件基金会（ASF）的官方全球系列大会，每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。7 月 26 日至 28 日，即将强势来袭的 CommunityOverCode Asia 2024 上，大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。

http://mp.weixin.qq.com/s?__biz=MjM5NTEwMTAwNg==&mid=2650328646&idx=2&sn=cbbdcddedf30128686f80252faa876bd

SegmentFault思否

SegmentFault 思否 ( sifou.net ) 是中国优秀的开发者社区。我们希望为中文开发者提供一个纯粹、高质的技术交流平台，做科技企业与开发者沟通的桥梁，帮助更多的开发者获得成长与成功。

最新文章

思否有约｜@汝何不上九霄：持续输出，巩固知识经验

寻找榜样的力量！2024 中国开源先锋 33 人评选启动

当前端遇上 AI，代码可以“自我进化”

2024 中国技术先锋年度评选正式启动！6 大奖项即将揭晓

Linus 到底违反了什么？

SegmentFault 思否 Top Writer 榜单｜2024 年第三季度

节日快乐！1024 码力全开

2024 OSCAR 开源产业大会在京召开

中国信通院发布 2024 可信开源系列评估结果

2024 OSCAR 开源产业大会参会指南出炉，与你同走长行之路

vivo 开发者关系实践：更开放，更繁荣

举国欢腾，共度国庆！

2024 OSCAR 开源产业大会完整议程揭晓

拥抱AI时代的工程师文化和技术领导力！CCF CED 2024完整日程和参会指南

ONES 与华为云深度合作，共同打造企业智能研发管理平台

【直播预约中】智能制造企业研发流程管理中的知识共享实践

喜月想伴，中秋安康！

一起“摊”玩！OSCAR 开源市集招募开启

专访王峰：Apache Paimon，在业务中生长

思否有约｜@xindoo：提升技能水平最好的方式

【直播预约中】从《DevData 2024 研发效能基准报告》谈研发效能的实践趋势

持续激发创新潜力，智在畅想黑客马拉松顺利收官

一图读懂 | ONES V6 大版本，助力企业更快更好发布产品

【直播预约中】智能制造 IPD 生产及研发最佳实践分享

可信开源，产业共进——2024 OSCAR开源产业大会正式启动

SegmentFault 思否 Top Writer 榜单｜2024 年第二季度

倒计时 2 天！CommunityOverCode Asia 2024 即将启幕

【直播预约中】从落地实践到拿到结果，详解“平台工程”如何助力企业提效

1079 支队伍齐聚、聚焦三大社会议题，第四届Light技术公益创造营圆满收官

Apache Answer 邀你共赴 CommunityOverCode Asia 2024

AI-Native时代，玩家请上桌

CommunityOverCode Asia 2024 主题演讲豪华阵容 & 精彩议程发布！

从想象到现实，“Innovate for Future 智在畅想”黑客马拉松招募开启

无人车团队跨维进军好莱坞！推出电影级视觉AI特效，“新时代皮克斯”

CommunityOverCode Asia 2024 专题介绍之 Data Lake & Data Warehouse

CommunityOverCode Asia 2024 专题介绍之 DataOps

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

CommunityOverCode Asia 2024 专题介绍之 IoT

CommunityOverCode Asia 2024 专题介绍之 AI

C/C Asia 2024 大会分论坛议程发布！Committer 优惠及学生/无业人员免费门票上线

CommunityOverCode Asia 2024 专题介绍之 AI

“千帆杯”教育生态行业赛圆满收官，用 AI 共筑下一代的千万种未来

黄仁勋：我们不想当行业领导者

AI恐怖体操视频腿脚乱飞、大变活人，LeCun：视频生成模型根本不懂物理

重磅！OpenAI在macOS上推出桌面版ChatGPT！

迄今最快的网络流算法，网友：几乎与数学理论一样快

Sora首部商业片亮相戛纳！300万网友围观

一张顶20张H100！首款大模型专用ASIC挑战英伟达，哈佛辍学华人参与创办

【直播预约中】详解 AI 大模型在软件研发落地中的实效与迷思

Ilya官宣：我成立新公司了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉