Spark 4.0｜自适应查询(AQE)优化革命！

科技 2024-11-12 15:50 湖南

Apache Spark 4.0 中的自适应查询执行（AQE）：查询优化的革命

随着大数据处理的不断进步，对更智能、更高效的查询优化的需求从未如此迫切。

自适应查询执行（AQE）是 Apache Spark 3.0 中引入的一项突破性功能，并在 Spark 4.0 中得到了进一步优化。

AQE 允许 Spark 通过实时优化查询性能，适应大数据的动态和不可预测性。

这篇博客深入探讨了 AQE 是什么、其关键特性、它带来的好处、它在实际场景中的卓越表现，以及 Spark 4.0 带来的具体增强。

什么是自适应查询执行（AQE）？

在 Apache Spark 中，自适应查询执行（AQE）是一个动态框架，它根据实际处理的数据在运行时优化查询执行计划。

与传统的静态查询优化器不同，AQE 在查询进行过程中持续调整执行计划，响应实时数据特征。

这种方法在大数据环境中特别有利，尤其是在数据分布不可预测的情况下，确保高效的查询执行，显著提高性能和资源利用率。

AQE 的关键特性

1. 动态连接重排序：

• 特性：AQE 在运行时根据实际数据集的大小重新排序连接操作。如果一个数据集比预期小，AQE 可能会选择广播连接，而不是更耗资源的洗牌连接。
• 设置：spark.sql.adaptive.enabled=true
• 影响：减少不必要的洗牌，从而缩短执行时间并降低资源消耗。

1. 动态分区剪枝：

• 特性：允许 Spark 在运行时根据应用的过滤条件跳过无关分区，从而减少 I/O 操作并加速查询执行。
• 设置：spark.sql.optimizer.dynamicPartitionPruning.enabled=true
• 影响：通过避免不必要的数据扫描，高效处理大型数据集，提高性能。

1. 自动处理数据倾斜：

• 特性：AQE 自动检测并处理数据倾斜，通过将大型倾斜分区拆分为更小的分区，确保工作负载平衡。
• 设置：spark.sql.adaptive.skewJoin.enabled=true
• 影响：通过防止某些节点因数据分布不均而成为瓶颈，提高性能。

1. 动态优化洗牌分区：

• 特性：AQE 根据实际数据的大小动态调整洗牌分区的数量，优化并行性和开销之间的平衡。
• 设置：spark.sql.adaptive.coalescePartitions.enabled=true
• 影响：增强资源管理，减少内存使用和执行时间。

AQE 的好处

1. 提升查询性能：AQE 通过根据实时数据特征动态优化执行计划，提升了查询性能。这对于涉及大型数据集或不可预测数据分布的复杂查询尤其有利。

• 基准测试数据：

Spark 2.x：在没有 AQE 的情况下，查询性能常常受到静态执行计划的限制，导致效率低下，特别是在处理大型或倾斜数据集时。

Spark 3.x：AQE 的引入带来了显著改进，基准测试显示，对于复杂工作负载，查询执行速度比 Spark 2.x 快了高达 50%(ar5iv[1])。

Spark 4.0：AQE 的进一步优化带来了更大的性能提升，某些查询的运行速度比 Spark 3.x 快了高达 30%，比 Spark 2.x 快了高达 3 倍(Databricks[2],ar5iv[3])。

1. 资源效率：AQE 能够动态调整连接策略、分区大小和洗牌操作，确保更高效地使用资源，从而降低内存使用、减少 CPU 开销并加快查询执行。

• 基准测试数据：

Spark 2.x：由于静态规划，资源效率低下是常见问题，导致更高的内存消耗和 CPU 使用。

Spark 3.x：有了 AQE，资源利用率显著提高。基准测试表明，内存管理更好，CPU 开销减少，某些工作负载的内存使用比 Spark 2.x 少了高达 40%(ar5iv[4])。

Spark 4.0：资源管理的进一步优化使得 Spark 4.0 能够以更低的资源消耗处理更大的工作负载，显示出比 Spark 3.x 高达 25% 的吞吐量和效率提升(Databricks[5])。

1. 减少手动调优需求：传统的查询执行通常需要手动调优以实现最佳性能。AQE 自动化了许多这一过程，减少了手动干预的需求，使得开箱即用即可获得良好性能。

• 基准测试数据：

Spark 2.x：手动调优对于性能优化至关重要，尤其是在处理复杂查询和大型数据集时。

Spark 3.x：AQE 减少了手动调优的需求，因为它可以在执行过程中动态调整以适应数据特征。这导致了更一致的性能，减少了用户干预(ar5iv[6])。

Spark 4.0：AQE 的进一步改进进一步减少了手动调整的需求，提供了在更广泛场景下更可预测和稳定的查询性能，基准测试显示自动实现最佳性能的难度大大降低(Databricks[7],ar5iv[8]）

现实场景中 AQE 大放异彩

场景 1：处理倾斜数据

• 问题：在一个大型零售数据集中，销售数据按门店分区。一些门店（例如，大城市的旗舰店）的销售数据显著多于其他门店，导致数据倾斜。这种倾斜使得某些分区比其他分区大得多，从而减慢了连接操作并增加了执行时间。
• 解决方案：有了 AQE，Spark 可以自动检测到倾斜的分区并将它们拆分成更小的子分区。这种平衡的分布使得连接操作能够更高效地执行，减少了整体查询时间并提升了性能。

场景 2：优化多连接查询

• 问题：一个复杂的查询涉及多个大表之间的连接，初始执行计划基于过时的统计信息，无法反映当前的数据分布。
• 解决方案：AQE 在运行时动态重新排序连接，选择针对实际观察到的数据大小最有效的连接策略。这减少了计算开销并加快了查询执行速度。

场景 3：通过动态分区裁剪减少 I/O

• 问题：一个查询需要过滤和汇总上一季度的销售数据，但数据集包含了之前多年的许多其他分区，这些分区与查询无关。
• 解决方案：AQE 的动态分区裁剪跳过读取无关的分区，大幅减少了处理的数据量，并提升了查询的执行速度。

Spark 4.0 相较于 Spark 3.x 的增强

虽然 AQE 在 Spark 3.x 中是一项重大创新，但 Spark 4.0 通过几项关键增强将其提升到了新的高度：

1. 增强的倾斜处理

• Spark 3.x：Spark 3.x 中的 AQE 通过在运行时根据观察到的数据模式动态切换连接策略，引入了基本的倾斜处理支持。
• Spark 4.0：在 Spark 4.0 中，倾斜处理得到了进一步改进，采用了更智能的检测和缓解策略。Spark 4.0 现在可以更好地处理高度倾斜的数据集，通过在连接操作中将倾斜分区拆分成更小的子分区。这导致了更平衡的工作负载，并减少了涉及倾斜数据的查询的整体执行时间。

2. 动态分区裁剪

• Spark 3.x：Spark 3.x 引入了动态分区裁剪，允许 Spark 在查询执行过程中根据运行时过滤条件避免读取不必要的分区。
• Spark 4.0：Spark 4.0 中的实现与 AQE 更紧密地集成，并支持更复杂的查询和连接。这意味着更多类型的查询可以从动态分区裁剪中受益，进一步减少 I/O 操作并提升性能。

3. 增强的连接重排序

• Spark 3.x：Spark 3.x 允许 AQE 在运行时动态重新排序连接，根据中间结果的大小选择最有效的连接顺序。
• Spark 4.0：连接重排序算法在 Spark 4.0 中得到了改进，使其更智能且更能处理多路连接。新版本可以更好地估计成本并在复杂场景中选择最优连接顺序，减少了大型多连接查询的计算开销。

4. 细粒度优化

• Spark 3.x：Spark 3.x 中的 AQE 提供了相对粗粒度的优化，调整查询计划的整个阶段。
• Spark 4.0：Spark 4.0 引入了更细粒度的优化，允许 AQE 在更详细的级别上进行调整。例如，Spark 4.0 可以动态且更精确地调整洗牌分区的大小，导致更好的资源利用率和更快的查询执行。

5. 改进的执行计划稳定性

• Spark 3.x：Spark 3.x 中的执行计划有时可能不稳定，尤其是在处理复杂和动态数据集时，导致性能不可预测。
• Spark 4.0：执行计划的稳定性在 Spark 4.0 中得到了增强，使查询性能更加可预测和一致。这在生产环境中尤为重要，因为性能稳定性至关重要。

6. 与新功能的更好集成

• Spark 4.0：AQE 的改进与 Spark 4.0 中的其他新功能更好地集成，例如新的流状态存储和 Python UDF 优化。这种整体方法确保 AQE 在不同类型的工作负载中无缝工作，无论是批处理、流处理还是基于 Python 的工作负载。

结论

自适应查询执行（AQE）在大数据处理领域是一项变革性技术，提供了动态且智能的查询优化，能够适应现实世界数据的复杂性。随着 Spark 4.0 中引入的增强功能，AQE 比以往任何时候都更加强大和有效，使 Spark 能够轻松处理日益复杂的查询，提供更好的性能，并减少手动调优的需求。

无论您是在处理倾斜数据、复杂连接还是大规模数据处理任务，Spark 4.0 中的 AQE 都提供了所需的工具和优化，推动您的数据工作流达到新的效率和可扩展性水平。

引用链接

[1] ar5iv: https://ar5iv.org/pdf/1904.11812
[2] Databricks: https://www.databricks.com/dataaisummit/session/whats-next-upcoming-apache-spark-40
[3] ar5iv: https://ar5iv.org/pdf/1904.11812
[4] ar5iv: https://ar5iv.org/pdf/1904.11812
[5] Databricks: https://www.databricks.com/dataaisummit/session/whats-next-upcoming-apache-spark-40
[6] ar5iv: https://ar5iv.org/pdf/1904.11812
[7] Databricks: https://www.databricks.com/dataaisummit/session/whats-next-upcoming-apache-spark-40
[8] ar5iv: https://ar5iv.org/pdf/1904.11812
[9] Apache Spark 4.0 发布说明: https://spark.apache.org/news/spark-4.0.0-preview1.html
[10] 即将发布的 Apache Spark 4.0 有哪些新功能？- Data + AI 峰会 2024: https://www.databricks.com/dataaisummit/session/whats-next-upcoming-apache-spark-40
[11] 评估 Apache Spark 在大规模超级计算机上的基准测试研究: https://arxiv.org/abs/1904.11812

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

http://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247523410&idx=1&sn=e331431926ec58dd1462fc7dd2dcf76e

大数据技术与架构

王知无，大数据卷王，专注大数据技术分享。

最新文章

数据开发SQL写得好有没有用？

Spark 4.0｜自适应查询(AQE)优化革命！

【收藏版】抖音集团指标管理与消费体系建设实践

10万字、近20家企业BI智能分析决策合集

【排查问题/面试必备】Doris SQL执行流程全解析

强烈建议尽快搞个软考证！（重大利好）

Paimon x StarRocks 实时湖仓落地实战

Paimon的Changelog Producer到底有什么用？

Apache Paimon主键表的一些最佳实践

大数据湖仓一体架构未来思考

Apache Doris 3.0核心特性和生产实践解读

从Clickhouse到Doris，湖仓一体架构升级实践

<From官网>Paimon你必须要知道的核心概念

Apache Paimon 0.9版本的一些特性解读！

自助者天助之｜记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历！

【查询优化】Doris性能优化不要慌，再看看这里！

Doris性能优化不要慌，再看看这里！

抱歉，年前我劝各位真的别轻易离职......

Doris性能优化不要慌，看看这里！

面试界经典的「如果xx怎么办？」问题回答思路

技术类面试，面试官的决策标准

关于Flink内存分配核心知识点

Apache Paimon走在正确的道路上｜一些使用体验和未来判断

Doris Compaction生产环境最佳实践这个问题该怎么回答？

零售消费数据分析案例｜七秒易购供应链管理全流程解析（附下载）

Flink 1.20 版本发布，一些值得注意的特性！

简简单单一份大数据面经

Apache Doris 入门 10 问

关于Apache Paimon你需要知道的基本知识

数据开发方向选择问题一次性说完

互联网末法时代的一些思考

最近换工作的一些启示，清华学姐篇

Doris 2.0 ｜高并发点查询性能提升！

收藏版｜数据湖在快手的应用实践

除了写代码，有哪些技能可以让你突破瓶颈期？

有人给我提了一个「差不多就行」的需求？

好多朋友离开大数据开发这个行业了吗？

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

为了摸鱼，我用AI自动清洗数据

收藏级｜蚂蚁金服EB级大数据治理最佳实践

（待会删）yyds，大数据开发请低调使用！

从 0 到 1 构建一站式数据开发治理平台

裁员了，很严重，大家做好准备吧！

面试中的数据模型设计问题该怎么回答？

Apache Paimon毕业，湖仓架构的未来发展趋势！

第一批用AI工作的大数据开发，已经碾压同事了！

Apache Paimon毕业，湖仓架构的未来发展趋势！

B站数据治理平台建设

数据治理要不要在简历中体现？

金三银四还有没有？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉