Spark底层执行原理详细解析

科技 2024-11-03 08:03 北京

Spark简介

Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。

Spark源码从1.x的40w行发展到现在的超过100w行，有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。

Spark运行流程

具体运行流程如下：

SparkContext 向资源管理器注册并向资源管理器申请运行Executor
资源管理器分配Executor，然后资源管理器启动Executor
Executor 发送心跳至资源管理器
SparkContext 构建DAG有向无环图
将DAG分解成Stage（TaskSet）
把Stage发送给TaskScheduler
Executor 向 SparkContext 申请 Task
TaskScheduler 将 Task 发送给 Executor 运行
同时 SparkContext 将应用程序代码发放给 Executor
Task 在 Executor 上运行，运行完毕释放所有资源

1. 从代码角度看DAG图的构建

Val lines1 = sc.textFile(inputPath1).map(...).map(...)

Val lines2 = sc.textFile(inputPath2).map(...)

Val lines3 = sc.textFile(inputPath3)

Val dtinone1 = lines2.union(lines3)

Val dtinone = lines1.join(dtinone1)

dtinone.saveAsTextFile(...)

dtinone.filter(...).foreach(...)

上述代码的DAG图如下所示：

Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图，也就是如上图所示的DAG。

Spark 的计算发生在RDD的Action操作，而对Action之前的所有Transformation，Spark只是记录下RDD生成的轨迹，而不会触发真正的计算。

2. 将DAG划分为Stage核心算法

一个Application可以有多个job多个Stage：

Spark Application中可以因为不同的Action触发众多的job，一个Application中可以有很多的job，每个job是由一个或者多个Stage构成的，后面的Stage依赖于前面的Stage，也就是说只有前面依赖的Stage计算完毕后，后面的Stage才会运行。

划分依据：

Stage划分的依据就是宽依赖，像reduceByKey，groupByKey等算子，会导致宽依赖的产生。

回顾下宽窄依赖的划分原则：
窄依赖：父RDD的一个分区只会被子RDD的一个分区依赖。即一对一或者多对一的关系，可理解为独生子女。常见的窄依赖有：map、filter、union、mapPartitions、mapValues、join（父RDD是hash-partitioned）等。
宽依赖：父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)。即一对多的关系，可理解为超生。常见的宽依赖有groupByKey、partitionBy、reduceByKey、join（父RDD不是hash-partitioned）等。

核心算法：回溯算法

从后往前回溯/反向解析，遇到窄依赖加入本Stage，遇见宽依赖进行Stage切分。

Spark内核会从触发Action操作的那个RDD开始从后往前推，首先会为最后一个RDD创建一个Stage，然后继续倒推，如果发现对某个RDD是宽依赖，那么就会将宽依赖的那个RDD创建一个新的Stage，那个RDD就是新的Stage的最后一个RDD。
然后依次类推，继续倒推，根据窄依赖或者宽依赖进行Stage的划分，直到所有的RDD全部遍历完成为止。

3. 将DAG划分为Stage剖析

一个Spark程序可以有多个DAG(有几个Action，就有几个DAG，上图最后只有一个Action（图中未表现）,那么就是一个DAG)。

一个DAG可以有多个Stage(根据宽依赖/shuffle进行划分)。

同一个Stage可以有多个Task并行执行(task数=分区数，如上图，Stage1 中有三个分区P1、P2、P3，对应的也有三个 Task)。

可以看到这个DAG中只reduceByKey操作是一个宽依赖，Spark内核会以此为边界将其前后划分成不同的Stage。

同时我们可以注意到，在图中Stage1中，从textFile到flatMap到map都是窄依赖，这几步操作可以形成一个流水线操作，通过flatMap操作生成的partition可以不用等待整个RDD计算结束，而是继续进行map操作，这样大大提高了计算的效率。

4. 提交Stages

调度阶段的提交，最终会被转换成一个任务集的提交，DAGScheduler通过TaskScheduler接口提交任务集，这个任务集最终会触发TaskScheduler构建一个TaskSetManager的实例来管理这个任务集的生命周期，对于DAGScheduler来说，提交调度阶段的工作到此就完成了。

而TaskScheduler的具体实现则会在得到计算资源的时候，进一步通过TaskSetManager调度具体的任务到对应的Executor节点上进行运算。

5. 监控Job、Task、Executor

DAGScheduler监控Job与Task：

要保证相互依赖的作业调度阶段能够得到顺利的调度执行，DAGScheduler需要监控当前作业调度阶段乃至任务的完成情况。

这通过对外暴露一系列的回调函数来实现的，对于TaskScheduler来说，这些回调函数主要包括任务的开始结束失败、任务集的失败，DAGScheduler根据这些任务的生命周期信息进一步维护作业和调度阶段的状态信息。

DAGScheduler监控Executor的生命状态：

TaskScheduler通过回调函数通知DAGScheduler具体的Executor的生命状态，如果某一个Executor崩溃了，则对应的调度阶段任务集的ShuffleMapTask的输出结果也将标志为不可用，这将导致对应任务集状态的变更，进而重新执行相关计算任务，以获取丢失的相关数据。

6. 获取任务执行结果

结果DAGScheduler：
一个具体的任务在Executor中执行完毕后，其结果需要以某种形式返回给DAGScheduler，根据任务类型的不同，任务结果的返回方式也不同。
两种结果，中间结果与最终结果：
对于FinalStage所对应的任务，返回给DAGScheduler的是运算结果本身。
而对于中间调度阶段对应的任务ShuffleMapTask，返回给DAGScheduler的是一个MapStatus里的相关存储信息，而非结果本身，这些存储位置信息将作为下一个调度阶段的任务获取输入数据的依据。
两种类型，DirectTaskResult与IndirectTaskResult：
根据任务结果大小的不同，ResultTask返回的结果又分为两类：
如果结果足够小，则直接放在DirectTaskResult对象内中。
如果超过特定尺寸则在Executor端会将DirectTaskResult先序列化，再把序列化的结果作为一个数据块存放在BlockManager中，然后将BlockManager返回的BlockID放在IndirectTaskResult对象中返回给TaskScheduler，TaskScheduler进而调用TaskResultGetter将IndirectTaskResult中的BlockID取出并通过BlockManager最终取得对应的DirectTaskResult。

7. 任务调度总体诠释

一张图说明任务总体调度：

Spark运行架构特点

1. Executor进程专属

每个Application获取专属的Executor进程，该进程在Application期间一直驻留，并以多线程方式运行Tasks。

Spark Application不能跨应用程序共享数据，除非将数据写入到外部存储系统。如图所示：

2. 支持多种资源管理器

Spark与资源管理器无关，只要能够获取Executor进程，并能保持相互通信就可以了。

Spark支持资源管理器包含：Standalone、On Mesos、On YARN、Or On EC2。如图所示:

3. Job提交就近原则

提交SparkContext的Client应该靠近Worker节点(运行Executor的节点)，最好是在同一个Rack(机架)里，因为Spark Application运行过程中SparkContext和Executor之间有大量的信息交换;

如果想在远程集群中运行，最好使用RPC将SparkContext提交给集群，不要远离Worker运行SparkContext。

如图所示:

4. 移动程序而非移动数据的原则执行

移动程序而非移动数据的原则执行，Task采用了数据本地性和推测执行的优化机制。

关键方法：taskIdToLocations、getPreferedLocations。

如图所示:

--END--

当下企业内部的数字分析发展如火如荼，企业级BI的重要性不断凸显，不仅要能够在业务需求角度以数据分析助力智能决策，还能够在组织升级和解决方案的多层次，满足规模型企业的复杂需求。

如果大家对企业级BI感兴趣，那么《企业级BI平台白皮书》是一份不容错过的资源。这本书是业内首部聚焦规模型企业数字化转型，探寻BI平台企业级能力建设方法论的白皮书，提供了实用的BI平台能力建设方法论，以及世界500强股份制银行、万店饮品连锁品牌、头部互联网公司在内的各行业规模型企业的实践分析。推荐下载阅读：

上方扫码即可下载

点击阅读原文下载《企业级BI平台白皮书》

http://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=2247505936&idx=1&sn=089c4096a29ee57741cbc4a7e875f04c

五分钟学大数据

大数据领域原创技术号，专注于大数据研究，包括 Hadoop、Flink、Spark、Kafka、Hive、HBase 等，深入大数据技术原理，数据仓库，数据治理，前沿大数据技术

最新文章

超全大数据保姆级教程更新

为数据仓库设计一个完美的指标体系

大数据架构平台搭建指南及数据仓库演进

数据指标体系建设方法 (干货建议收藏)

Spark底层执行原理详细解析

超万字的BI数字化转型案例《2024企业敏捷经营实践合集》

阿里数据仓库架构与模型设计

优质大数据学习面试提高资料(超全)

数仓之路：数仓中的问题与解决方案

字节跳动大裁员的背后。。。

超全大数据技术宝典更新

超全面数仓建设规范指南（建议收藏）

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

实时数仓分层架构超全解决方案

大数据星球重磅更新

如何避免数仓模型“烟囱式”建设

最强大数据群聊开放+最新大数据面试宝典

一文读懂Hive底层数据存储格式（好文收藏）

数据仓库架构落地版

应届生炒到66.8w年薪，真心建议冲冲这个新兴领域！

百万字大数据精华知识库：面试宝典、实战项目、专家答疑，全方位提升你的大数据技能栈！

数据开发流程规范及数据监控

40+指标银行BI指标体系！万字详述银行实现全面自助分析

取代后端岗，中国又一新兴岗位在崛起！这才是程序员未来5年最好的就业方向！

数据仓库：详解维度建模之事实表

探索超全大数据知识库：百万字秘籍助你掌握大数据核心技能

2024企业级BI平台白皮书（附下载）

进字节了！46k*15薪！

超全面的大数据知识库，包含大数据组件、数仓、大数据项目、最新面试题等

五万字 | Flink知识体系保姆级总结

PDF | 五万字Flink保姆级总结PDF文档获取

数仓中指标-标签，维度-度量，自然键-代理键等常见的概念术语解析

超1000000字的大数据知识库又双叒更新了

超全面的数据指标体系搭建（附赠15个行业数据指标体系）

大数据之数据治理体系全面指南

年薪没25W全额退！算法工程师培养计划出台

分享一个可写到简历的高价值有亮点的大数据项目

升维：用数据重塑企业经营的“不二法门”

详解大厂实时数仓建设

解析GreenPlum 闭源，国内 MPP 数据库市场迎来新竞争格局

10万字、近20家企业智能分析决策合集

Hive知识体系保姆级教程

数据治理“知易行难”？来看看《数据治理实践者手记》

和一位年薪千万的朋友聊完，原来职场晋升也有"潜规则"

涨薪50%，这个新岗位封神了

数字资产，一场颠覆性的商业革命

年薪96w！真心建议大家冲一冲新兴领域，工资高前景好

Hive SQL底层执行过程详细剖析

Spark知识体系五万字讲解，学习与面试收藏这篇就够了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉