训练策略
集群:
2048*H800,256 nodes,配备NVLink,NVSwitch,以及IB。
策略推测:
策略评价
1.选择2048张卡进行训练,应该可以保证在一个大集群中进行这个训练。
2.策略中不开TP,机器内部优先为EP组,256个专家的64EP并行,则单张卡中应该是4个专家。
3.Deepseek论文中提到不使用TP策略,主要是开销非常大(文中costly),这似乎也表明EP和TP组在机内的优先级竞争,EP是最优解?因为在之前Mixtral 8x7B的Moe模型中,同样也是选择了将EP打满的策略。12.27更新:xffxff:MoE 训练到底是开 TP 还是 EP?,解释了这个原因[1]
4.提到使用了ZeRO-1(DP),但我估计实现的方法应该和Magetron的Distributed Optimizer优化一样。
DS分布式训练亮点分析
1.自研的轻量级HAI-LLM框架
2.双流并行的PP组steady阶段优化
3.PP组双向管道调度
4.Moe路由的All2All优化设计
5.高精度的显存优化策略
双流并行的PP组steady阶段优化
计算通信流安排
文中示意图:
首先一个预备知识,在反向传递阶段,通常会进行两个操作,1.更新当前层的权重,2.将梯度继续传递到前一层。而通常这两个操作实际是并不存在数据依赖的,因此他们是可以拆开来进行。图中括号里面的B,W则分别是这两个操作的。
这一个思路实际在ZeroBubble中就已经出现:
Deepseek的这个设计中,有一个比较有意思的点是,在他自定义的设计后,可以使得barrier刚好停在两个流任务完成的时候,而不需要通信流或者是计算流进行等待。能有效的提高计算效率。
我们知道正常的执行逻辑上,按顺序来说
前向传递需要执行:ATTN(计算),DISPATCH(通信),MLP(计算),COMBINE(通信)。
反向传递需要执行:COMBINE(通信),MLP_B(计算),MLP_W(计算),DISPATCH(通信),ATTN_B(计算),ATTN_W(计算),这里注意,由于MLP_B在将梯度计算之后,就可以继续向下一层进行传递了,因此我们可以在后续执行MLP_W时,同时通信梯度计算的结果。
而在之前,虽然也存在着overlap的策略,但显然粒度上没有这么细致。具体来说可以参照下面的图,模拟了一个简单的流水,简单来说,就是计算的前向与反向由于不存在数据依赖,所以在计算完成后可以一边发送与接收数据一边进行反向的计算。但都是以一个PP层的粒度进行。没有DeepSeek文章中设计的细致。
PP组双向管道调度
论文中的图例,注释中也解释由于对称处理,所以从下往上的另外组并没有写出。
实际上应该是
图中的不同颜色标识,也和上文中介绍的一样,绿色长块表明是反向传递的B+W,绿色小块和蓝色小块则分别是B,W,混合块则是前文列出的混合计算模型。这里有一个潜在的点是,我们可以基本认为,前向的橙色块,绿色小块,蓝色小块的长度一致,因为他们的计算与通信逻辑是相同的。这也是我们常识中,反向传递的时间是前向传递时间2倍的主要原因,图中绿色长块的长度为2。混合块,则是因为包含了前向,反向两个阶段,所以块长度是3。
图中白色的部分则是PP流水线中常见的气泡(Bubble),我们是期望气泡越小越好。DeepSeek的这版PP设计,很明显就是努力的将中间部分的Bubble进行压缩。
相比于,传统版本的错位1F1B的PP训练
以及他参照的ZeroBubble的流水线图
前者是通过将PP的每一层错位展开,例如在PP=4的情况下,卡0包含0层与4层,交错训练,更细粒度训练来压缩气泡。而ZeroBubble则是将反向传递拆解为两个部分来进行训练。但ZeroBubble的流水线有一个明显的问题,就是优化器之后不能同步,导致实际的训练是一个异步流程。如果强制同步再进行下一个step,那还是会带来更多的Bubble,让效率变低。这也是一直没有被广泛使用的原因。
PP部分数学计算
这里我们探讨一下关于文中列出的数学表格进行分析:
首先是关于气泡的计算,对于DualPipe的设计来说,主要的气泡产生是两个部分,首先是warmup阶段与cooldown阶段,不可避免的一部分,毕竟中间的Rank要等两头的数据。另一部分就是混合模块与其他模块拼接产生的气泡部分。在我看来,如何做完美流水线,最好理解的方法就是填格子。对于DualPipe,有长度1,2,3的3种不同大小的方块格可以供选择,那么在满足数据依赖成立的情况下,自由度是非常高的。
其次是参数部分,由于是双向管道训练,所以你得存两份参数来进行训练,这比较好理解。但参数的规模文中说通过Zero1的DP进行卸载,开销不高。我们分析一下,8个routed专家的时候是37B,256个routed专家的时候是671B,所以4个routed专家的时候应该是26.8B(感谢评论区指正)。然后又因为PP=16,那在这种情况下,参数部分的总显存占用是26.8*2/16 = 3.35GB(如果是半精度),FP8的话则是1.675GB。因此额外的参数部分开销,用空间来换时间,真是洒洒水。
最后是激活层部分,我们也知道实际PP的优化是不影响激活层部分的显存占用的,PP流水的显存瓶颈一般在Rank_0和Rank_{pp-1}。因为流水虽然被分散为多段了,但是你会同时存储多个batchsize的中间结果,因此激活层部分的总量可以直观理解为不变。而DualPipe为什么会是PP+1,主要是因为另外一端的数据到了。参考下图,batch0的数据直接插入其中,导致相比之前的PP流水,额外多了1/PP(黄色方块部分),不过无伤大雅吧,这么一层PP的占用,大概也就是增加了1/16的额外空间。
Moe路由的All2All优化设计
Moe的通信,主要是两个部分,一个是将Token路由到对应的专家上(dispatch),另外一个则是将训练完的数据进行收集(combine)。
而实际上Moe的路由方案,一直以来就有两种,一种是从Mixtral就包含的All2All的方式,另外一种就是在Magetron中,直接使用All Gather与 Reduce Scatter的通信方案[2]。前者则是点对点通信显存开销比较小,一般传输多少数据就开多少的Buffer就行。但后者,则是需要将所有的Token全部路由到每一张卡上,然后再通过mask的方式来进行筛除,最后进行训练。这个过程中,所开辟的Buffer大小就会远大于前者。当时实习的组里,和mt也讨论过,前者虽然节省显存,但是通信的效率实际不高。而后者虽然开的Buffer较大,但是直接使用Magetron中的AG和RS(底层是NCCL),通讯的效率也是可以接受的。
而在DeepSeek的这版实现里面,很明显是对All2All的方法进行了细致的优化。
1.限制路由的节点范围最多是4个节点(最多在32张卡,128个专家)中进行选择
这一点实际很重要,它规避了在节点过多的情况下,Token随意路由导致通信大量拥塞的问题,虽然使用Group GEMM进行计算的话,通常size的情况应该不用过于担心。感觉这就是算法组和Infra组协商的结果了,要是算法组卡死啥都不愿意改,只能说Infra也很难做比较好的优化。
2.路由流程规范化
文章中定义的路由顺序,是机器间通过IB(50GB/s)来进行通信,而机器内部则走高带宽的NVLink(160GB/s)到达指定的机器。每当机器收到需要路由的Token数据时,都会优先及时处理以防止拥塞。无论在发送和回收时都遵循这项原则。
能做到这一点,首先是从网络拓扑的角度,IB在对应ID相同的显卡之间,只包含非常少量的交换机(感谢前mt的答疑)。因此选择直连的IB进行通信是最快的方案。其次文中也分析,由于两者之间的带宽差距是3.2倍,所以对于单个node如果只选择小于3.2个的专家来进行训练,那么对于NVLink来说,不会产生额外的开销。因此文中也提出,最多可以选择大约13个专家(4node*3.2E/node),4是前面限制选择最多4个节点。
3.细粒度划分SM
这个实际做训练的基本都有经历,当我们在训练流与通信流同时进行工作期望达到overlap时,那势必会产生资源抢占的问题,主要就是发生在SM的分配,以及L2缓存的抢占(文中均有提到)。
而DeepSeek的解决方案则是,通过使用定制化的PTX(Parallel Thread Execution),以及自动调整的资源分配策略,让尽可能的对SM计算资源抢占,以及对于L2缓存抢占的影响降低到最小。文中显示,最多使用20个SM来完成,对于H800来说,大约是15%左右的资源(H卡的SM是132个)
高精度的显存优化策略
重计算RMSNorm和MLA的up project
实际上对于重计算的优化方法,一般在显存不够用的情况下,经常会搬出来。因为对于大大缩减激活层部分的显存,效果非常明显。但额外的,如果进行完全重计算,则会导致训练的时间变为原来的4/3,很好理解,你需要重新算所有的前向传递部分。因此目前就有了更加细粒度的选择重计算方式
1.按层进行选择重计算
这种方法比较好理解,假如我们有24层的Transformer层,那么我们隔一层重计算一次,则我们仅需要重计算12层的数据,虽然这样显存部分的节约变少了,但是计算时间只是原始版本的7/6(反正batchsize固定的情况下,能跑就行)。
2.按计算模块进行重计算
这种方法设计更为巧妙,实际每一层的计算,通常由类似RMSkernel的计算强度较低的部分(一般就是计算不涉及大矩阵乘),与MLP中GEMM这样计算强度非常高的算子组成,他们都会产生激活值开销,占据显存空间,但他们的计算成本是完全不一致的。举一个例子,定义batchsize=b,hiddensize = h,sequence size = s,例如低计算强调的RMSkernel,产生5BSH的激活层显存,但是计算时间可能只占一层计算的10%。而另外的GEMM操作产生20BSH,但是计算时间占一层计算的90%。那么从计算性价比的角度出发,只重计算与RMSkernel相关的部分,性价比是最高的。这一思路实际在快手今年发表在ATC[3]的文章中以及提到过。
EMA的offload处理
EMA我不太了解,但看论文大概是一个监测训练方向的模块,看起来很重要且占用了一定的空间。那对于这种基本不存在数据依赖,可以异步来进行处理的数据,及时从显存卸载到CPU上,是一种比较常规的处理思路。(代码实践不太了解难度)
训练参数共享
通常来说,Transformer的训练,包含头尾两个部分,分别是要将Token转换为embedding的embedding层,以及最后需要将embedding重新转换为Token算loss的lm_head层,他们的size实际是相同的,都是vocab_size*hidden_size的大小,这部分主要大还是因为词表大,例如llama3.1的词表应该是128k的,DeepSeek的词表也是128K(vocab_size:129280)的。共享参数的话,可以节省一部分参数,梯度,优化器,参数备份的显存空间(估计1-2GB的规模吧)。另外就是共享参数,肯定得放在相同的PP Rank里面,比较好理解。
然后其实共享的策略,其实也不是第一次出现,在llama3.1 405B中,似乎也使用了相同的方法。在我实习期间进行调研的时候,第一次见到这个情况也感觉很新奇。
总结
1.光看DeepSeek对于分布式并行训练的设计,其实并没有开创性的亮点,大部分的都是通过对已有工作进行进一步的设计与优化,通过利用自定义算子的优势,来磨平训练中可能产生额外开销的毛刺。
2.另外就是算法与Infra团队的紧密结合工作是弥补可分的,双方都需要在设计上进行对接与匹配,才能让作为优化的人有事可做,而不是天天对着一些意义不明的事情反复造轮子。
3.DeepSeek参数量非常大,且训练成本低,我目前仅看Infra部分,认为主要是稀疏的Moe结构与FP8的精度训练共同影响而实现的。相比于7月发布的405B的llama3.1稠密模型来说,计算量上还是存在着一些差距的。并且我认为FP8的混合精度训练才是这篇文章在Infra方向的开创性亮点。有时间还可以再学习一下。
4.大模型大家都在等OAI赏饭吃,现在,感觉DeepSeek也在给大家赏饭吃,太感动了,大模型优化工程师也能吃上拼好饭了。
https://arxiv.org/pdf/2401.10241
https://github.com/NVIDIA/Megatron-LM
https://www.usenix.org/conference/atc24/presentation/yuan
引用链接
[1]
12.27更新:xffxff:MoE 训练到底是开 TP 还是 EP?,解释了这个原因: https://zhuanlan.zhihu.com/p/13997146226
备注:进群,进入大模型技术群
你好,我是对白,硕士毕业于清华,大厂算法工程师,拿过8家大厂算法岗SSP offer
创业做过无人机、机器人和互联网+教育,保研清华后开始系统接触AI。
我每周至少更新一篇原创,分享AI算法、技术干货和职场感悟。下方关注可加我私信交流,点击蓝字查看我的算法学习之路。
您的“点赞/在看/分享”是我坚持最大动力
坚持不易,卖萌打滚求鼓励 (ฅ>ω<*ฅ)
分享
收藏
点赞
在看