大模型推理张量并行的4种模式

教育 2024-12-22 17:16 江苏

知乎：手抓饼熊
地址：https://zhuanlan.zhihu.com/p/12302566679
编辑：「深度学习自然语言处理公众号」，转载授权请联系作者

大模型推理并行方向只有2个难点（特指并行而非分布式，个人觉得分离式架构、分布式调度等均属于大模型推理分布式领域），一个是序列并行、一个是张量并行的通信计算重叠优化。序列并行笔者介绍的比较多了（手抓饼熊：大模型推理序列并行），本文介绍一下张量并行通信计算重叠的一些优化方案。

LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入！

背景

张量并行目前已经是大模型推理的一个必备的技术，笔者之前分析过vLLM的张量并行（手抓饼熊：vLLM源码之模型并行）。然而张量并行一个缺点是通信开销，当推理采用PCIE类卡的时候，该缺点更加明显。

针对通信开销的缺点，训练框架已经有了通信计算重叠优化（手抓饼熊：Megatron-LM Tensor并行计算通信重叠），而目前开源的推理引擎如vLLM和SGLang均没有实现该功能。最近知乎开源的大模型推理引擎ZhiLight支持张量并行通信计算重叠（如何评价知乎刚刚宣布开源的大模型推理框架 ZhiLight？）。笔者认为，在2025年张量并行通信计算重叠将会是所有开源框架的必备功能。本文结合当前最新的论文，介绍张量并行通信计算重叠的做法。

张量并行的几种实现

2.1 朴素版张量并行

如上图所示，标准的Transformer张量并行结构，从图中我们可以看到，每次Transformer前向需要进行2次AllReduce，这会导致模型前向执行AllReduce的时候，计算的GPU比较空闲。

2.2 Gemm版本通信计算重叠

当我们说到张量并行计算通信重叠，一个最直观的实现是分布式Gemm + AllReduce的overlap，目前TransformerEngine、torch（[Distributed w/ TorchTitan] Introducing Async Tensor Parallelism in PyTorch）和字节Flux都是采取类似的实现，Flux在优化方面做的更细一点，如上图所示，o_proj其实是一个分布式矩阵乘法，其后面跟着一个Allreduce算子。放大分布式Gemm + AllReduce如上图所示。对上述图示说明如下：

上图上半部分展示的是分布式Gemm，A @ B，其中A是列切，B是行切，A0 @ B0 得到蓝色的 C00 C10部分，A @ B1 得到蓝色的 C01 C11部分。蓝色的 C00 C11和黄色的C01 C11进行ReducesScatter得到 C0 C1。
上图的下半部分是overlap的版本，我们看到原来的A是按照列切分的，计算的时候再按照行分块计算。分2个step计算，在step0时候，A00 @ B0会得到 C00，同样 A01 @ B得到C01，在step1时候，A10 @ B0会得到 C00，同样 A11 @ B得到C11，此时可以同时进行step0计算结果C的规约。

Flux的思想和这个类似，但是还有很多优化，以后有时间再探讨。

2.3 请求间通信计算重叠

上图是张量并行通信与计算重叠的另一种实现（Liger: Interleaving Intra- and Inter-Operator Parallelism for Distributed Large Model Inference）。从图中可以看出该方法有如下特点：

会有多个请求，不同的请求会有不同的stream。
执行请求1的计算的时候，请求2正在进行通信操作，反之依然。
类似的这种做法还有Nanoflow，如下图所示。
这种做法，按理说不需要重写一个计算通信的kernel（右图是计算和通信对应的SM分配情况），但是整体调度实现会很复杂，同样后续有机会再深入分析。

2.4 请求内通信计算重叠

第3种通信计算重叠方式如上图所示（ISO: Overlap of Computation and Communication within Seqenence For LLM Inference），看起来和Flux、Liger均不一样。但凡通过这张图，要是能看懂这个方法的思路，那么大模型并行基础就不错，至少对分布式attention实现还是有很深了解的。

这张图看起来比较疑惑，因为他是单张卡不同的流的图示，把这张图变成多卡。我用红色、黑色、黄色框画了几个step，后续会用到，可以结合着看。如上图所示，上面的是rank0，下面的是rank1 。可以看到一个transformer对于单卡而言，通信和计算是重叠的。从图中可以看出，attention采用了分块attention实现的。关于MLP的计算通信重叠和2.2节应该类似，我们重点看attention如何实现通信计算重叠的。上图是整体流程，可以结合上面的流程图一起看，核心思想是，每张卡，在序列维度分块执行，分块0执行的时候没有通信，分块1执行的时候，执行分块0的通信，具体细节可以看图。

总结

听君一席话，如听君一席话。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

深度学习自然语言处理

一个热衷于深度学习与NLP前沿技术的平台，期待在知识的殿堂与你相遇~

最新文章

聊聊PRM（过程奖励模型）

2024 年度总结 LLM System Research：过去半年的科研心路历程

强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

Virgo：类o1多模态大模型的初步探索

24届毕业生聊PhD就业，国内or国外、学术界or工业界or创业

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

博士生罢工、工资上涨、学术头秃：PI生存指南

[vLLM vs TensorRT-LLM]：动态序列长度场景对比

图解Megatron TP中的计算通信overlap

从infra的视角聊聊DeepSeek-V3

手写self-attention的四重境界 self-attention

o1类大模型的过度思考: 2+3=？

2024年RAG：回顾与展望

Building effective agents笔记

微软公布OpenAI闭源模型参数！4o-mini 8B！

NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

DeepSeek-V3技术报告解读

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

OpenAI-o3 与 Monte-Carlo 思想

NICE41期 | 大模型评估的新视角：理论指标创新与下游任务应用分享

让Agent"少说废话"！打造高效的LLM多智能体系统

游凯超：我与vLLM的2024，很Passion！

最新RAG综述：15种经典RAG框架综述（上）

最新RAG综述：15种经典RAG框架综述（下）

LLM实践--支线：分布式训练框架的编程基础

NICE40期 | 自动生成模型卡与数据卡：迈向负责任的人工智能

刘鹏飞老师组研发PC Agent，让 AI 替你熬夜做 PPT

LLM，一艘方向不对但积重难返的华丽游轮...

o1复现的一点点心得

深度学习工作：从追求 SoTA 到揭示新现象

大模型推理张量并行的4种模式

百度&人大：长文本LLM全排序能力新方法

212页PPT：大模型时代的具身智能

RWKV-7：极先进的大模型架构，长文本能力极强

今天Qwen2.5技术报告发布啦！

Anthropic: 预训练阶段引入人类反馈更安全

图解OpenRLHF中基于Ray的分布式训练流程

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

实践指南: hzwer大佬的模型优化与迭代策略

如何用一个统一的视角，分析RLHF下的各种算法？

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

只要捞"偏门"，篇篇都是顶会顶刊！

圆桌会 | 荣幸邀请到Meta、OSU、哈佛&MIT学者来分享Agent前沿~

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

模仿、探索与自我提升：慢思考推理系统的复现之路

大模型Infra王朝2024

今晚8:30，荣幸邀请到电影导演和LLM科学家一起聊聊对多模态的见解

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

如何增强大模型推理？Meta最新提出《大型概念模型》在句子表示空间中的语言建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉