2024年MLSys研究热点是什么?

教育   2025-01-12 15:42   江苏  

知乎:手抓饼熊(已授权)
链接:https://www.zhihu.com/question/6497732473/answer/62649502909
编辑:「深度学习自然语言处理」公众号

LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!

LLM训练框架篇

大模型并行策略,在2023年已经研究的比较多了,2024年新出的是序列并行,和序列并行搭配的并行策略主要是 混合并行 + 序列并行(Megatron) 或者 FSDP + 序列并行(Deepspeed)。伴随着长序列的研究,offload策略又重新被提起,这里offload主要是激活offload,用于取代重计算带来的开销。

DiT训练框架篇

DiT的1个特点是模型运并不是那么的大,但是序列长度较长。DiT的另一个特点是模型结构没有收敛,故模型结构变化很快。这两个特点导致LLM的训练优化如tensor并行和pipeline并行并不常用,一个适合的方案是序列并行,用于分摊激活。另一个适合的方案是FSDP,用于分摊模型内存,与FSDP和序列并行结合一起的省显存方案是激活offload和重计算。

LLM推理框架篇

分离式架构就不用多说了。序列并行目前在推理长序列场景也有一定的作用,推理场景的序列并行与训练场景序列并行差异较大,主要分为prefill、prefix-cache场景、decode场景,每个场景需要考虑的问题都不一样。另外从24年开始,张量并行的通信计算重叠已经从训练领域迁移到推理领域了。24年开始,各种投机采样技术层出不穷,投机采样中一个重要的技术就是tree结构,故底层的attention是需要支持tree形式的,目前flashinfer已经支持了。kv cache offload技术在24年也广泛研究。最后,量化和kv cache稀疏化也有大量的文章研究。说了这么多,其实还有一项主要的技术,调度的优化,SGLang关于LLM的cpu调度开销做的比较的细致。其实现在的LLM已经很卷了,attention offload到cpu计算甚至ssd计算的都有了。调度方面一搜,也是很多文章,来不及看倒是小事,就怕看了半天发现对自己来说没什么参考价值。

DiT推理框架篇

这个就xDiT就好了,除了各种并行策略,里面还支持torch compile的算子优化、量化等多种优化方案。

基础硬件

主要是各大厂商的硬件方案,其实最主要的就是万卡以上级别的集群组网方案了。另一方面,ASIC也比较火,看最近某通的股价涨幅就知道了,股价上涨速度直接将nv和amd等斩于马下。



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦

深度学习自然语言处理
一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~
 最新文章