PyTorch 原生FP8训练进展

科技 2025-01-08 19:57 韩国

博客来源：https://pytorch.org/blog/training-using-float8-fsdp2/ 。by IBM and Meta 。这里主要是汇总一下FSDP2和FP8训练相关的内容，目前的实践主要集中在TorchTitan（DTensor，Async Tensor Parallelism，FP8 Allgather等等）和torchao上面，包括torch.compile编译器也在做对应的支持，PyTorch对于这个工作其实还没做到很稳定，和Meagtron-LM的FP8类似处于半成品阶段，例如API接口变动就很大，这里可以先简单了解一下他们的进展。以下是PyTorch关于FP8训练最新进展的博客翻译。

FSDP2和FP8训练相关前置内容：

使用float8和FSDP2加速训练

作者：IBM: Tuan Hoang Trong, Alexei Karve, Yan Koyfman, Linsong Chu, Divya Kumari, Shweta Salaria, Robert Walkup, Praneet Adusumilli, Nirmit Desai, Raghu Ganti, Seetharami Seelam Meta: Less Wright, Wei Feng, Vasiliy Kuznetsov, Driss Guesseous

在本博客中，我们将展示如何在保持损失和评估基准一致性的同时，相比FSDP1 bf16训练实现高达50%的吞吐量提升。我们通过利用FSDP2、DTensor和torch.compile与torchao的float8线性层更新（计算）以及float8 all_gathers进行权重通信来实现这一提升。我们展示了这些改进在Meta LLaMa模型架构的不同规模上的效果，从1.8B小型模型一直到405B大型模型，使训练速度比以往更快。

我们使用Meta Llama3架构展示这些改进，并在两个规模上进行模型质量研究：8B模型规模的100B tokens训练和70B模型规模的50B tokens训练，这提供了float8和bf16训练损失曲线的精确比较。我们证明了与bf16相比，这些模型训练运行的损失曲线达到了相同的损失收敛。此外，我们使用FineWeb-edu数据集训练了一个3B模型到1T tokens，并运行标准评估基准以确保模型质量完整且与bf16运行相当。

在IBM研究院，我们计划采用这些功能进行数据消融实验，以提高在给定GPU预算内可以执行的实验数量。从长远来看，我们将通过更大规模的模型运行来展示float8训练的端到端可行性。

什么是Float8？

float8训练格式是由NVIDIA、ARM和Intel在2022年的一篇论文(https://arxiv.org/abs/2209.05433)中提出的，该论文证明了使用更低精度float8进行训练的可行性，且不会牺牲模型质量。随着NVIDIA Hopper系列等新型GPU的推出，由于原生float8张量核心支持，FP8训练变得可行，有望实现超过2倍的训练吞吐量提升。实现这一承诺面临一些挑战：(i) 在float8中启用核心模型操作如matmul和attention， (ii) 在分布式框架中启用float8训练， (iii) 在float8中启用GPU之间的权重通信。虽然NVIDIA库启用了float8 matmul，但后两项是在FSDP2和torchao的最新更新中提供的。

在本博客中，我们使用torchtitan(https://github.com/pytorch/torchtitan)作为训练入口点，使用IBM的确定性数据加载器，来自torchao的float8线性层实现，以及最新PyTorch nightly版本中的float8 all gather与FSDP2结合。对于这次训练，我们使用的是float8每张量（tensorwise）缩放粒度而不是行级。我们利用torch.compile确保获得最大性能提升。我们使用SDPA在bf16中计算attention，目前正在努力将其也迁移到float8。

实验

我们进行了各种实验来展示float8训练的优势。首先是确保不会牺牲模型质量。为了验证这一点，我们训练了一个8B模型和70B模型几千步，并比较float8和bf16训练运行之间的损失曲线。我们的实验在三个不同的H100集群上进行，分别配置了128、256和512个H100 GPU，环境各不相同，以证明可重复性。第一个集群是Meta的Grand Teton(https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/)上的定制集群，具有400Gbps定制互连；第二个是IBM研究集群，具有3.2Tbps Infiniband互连；第三个是IBM Cloud集群，具有3.2Tbps RoCE互连用于GPU到GPU通信。

首先，我们在下面的图中绘制了这两个模型的损失曲线比较，以展示几千步的损失一致性。

图1：(a) 8B模型2k步损失一致性，(b) 70B模型1k步损失一致性

我们观察到，在这些不同的模型和不同的环境中，我们在小规模tokens训练中获得了损失一致性。接下来，我们对从1.8B到405B的四种不同模型规模的吞吐量增益进行了表征。我们探索了float8和bf16训练运行的最佳批量大小和激活检查点方案，以确定每GPU每秒的tokens数（wps）指标并报告性能增益。对于405B模型，我们利用DTensor进行张量并行训练与FSDP2。我们所有的测量都使用8K的序列长度。

表1：相对于bf16的性能增益（bf16和float8都使用torch.compile）

从表1中我们观察到，较大模型（70B和405B）的增益达到50%，较小模型的增益在20%到30%之间。在进一步的实验中，我们观察到float8 all_gather的添加使性能在float8计算本身的基础上提升了约5%，这与这篇博客(https://aws.amazon.com/cn/blogs/machine-learning/efficient-pre-training-of-llama-3-like-model-architectures-using-torchtitan-on-amazon-sagemaker/)中的观察结果一致。

其次，为了展示FP8模型的有效性，我们使用来自Hugging Face的FineWeb-edu数据集训练了一个遵循Llama3架构的3B模型，训练量达到1T tokens。我们使用lm-eval-harness框架进行评估，并在下表中展示了部分结果。我们观察到bf16的性能略优于float8分数（约一个百分点）。虽然某些分数在bf16下明显更好（例如，MMLU高出3分），但我们预计当选择正确的超参数和进行更大规模的训练运行时，这些差距会消失（例如，bf16运行的批量大小是一半，众所周知较小的批量大小运行可以提高评估分数）。

表2：float8训练模型在FP16下进行评估的基准分数（在FineWeb预训练的1T tokens处）。

最后，我们将实验扩展到IBM Cloud集群的512个H100 GPU上。我们能够在512 GPU规模上重现我们观察到的结果和加速。我们在下表中仅总结了大型模型（70B和405B）的这些结果。

表3：512 GPU规模下相对于bf16的性能增益（bf16和float8都使用torch.compile）

未来工作

我们还在研究其他形式的并行性，如上下文并行性。我们计划评估所有这些特性，以展示可组合性和为大规模模型训练做出选择的能力。

致谢

我们感谢IBM Research的Davis Wertheimer为torchtitan运行启用数据加载器，使我们能够在多次运行中以相同顺序重放数据。我们还感谢IBM Cloud为我们提供H100集群的早期测试访问权限。

GiantPandaCV

专注于大语言模型，CUDA，编译器，工程部署和优化等多个方向技术分享。我们不仅坚持原创，也规范转载知乎大佬们的高质量博文。希望在传播知识、分享知识的同时能够启发你，在人类通往AGI的道路上互相帮助(･ω\x26lt;)☆

最新文章

PyTorch 原生FP8训练进展

[分布式训练与TorchTitan] PyTorch中的Async Tensor Parallelism介绍

使用torchtune把LLaMa-3.1 8B蒸馏为1B

图解Megatron TP中的计算通信overlap

将Diffusion模型的推理速度提升了8倍，顺利拿到6家企业offer

让预训练 Transformer 生成更长的文本/图像：位置编码长度外推技术

Triton Kernel 编译阶段

CUDA-MODE课程笔记第17课 GPU集合通信(NCCL)

AWQ：模型量化应当关注激活值

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

使用 PyTorch 加速生成式 AI 之 GPT Fast

【ml-engineering 翻译系列】计算加速器之gpu

图解OpenRLHF中基于Ray的分布式训练流程

GTX 4090 的 cuda graph 诡异

PyTorch 通讯实践

CUDA-MODE 课程笔记第29课 Triton内部机制

ModelServer：基于 SGLang 的前端分发系统

如何正确理解NVIDIA GPU利用率的概念

RMSNorm的精度陷阱：记一次LLM推理精度调查

图解大模型训练系列：序列并行4，Megatron Context Parallel

CUDA-MODE 课程笔记第28课用在生产环境中的LinkedIn Liger kernel

GPU 矩阵乘实际可达最大FLOPS测量工具

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

NCCL 与 NVIDIA TOPO

基于 chunked prefill 理解 prefill 和 decode 的计算特性

CUDA-MODE课程笔记 Lecture 16 通过CUDA C++核心库把llm.c移植为llm.cpp

SGLang 后端原文解析

AwesomeCLIP---100+篇CLIP相关工作整理

小白视角：利用 SGL 来 Serve Embedding Model

小白视角：vllm 迁移到 SGLang 的体验与收获

【ml-engineering 翻译系列】计算加速器之cpu

梳理下Flash Attention的dispatch逻辑（文末免费送书）

图解大模型训练系列：序列并行3，Ring Attention

【ml-engineering 翻译系列】训练之模型并行

图解大模型训练系列：序列并行2，DeepSpeed Ulysses

【翻译】在FSDP2中开启Float8 All-Gather

图解大模型训练系列：序列并行1，Megatron SP

【ml-engineering 翻译系列】AI系统中的网络 benchmark

OpenAI o1技术初探3：如何让模型拥有自我纠错的能力

【ml-engineering 翻译系列】AI系统中的网络 debug

OpenAI o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）

【ml-engineering 翻译系列】AI系统中的网络概述

【ml-engineering 翻译系列】大模型推理

【翻译】使用PyTorch FSDP和Torch.compile最大化训练吞吐量

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

OpenAI o1 技术初探1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

【翻译】使用PyTorch FSDP最大化训练吞吐量

图文详解 Continuous Batch：不写 CUDA Kernel 也能成倍优化推理效率

CUDA-MODE 课程笔记第14课，Triton 实践指南

【翻译】CUDA-Free Inference for LLMs

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉