FP8 在大模型训练中的应用、挑战及实践

文摘 2025-01-23 20:00 北京

越来越多的技术团队开始使用 FP8 进行大模型训练，这主要因为 FP8 有很多技术优势。比如在新一代的 GPU 上，FP8 相对于 BF16 对矩阵乘算子这样的计算密集型算子，NVIDIA TensorCores 能够提供两倍的峰值性能，相对于 TF32 能够提供四倍的加速，从而大大缩短计算密集型算子的计算时间。而对于访存密集型的算子，由于 FP8 所需的数据量更少，可以减轻访存压力，加速这些算子。如果在训练时使用 FP8 精度，可以更方便快速的将 FP8 部署到推理侧，使 FP8 训练可以更容易顺畅地与低精度推理相结合等。

同时，由于 FP8 的动态范围和精度相对于之前使用的 FP16/BF16/FP32 更小，如果使用 FP8 代替原来的数值精度进行训练，技术团队在模型和数据集上可能会遇到 FP8 精度的挑战。

FP8 训练的主要问题及解决思路

通过与很多技术团队交流，我们把 FP8 训练的主要问题分为以下三类，并且对可以考虑的解决思路做一个简单介绍。

Spike 问题，即 Loss Spike。其实这并不是 FP8 特有的问题，在 BF16 中也可能遇到。引起 Loss Spike 的原因比较多，比如可能与选择的算法有关，目前没有特定的解决方案。但如果 FP8 的 Spike 与 BF16 类似，我们大概率可以认为这是一个通用问题；但如果 FP8 的 Spike 更多且需要多次迭代才能恢复正常，则可能是 FP8 训练存在问题，需要进一步检查。
FP8 的 Loss 问题，可能会遇到 Loss 增加或发散的情况。我们又可以将其分为三种情况：

o 情况 1：训练开始时 Loss 就发散，这通常是软件问题，可能存在 Bug，建议使用 NVIDIA 最新的 NeMo /Mcore (Megatron Core) /TE (Transformer Engine) 版本来减少出错概率。

o 情况 2：检查训练配置，是否使用了新的优化点，如 CPU offloading、FP8 parameters 等新功能。可以尝试先关闭这些功能，看看是否是由此导致的问题。

o 情况 3：数值问题也可能导致 Loss 问题，可以尝试使用 BF16 进行 FP8 计算，输入为 FP8 tensor，但使用 BF16 的 GEMM。Loss 问题发生在训练中期，比如训练了几百个 token 后突然出现 Loss 上涨或发散，可以尝试其他 recipe，如 current scaling 或 fangrand scaling，或将某些层 fallback 到 BF16。最近的研究表明，因为首层和最后一层更敏感，将第一层和最后一层 fallback 到 BF16 效果提升明显。
Loss 没有问题，但下游任务指标与 BF16 有差距，也可以概括为两种情况。

o 情况 1：所有下游任务指标都有问题。建议检查下游任务指标的 inference 流程是否正确，如是否读取了正确的 scaling factor 和 weight。也可能是某些任务有问题，但其他任务可以与 BF16 对齐，这时可以尝试改变 FP8 训练的 recipe，尝试 current scaling 或部分层 fallback 到 BF16。

o 情况 2：inference 使用 BF16，但训练使用 FP8。由于模型已经是 FP8 训练的结果，使用 BF16 进行 inference 可能会引入更多误差。建议尝试使用 FP8 训练加 FP8 inference，看看下游任务打分是否恢复正常。

FP8 Debug 工具介绍

针对 FP8 训练过程中的 Debug 思路，可以参考“探索 FP8 训练中 Debug 思路与技巧”技术博客里面的总结：

https://developer.nvidia.com/zh-cn/blog/fp8-training-debug-tips/

图片来源于 NVIDIA FP8 debug 工具

FP8 的训练效果我们一般通过观察 Loss 曲线或下游任务的指标来进行评估。比如，会检查 Loss 是否发散，从而判断 FP8 是否有问题。同时我们也希望找到一些其他指标，能在训练过程中用于评估 FP8 的稳定性。此外，我们还希望通过一些指标来评估量化的误差，如果出现 FP8 训练问题，问题是发生在某个特定的层或张量上。通过这些深入的了解，我们可以帮助选择更好的训练方案，同时在训练过程中进行调整。

因此我们开发了一个 FP8 Debug 工具，这个工具中包含了一些指标，用于观察 FP8 训练的状态，包括 MSE 和余弦相似性（用于 BF16 和 FP8 之间的量化误差），Tensor 的 Underflow 和 Overflow (用于查看是否因为 FP8 的动态范围比 BF16 小而导致过多的 Underflow 或 Overflow，进而引起的精度问题)。

其次，我们还记录了一些统计值，如对比 Delayed Scaling 的 Scaling Factor 与使用当前 Tensor 的 Current Scaling 的 Scaling Factor 之间的误差（这代表 Delayed Scaling 是否能准确表征当前 Tensor 的表现）。

除了这些指标外，我们还可以将这些 Tensor Dump 出来，并动态选择 Dump 哪些层，记录这些指标。

目前这个工具可以与 NVIDIA 任何版本的 NeMo Megatron 兼容，没有改动这些框架的内部代码，因此无论使用哪个版本的框架，都可以使用这个工具进行相应的分析。

在使用 Debug 工具进行分析的时候，我们会 Dump 一些 Tensor 并进行分析，可以看到：

包括了 Tensor 的名称和 Layer 的名称，即哪一层的哪一个 Tensor。例如，我们会 Dump Forward 的 Input，即 GEMM 的 Input 和 Weight，以及反向传播时的 Dy 的 Tensor。
可以周期性地打印不同 Step 的结果，观察整个过程中的变化，从而了解不同 Step 的情况。
可以观察不同的指标，如 AMin 和 AMax，以及 Current Scaling 和 Delay Scaling 这两种 Scaling 的区别。
通过打印出来的值，观察余弦相似性 MSE 这两种量化误差，以及 Underflow 和 Overflow 的比例来判断表现。

数据来源于 NVIDIA FP8 debug 工具

工具也可以将对应的 FP8 Tensor 保存下来，以便后期进行更多的指标分析。

这些指标主要来自我们技术团队基于一些技术论文以及业务实践中的讨论和总结。

内部实验中观察到的案例：

数据来源于 NVIDIA FP8 debug 工具

如上图所示，红色线条代表 FP8 正常收敛的 good case，没有出现 Loss 发散，Loss 在正常下降。而绿色线条则代表 FP8 的 bad case，训练到 2000 步后开始发散。这两个 case 是我们人为构造的，通过调整学习率来展示 good case 和 bad case。

以下是几个指标情况：

数据来源于 NVIDIA 内部实验

MSE - 这个指标上边的是 bad case，下边是 good case。我们把这两个放在一起，可以看到对于 forward X，bad case 下几个矩阵的 MSE 最大值都已经达到了 10 的三次方。也就是说 FP8 和 BF16 的量化误差已经到了 10 的三次方。但是对于 good case 来说，量化误差其实只有 10 的负二次方。通过这样的对比，我们可以看到对于 forward X 的 tensor 来说，它可能是有问题的。

数据来源于 NVIDIA 内部实验

Underflow 对比 - bad case 上 FC2 的 forward X，有 80% 的最大 Underflow 比率。但对于下边 good case 来说，它最大的情况下也只有 1% 。

所以对于 forward 的 FC2 来说，X 可能需要格外关注并考虑，比如是否要 fallback 到 BF16？或者用一些其他的 scaling 策略来保证它的精度。

目前，FP8 Debug 工具还在内部测试阶段，如果希望了解或尝试该工具，可以联系您对接的 NVIDIA 技术团队，也欢迎您提供建议共同丰富这个工具的功能。

本文摘选自“NVIDIA AI 加速精讲堂 —— FP8 在大模型训练中的应用、挑战及实践”，可访问 NVIDIA 官网观看完整在线演讲：

https://www.nvidia.cn/webinars/sessions/?session_id=241218-35308

关于作者

黄雪

NVIDIA 解决方案架构师，硕士毕业于哈尔滨工业大学，主要负责深度学习训练方面工作，在深度学习框架、超大规模模型训练，分布式模型训练加速优化等技术方向有丰富的研究经验。

GTC 2025 将于 2025 年 3 月 17 至 21 日在美国加州圣何塞及线上同步举行，点击“阅读原文”或扫描下方海报二维码，立即注册线上大会或购买现场参会门票。

DataFunTalk

专注于大数据、人工智能技术应用的分享与交流。致力于成就百万数据科学家。定期组织技术分享直播，并整理大数据、推荐/搜索算法、广告算法、NLP 自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。

最新文章

图神经网络如何解决推荐系统中的数据稀疏性问题？

首发 | 昆仑芯 | 国产AI卡DeepSeek训练推理全版本适配、性能卓越，一键部署等您来（附文档下载方式）

“针对的就是 DeepSeek！”美国空前力度打压中国 AI：只要下载中国开发模型就可获 20 年监禁或百万美元罚款！

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

数据资产建设和数据安全

OpenAI发布新Agent，用于深度研究，实测成色如何？

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

知乎互动反作弊实践

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

数据智能体的构建与优化

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

基于 Ray 的融合计算引擎在生命科学领域的应用

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

CNBC专访分析：DeepSeek是中国的ChatGPT时刻，他们不是在复制，而是在创新

数智技术在游戏产业的应用实践

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

AI Infra：计算通信overlap实战分享

《黑神话：悟空》制作人冯骥推荐DeepSeek！

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

有数 ChatBI：大模型驱动下的数据分析技术探索和实践

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

数据要素时代的数据治理

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

HybridFlow：基于 Ray 构建灵活且高效的 RLHF 编程框架

提升Agent规划效率和准确率：COT planahead + Reflection

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

58同城灵犀大模型2024年进展总结

5步教你构建精准高效的企业指标体系

年末福利来袭！五本热门电子书限时免费领！

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

万字长文梳理基于LLM的Text-to-SQL发展进程

数据"入表"近百倍提升！Dataphin数据治理新范式探索

电子书上新 |《快手 BI 大数据分析场景性能优化实践》

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

数据集建设与合成数据

现代化实时数据仓库 SelectDB 产品全面解读

数据治理如何助力零售业降本增效？

电子书上新 |《快手 BI 大数据分析场景性能优化实践》

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

FP8 在大模型训练中的应用、挑战及实践

内容志愿者招募｜一月更新议题：数据与人工智能解决方案（内附2025年度会议排期）

AI Agent技术突破与创新应用

DeepSeekV3如何一次性预测多个token

电子书上新 |《快手 BI 大数据分析场景性能优化实践》

Flink CDC 3.3 核心特性解读

某大型制造集团的Power BI国产化替换实践

RAG+Agent:大模型应用搭建及在金融场景落地探索

电子书上新 |《快手 BI 大数据分析场景性能优化实践》

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉