如何估算LLM推理和训练所需的GPU内存？

科技 2024-09-03 00:03 北京

作者：孙鹏飞，南京大学 · 计算机科学与技术
原文：https://zhuanlan.zhihu.com/p/716317173

在实际工作中，经常有人问，7B、14B或70B的模型需要多大的显存才能推理？如果微调他们又需要多大的显存呢？为了回答这个问题整理一份训练或推理需要显存的计算方式。如果大家对具体细节不感兴趣，可以直接参考经验法则评估推理或训练所需要的资源。更简单的方式可以通过这个工具[1]或者huggface官网计算推理/训练需要的显存工具[2]在线评估。

数据精度

开始介绍之前，先说一个重要的概念——数据精度。数据精度指的是信息表示的精细程度，在计算机中是由数据类型和其位数决定的。如果想要计算显存，从“原子”层面来看，就需要知道我们的使用数据的精度，因为精度代表了数据存储的方式，决定了一个数据占多少bit。目前，精度主要有以下几种：

• 4 Bytes: FP32 / float32 / 32-bit
• 2 Bytes: FP16 / float16 / bfloat16 / 16-bit
• 1 Byte: int8 / 8-bit
• 0.5 Bytes: int4 / 4-bit

经验法则

• 推理: 参数量 * 精度。

例如，假设模型都是16-bit权重发布的，也就是说一个参数消耗16-bit或2 Bytes的内存，模型的参数量为70B，基于上述经验法则，推理最低内存需要70B * 2Bytes = 140G。

• 训练: 4 - 6 倍的推理资源。

推理

在模型推理阶段，需要的资源主要有三部分：模型的权重、KV Cache和激活（在推理过程中创建的张量）。

模型权重

加载模型权重（即模型大小）占用资源主要依赖于模型的参数量和精度。其中，参数量基本不变，精度可以通过模型量化技术进行优化。尽管量化会影响模型的性能，但相比于选择更高精度的小模型来说，量化技术更受青睐。

公式：模型的大小 = 模型的参数量 * 精度

null — 十亿参数模型在 32 位、16 位和 8 位精度下所需的近似 GPU 内存[2]

KV Cache

在Transformer的解码阶段，每次推理生成一个token，依赖于之前的token结果，如果每次都对所有token重新计算一次，代价非常大。为了避免重新计算，通过KV Cache技术将其缓存到GPU内存中。

公式：KV Cache = 2 * Batch Size * Sequence Length * Number of Layers * Hidden Size * Precision

注意：第一个因子2解释了K和V矩阵。通常，在Transformer中，Hidden Size和Number of Layers的值可以在模型相关的配置文件中找到。

激活内存

在模型的前向传播过程中，必须存储中间激活值。这些激活值代表了神经网络中每层的数据在向前传播时的输出。它们必须保持为 FP32 格式，以避免数值爆炸并确保收敛。

公式：Activation Memory = Batch Size * Sequence Length * Hidden Size * (34 + (5 * Sequence Length * Number of attention heads) / (Hidden Size))

训练

训练阶段所需的资源，除了上述介绍的模型权重、KV Cache和激活内存之外，还需要存储优化器和梯度状态，因此，训练比推理需要更多的资源。

优化器内存

优化器需要资源来存储参数和辅助变量。这些变量包括诸如Adam或SGD等优化算法使用的动量和方差等参数。这取决于优化状态的数量及其精度。例如，AdamW优化器是最流行的微调llm，它为模型的每个参数创建并存储2个新参数。如果我们有一个70B的模型，优化器将创建140B的新参数！假设优化器的参数为float32，即每个参数占用4字节的内存。优化器至少需要 140B * 4 Bytes = 516 G的资源。

其中，不同优化器的状态数量如下：

• AdamW (2 states): 8 Bytes per parameter
• AdamW (bitsandbytes Quantized): 2 Bytes per parameter
• SGD (1 state): 4 Bytes per parameter

梯度

在模型的反向传播过程中计算梯度值。它们表示损失函数相对于每个模型参数的变化率，对于在优化过程中更新参数至关重要。作为激活值，它们必须存储在 FP32 中以保持数值稳定性。因此，每个参数占用4字节的内存。例如，一个70B的模型，计算梯度所需的内存需要 70B * 4 Bytes = 280 G左右。

总结

在本文中，我们介绍的评估方法，都是基于Transformer架构推算的，该评估方法不适合Transformer以外的其他体系结构。同时，目前存在大量的框架、模型和优化技术，估计运行大型语言模型的确切内存可能很困难。然而，本文可作为估计执行 LLM 推理和训练所需内存资源的起点。

引用链接

[1] 这个工具: https://llm-system-requirements.streamlit.app/
[2] huggface官网计算推理/训练需要的显存工具: https://huggingface.co/spaces/hf-accelerate/model-memory-usage

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247545962&idx=4&sn=ad8bc74f75d941043b9ca3137f420b2e

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

硕博招生将启！AI排名跻身前15，全球首所人工智能大学MBZUAI实力大增

谷歌女高管被裁员，3份兼职越干越开心！55岁正是闯的年纪！

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

痛惜！张祺乐副教授离世，年仅38岁……

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

OpenAI o1 self-play RL 技术路线推演

大模型千卡训练指南

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

[送5本]《架构思维：从程序员到CTO》揭秘程序员如何培养架构思维！

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

对大模型演进方向的思考

52k star，北大内疯传《大学生CS自救指南》免费分享

被美国“制裁”的中国大学名单。。。

o1基石论文火爆传阅，Ilya仍是关键先生！核心项目清北校友闪光

技术上，如何复现 o1?

前英伟达科学家Anima Anandkumar斯坦福大学演讲，用实际案例揭示AI在这些领域的巨大潜力

10w网友点赞！清华大学《大模型研讨课》免费分享

36岁当上985高校院长！女教授称“最强大的背景”是......

吴恩达力荐LangChain经典课程-《LangChain大型语言模型(LLM)应用开发》免费分享

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

大模型千卡训练-经验指北

如何用1024张显卡训练一个模型

Github 13w Star，吴恩达强推《ChatGPT提示词工程》课程视频、配套代码及笔记分享

2024最新版，人大赵鑫老师《大语言模型》新书pdf分享

对大模型演进方向的思考！

李飞飞任CEO，空间智能公司World Labs亮相，全明星阵容曝光

张俊林-浅谈OpenAI o1的价值意义及RL 的Scaling Law

8月最新大模型新书-《自然语言处理：大模型理论与实践》西财赵宇教授新作

54K收藏神书-《Prompt 学习指南》中文版免费分享

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

MOE vs MOT 让LLM更加有效

[送5本] 千问 | 面壁等团队强推《大型语言模型实战指南》新书分享

RWKV作者对OpenAI 发布 o1 系列模型的看法，很深刻

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

下载量超5w！机器学习入门圣经《机器学习导论》最新第四版PDF免费分享

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

中科院提出大模型“基准泄露”排行榜，Qwen模型位居榜首

2024年新书-《掌握大语言模型》免费pdf分享

13万下载，亚马4.8高分，麻省开源《理解深度学习》分享！

麻省理工开源：《理解深度学习》，中文版来了！

下一代RAG：MemoRAG

华为三折叠手机19999元起！全展开10.2寸大屏3.6mm厚度，电池只留1.9mm

【包教包会】速通LLM《从头开始构建大型语言模型》免费pdf分享

Andrej Karpathy：自动驾驶已经实现 AGI，汽车其实就是机器人

Transformer已经彻底凉凉了！

2024最新版，人大赵鑫老师《大语言模型》新书pdf分享

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉