LLama 70B模型进行推算需要多少GPU显存呢?可以按图中的公式进行计算:
对于70B模型:
P = 70 (70B的参数量) 4B = 4字节/参数 Q = 16 (假设使用16位/FP16) 1.2是20%的内存开销因子
代入公式:
M = (70 * 4) / (32/16) * 1.2
= 280 / 2 * 1.2
= 140 * 1.2
= 168 GB显存
所以,运行LLama 70B模型大约需要168GB显存。考虑到目前主流的数据中心GPU,比如A100(80GB)或H100(80GB),所以至少需要3张GPU卡做并行计算才能完整加载这个模型。
当然,通过一些优化技术(比如QLoRA)可以大幅降低显存需求,这是最基本的显存计算公式。如果考虑上下文大小和高速缓存机制则需要更多的显存才能运行。
参考文献:
[1] https://weibo.com/1402400261/P6OtPw9hx
欢迎支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。若微信群二维码过期,则加微信buxingtianxia21进群。
NLP工程化知识星球
NLP工程化资料群