怎么计算跑LLM服务需要多大显存的GPU

科技   2024-12-27 22:33   浙江  

LLama 70B模型进行推算需要多少GPU显存呢?可以按图中的公式进行计算:

对于70B模型:

  • P = 70 (70B的参数量)
  • 4B = 4字节/参数
  • Q = 16 (假设使用16位/FP16)
  • 1.2是20%的内存开销因子

代入公式:
M = (70 * 4) / (32/16) * 1.2 = 280 / 2 * 1.2 = 140 * 1.2 = 168 GB显存

所以,运行LLama 70B模型大约需要168GB显存。考虑到目前主流的数据中心GPU,比如A100(80GB)或H100(80GB),所以至少需要3张GPU卡做并行计算才能完整加载这个模型。

当然,通过一些优化技术(比如QLoRA)可以大幅降低显存需求,这是最基本的显存计算公式。如果考虑上下文大小和高速缓存机制则需要更多的显存才能运行。

参考文献:
[1] https://weibo.com/1402400261/P6OtPw9hx



欢迎支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。若微信群二维码过期,则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

NLP工程化
专注于对话系统领域的技术分享,重点写《Dify应用操作和源码剖析》专栏。
 最新文章