首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

怎么计算跑LLM服务需要多大显存的GPU

科技 2024-12-27 22:33 浙江

LLama 70B模型进行推算需要多少GPU显存呢？可以按图中的公式进行计算：

对于70B模型：

P = 70 （70B的参数量）
4B = 4字节/参数
Q = 16 （假设使用16位/FP16）
1.2是20%的内存开销因子

代入公式：
M = (70 * 4) / (32/16) * 1.2 = 280 / 2 * 1.2 = 140 * 1.2 = 168 GB显存

所以，运行LLama 70B模型大约需要168GB显存。考虑到目前主流的数据中心GPU，比如A100（80GB）或H100（80GB），所以至少需要3张GPU卡做并行计算才能完整加载这个模型。

当然，通过一些优化技术（比如QLoRA）可以大幅降低显存需求，这是最基本的显存计算公式。如果考虑上下文大小和高速缓存机制则需要更多的显存才能运行。

参考文献：
[1] https://weibo.com/1402400261/P6OtPw9hx

欢迎支持我的知识星球（NLP工程化）：Dify源码剖析及答疑，Dify对话系统源码，电子书籍报告下载，公众号所有付费资料。若微信群二维码过期，则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

5ire：一款跨平台的LLM桌面客户端

AI读书利器：PDF智能阅读与知识提取工具

AI模型接口管理与分发系统，支持将多种大模型转为OpenAI格式调用

ExtractThinker 是一个灵活的文档智能工具

Anki AI Utils：一套能让你的复习事半功倍的AI工具集

厦大和网易开源的一款统一的故事可视化AI模型：StoryWeaver

NuxtBase 为付费用户提供了一个免费的 Dify 应用模板

Python 项目工程化开发指南

Tiny LLM zh：从零开始的小参数量中文大语言模型

TTPlanetPig Comfyui_TTP_Toolset：提供了一个用于图像平铺和高级控制修改

RVC3-python：《机器人学、视觉与控制（第三版）》的Python代码实例库

南京大学的计算机问题求解课程wiki

讨论如何复现OpenAI的o1模型的论文

一款适合需要实时数据处理或构建AI应用场景的数据处理工具：Pathway

《算法（第4版）》一书中用现代C++实现的算法代码库

语音转博客工具：Robo Blogger，它会自动把你说的内容形成博客文章

LOTUS 数据处理神器：用大型语言模型（LLM）轻松处理数据

FastVideo，用于加速大型视频扩散模型的开源框架

一款在浏览器本地自动实时语音识别系统：Moonshine Web

LLM Confabulation Benchmark：减少产生不存在答案（幻觉或虚构）能力评估工具

一篇以浅显易懂地方式介绍图神经网络（GNNs）的文章

A Survey on LLM Inference-Time Self-Improvement

elizaOS agent-twitter-client：一款无需API密钥的Twitter客户端

《RAG-Driven Generative AI》随书代码

Parlant：面向客户服务的大型语言模型（LLM）智能Agent的行为控制系统

YuLan-Mini：数据高效的开源语言模型

Aria-UI：视觉定位GUI指令，一款能够理解和执行图形用户界面指令的智能工具

RAG应用的日志记录工具：RAG Logger

AIGC工具导航：AI工具大全，分类清晰，应有尽有

smol agents：让AI Agent变得超简单

实用开源的 Chrome 插件：FastURL通过快捷键粘贴到网页正文 Markdown 格式的内容

推荐 GitHub 上一个可用于抓取和分析 X (Twitter) 推友数据的工具：x-kit

awesome-llm-apps，精选的 LLM 应用集合

AI工程领域的50篇论文、模型和博客文章

一些OI（信息学奥林匹克竞赛）课件

OrionChat：一个简化与多个AI模型提供商交互的网页聊天界面

专家混合研究库：汇集了关于专家混合（Mixture of Experts）最新研究的精选论文和资源

基于DeepSeek v3 API的一个编程助手

BetterWhisperX：自动语音识别工具WhisperX改进版

个英伟达（NVIDIA）开源的 LLMs 漏洞扫描工具：garak

Triton Deja-vu：旨在将 Triton-lang 自动调优开销降至零的框架

Context is Key：一个基于关键文本信息进行预测的基准测试平台

教程：如何编写一个虚拟机（只用大约 250 行C语言代码）

基于Vision LLM把PDF转为Markdown的一款工具：vision-parse

微软开源的一个视频分词器：VidTok

怎么计算跑LLM服务需要多大显存的GPU

推荐 GitHub 上一款高颜值的可视化实时监控工具：Checkmate

PeterCat：GitHub项目库的智能问答机器人

新书《通用人工智能导论》

电子书《Elements of Data Science》

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉