[牛逼]在古老的 4GB GPU 上运行新的开源 LLM 之王 QWen2.5

文摘 2025-01-06 23:27 北京

开源 LLM 新王者：QWen 2.5 72B

在令人惊叹的一夜之间开发中，最强大的开源模型的桂冠已经易手。

阿里巴巴发布的 Qwen 2.5 模型，尤其是其 72B 版本，在 AI 领域树立了新的标杆。

该模型在 MMLU、MATH 和 MBPP 等大多数评估指标上优于 Llama3 405B，甚至在某些指标上超过了 GPT-4。

X.com 对 Qwen 2.5 的炒作如火如荼，因为全球用户都无法停止谈论这个新的 AI 强国：

今天，我接受了一项大胆的挑战：在我不起眼的 4GB GPU 上运行这个 72B 庞然大物，无需量化或压缩。

挑战：我的 4GB GPU 能处理吗？

虽然 A100 和 H100 是不错的选择，但我的预算限制了我使用旧的 4GB GPU。

直接运行模型的初始尝试会导致预期的内存不足错误：

了解规模

72B Qwen 模型在 80 层的 18T 令牌上进行了训练，需要大约 37 个 4GB GPU 才能完全加载。我们缺少 36 个 GPU，这是一个相当大的差距！

解决方案：逐层推理

在有限的硬件上运行如此大型模型的关键在于逐层推理。我们不是将整个 80 层模型加载到 VRAM 中，而是一次只加载和处理一个层：

将第一层加载到 VRAM 中
通过此层处理输入
将输出移动到 CPU 内存
清除 GPU 内存
加载下一层并重复

这种方法大大降低了最大 VRAM 使用率，从而可以在 4GB GPU 上运行模型。

AirLLM 简介

为了实现此解决方案，我开发了一个名为 AirLLM 的开源项目。它不仅支持 Qwen 2.5，还支持 Llama3 400B、Mixtral 等大型模型。下面是一个简单的代码片段来演示它的用法：

from airllm import AutoModel

MAX_LENGTH = 128
model = AutoModel.from_pretrained("Qwen/Qwen2.5-72B-Instruct")

input_text = [
    'What is the capital of United States?',
]

input_tokens = model.tokenizer(input_text,
    return_tensors="pt", 
    return_attention_mask=False, 
    truncation=True, 
    max_length=MAX_LENGTH, 
    padding=False)

generation_output = model.generate(
    input_tokens['input_ids'].cuda(), 
    max_new_tokens=20,
    use_cache=True,
    return_dict_in_generate=True)

output = model.tokenizer.decode(generation_output.sequences[0])

print(output)

它是完全开源的。AirLLM 还支持运行其他超大型 LLM 模型，包括 Mixtral 和 Llama3 405B。您可以在 github repo 中找到 AirLLM。

限制和用例

需要注意的是，虽然 4GB GPU 可以运行模型，但速度不会很快。此设置不适用于实时聊天机器人场景，但非常适合异步数据处理任务。

开源 AI 的未来

作为一名 AI 企业家，我很高兴能分享这些深入的 AI 技术和对 AI 行业发展的见解。我将继续发布关于 AI 和创业的有趣观察和想法。

欢迎关注并参与讨论！请记住，AirLLM 的代码可在 GitHub 上找到。

无论您使用的是 Qwen 2.5 72B、Llama3 405B 还是 Mixtral，AirLLM 都可以帮助您在消费级硬件上运行这些模型。让我们继续突破 AI 的极限！

处芯积律

处芯积律，而后知所至。一个芯片人的技术和行业研究分享。

最新文章

2025年，芯片行业发展的主战场在互联网，在车企等科技巨头公司！

欢迎加入2026届校招交流群

闲聊内存模型(Memory Model)

分析了上百个高薪IC岗位，看看这些岗位要求你满足了吗？

欢迎加入2026届校招交流群

[牛逼]在古老的 4GB GPU 上运行新的开源 LLM 之王 QWen2.5

深入理解DDR：DDR3的运行全流程

欢迎加入2026届校招交流群

Formal学习笔记之算法基础

一核有难，九核围观？一文带你了解多核SoC设计

欢迎加入2026届校招交流群

Linux: 使用最基础命令实现16进制转2进制

有哪些比较经典的IC书籍可以推荐？

ICer工作4~5年，薪资差距开始拉大！

6000纳米工艺！回顾50年前的最牛CPU

处芯积律2024年ICer就业报告即将出炉！

Perl和Python脚本轻量又实用的调试工具

处芯积律2024年ICer就业报告即将出炉！

深入理解AXI协议中Atomic传输

VCS编译选项：-y 及+libext+

systemverilog：logic比reg更有优势

如何将SVA集成到设计中

STA工程师的成长之路

linux diff的基本用法介绍

处芯积律对IC新人的一些提醒和建议

深入了解PCIe协议

后端设计PG liberty的作用和增量式生成

IC本科生除了考研，能找到工作吗？

verification plan和test plan有什么区别？

初识interface class

一名工作11年老IC工程师的未来之路探讨

新能源车载芯片简介

去海思，昆仑芯还是去读博？

vim进阶: 修改匹配关键字，让编码更高效

ICer跳槽都看重哪方面？

设计模式在芯片验证中的应用——状态

PCIe 知识点：TLP Byte Enables rules

一文读懂Cache一致性原理

Serdes：channel类型有哪些

除了28所微电子示范学校，还有哪些学校IC就业比较强？

SystemVerilog断言中的空成功

最近这么多企业在招射频工程师？

让ChatGPT面试数字IC验证岗位，能拿到offer吗？

IC企业校招喜欢哪些学校？

[达摩院社招内推]招聘大量IC验证工程师！

linux命令：setsid让进程持续运行

著名芯片设计公司分布在哪些国家？

人人都是架构师

最近两周有哪些模拟芯片公司在招人？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉