用这一招，3090 轻松运行32B 模型！

旅行 2024-11-29 00:59 北京

GPU 低配党也能嗨起来了？

一直以来，运行大型语言模型都是高端显卡的专利。

但现在，这个局面似乎要被打破了！

最近，Reddit上一篇热门帖子引发了广泛讨论。有用户分享了一个令人兴奋的发现：

使用exllama v2，竟然可以在单张RTX 3090上运行32B参数的模型！

这是怎么做到的呢？

秘诀就在于exllama v2的一系列优化技术：

5位量化：大幅压缩模型体积
32K上下文：提供更长的对话能力
Q6缓存：平衡性能和内存占用
闪存注意力：加速计算过程
缓存量化：进一步节省内存

这些技术的组合，让原本只能在多卡或高端服务器上运行的大模型，现在可以在家用级别的显卡上流畅运行了。

但故事并未就此结束。

讨论中还出现了一些更有趣的观点：

性能之王RTX 4090：有用户表示，RTX 4090在处理提示词的速度上，竟然比苹果的M3 Max快了15.74倍！这个数据令人咋舌，不得不说，NVIDIA在AI领域确实实力强大。
平民之选Intel Arc A770：对于预算有限的用户来说，Intel的Arc A770系列显卡可能是个不错的选择。它们拥有较高的内存带宽，理论上更适合运行大型语言模型。不过，软件兼容性可能是个问题，需要用户权衡利弊。
软件优化的重要性：exllama v2的成功，再次证明了软件优化对于AI模型运行的重要性。通过精巧的算法和技术，我们可以让现有硬件发挥出更大的潜力。

这可是普通AI爱好者们的重大好消息啊！

以前需要花费数千美元才能体验的大模型，现在可能只需要一张RTX 3090就能搞定。

这大大降低了入门门槛，让更多人能够参与到AI的探索中来。

不过话说回来，虽然家用显卡现在能够运行32B模型，但在性能和稳定性上可能还无法与专业设备相比。

对于严肃的研究或商业应用，仍然需要更强大的硬件支持。

不过，这种平民化的趋势无疑是令人兴奋的。它意味着AI技术正在加速向普通用户渗透，未来可能会催生出更多有趣的应用和创新。

今天就写到这里，不说了，我要去给我那台落灰的4090开机了！

reddit 链接:

https://www.reddit.com/r/LocalLLaMA/comments/1h12cmq/cheapest_hardware_go_run_32b_models/

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453458270&idx=1&sn=6f370470530b7929de0043cc55ec31c4

AGI Hunt

关注AGI 的沿途风景！

用这一招，3090 轻松运行32B 模型！

Tesla Optimus 机械手升级至22个自由度，比你还要灵活！

全价版o1将定价每月2000美元，谁会为它买单？

重磅突破！ZipNN 可将模型大小压缩50%！

Qwen重磅发布QwQ推理模型，超越OpenAI o1

xAI要开游戏工作室了！马斯克：让游戏再次伟大！

OpenAI首席商务官：2025年将迈向第4、5级AGI！

苹果M4芯片硬刚RTX 3090！

刚刚，软银给OpenAI加注15亿美元，并允许员工套现！

小心！LLM 正偷偷黑进你的电脑！

英伟达发布音频模型Fugatto，可以学狗叫！

揭秘英伟达 A10 与 A10G 性能差异！

重磅！Reka AI 研究科学家Yi Tay正式宣布重返Google DeepMind！

JSON 才是大模型输出的噩梦？！

重磅！OpenAI 因盗用13万部影视训练模型而被诉！

OpenAI 即将带来的圣诞礼物：full o1、Sora还是Orion？

刚刚，苹果携手谷歌遭英国反垄断调查！

凉凉？！苹果计划于2026年启动大模型版Siri

Uber计划收购中国自动驾驶公司股份！

岌岌可危的摩尔定律，正被ASML 的EUV 光刻机续命！

Anthropic重磅发布MCP协议，或许这才是AGI的真正形态！

15分钟！用Windsurf完成markdown转换工具开发

4种提示词格式大PK：JSON最佳，且比Markdown准确率高两倍！

Cursor is AGI！

重磅！OpenAI推理AI霸主地位不保，新玩家纷纷入场

重磅！英伟达发布 H200 NVL！

年轻人们已陷入「AI 哀伤七阶段」

马斯克：人类文明只是宇宙的一瞬，我们必须成为多星球物种！

OpenAI 翻车，Whisper也会产生幻觉！

前谷歌CEO埃里克·施密特：脱缰的AI已近，但普通人尚未做好准备！

FridonAI：用AI驱动的加密货币分析工具！

Cursor 推出 v0.43，自动编程代理来了！

Gradio推出一键添加Logo魔法，开启品牌无限可能！

Grok 全新「专注模式」出炉，背后还隐藏着这些秘密！

FastBinaryEncoding——序列化格式王者来袭：秒杀JSON和Protobuf，性能提升10倍！

星际穿越TARS 开源！你也能拥有一个AI机器人了！

小心，你正在被AI 进行职场监控！

再也不能相信ChatGPT 写的代码了！

你知道吗？Qwen2VL可以一键重标注百万图片数据集

英伟达或成首个10万亿公司！

AI的下一个进化时代——后训练都有哪些开源项目？

ChatGPT 将推出屏幕分享功能！

GPT-4o 代码能力暴跌，开发者集体转投 Claude！

警惕AI投毒！ChatGPT 写的代码导致私钥被盗，损失数万元！

重磅！谷歌Gemini 2.0 将于12月第二周发布！

刚刚，苹果发布AIMv2，再次搅动视觉AI江湖！

DeepLearning.AI放大招：5大AI学习路线图，你的专属进阶之路！

人工智能正在取代人类的就业市场！

刚刚，美国司法部要求谷歌出售Chrome！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉