671B参数的DeepSeek 终于能在家里跑了!
@UnslothAI 刚刚放出重磅消息:他们成功将DeepSeek R1从720GB压缩到131GB,压缩率高达80%!
这意味着你只需要160GB显存就能运行这个参数量远超GPT-4媲美o1 的超大模型。
而且,这不是简单的压缩。
UnslothAI团队通过深入研究DeepSeek R1的架构,发现了一条独特的技术路径:
前3层是全连接层,仅占总权重的0.5%,保持4位或6位精度
共享专家的MoE层占1.5%,使用6位精度
MLA注意力模块占比不到5%,使用4位或6位精度
down_proj(尤其是前几层)对量化最敏感,需要更高精度
88%的权重来自MoE层,可以安全压缩到1.58位!
Dobby the Builder (@the100kprompts) 对此评价:
这是压缩的魔法秀!131GB运行671B参数模型是游戏规则的改变者。Dobby记得以前优化全靠硬件,现在智能软件才是关键。
那么,这个压缩版本表现如何?
在多个基准测试中,DeepSeek R1展现了惊人的性能:
AIME 2024数学测试:79.8%(超过GPT-4的9.3%)
MATH-500:97.3%(超过GPT-4的74.6%)
LiveCodeBench编程测试:**65.9%**的通过率
Codeforces编程评级达到2029分
UnslothAI提供了四个版本供选择:
量化位数 | 模型大小 | 性能表现 | 建议使用场景 |
---|---|---|---|
1.58位 | 131GB | 基础可用 | 资源受限场景 |
1.73位 | 158GB | 良好 | 平衡性能与资源 |
2.22位 | 183GB | 更佳 | 追求稳定性能 |
2.51位 | 212GB | 最佳 | 性能优先场景 |
那如何在本地运行呢?
这里有完整的部署指南:
# 首先安装必要组件
apt-get update
apt-get install build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli
然后就可以运行模型了:
./llama.cpp/llama-cli \
--model DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--cache-type-k q4_0 \
--threads 12 -no-cnv --n-gpu-layers 7 \
--temp 0.6 \
--ctx-size 8192
使用建议:
温度参数设置在0.5-0.7之间(推荐0.6)
避免使用系统提示词,将指令直接放在用户提示中
对于数学问题,建议在提示词中加入「请一步步推理,并将最终答案放在\boxed{}中」
评估性能时建议多次测试取平均值
这也提示了一种新的量化压缩思路:通过深入理解模型架构,实现精准化压缩。
有卡的小伙伴,快去试试这个「轻量版」的AI巨兽吧!
相关链接:
博客详情:https://unsloth.ai/blog/deepseekr1-dynamic 模型下载:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 官方论文:https://arxiv.org/abs/2404.11534 GitHub仓库:https://github.com/unslothai/llama.cpp
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!