DeepSeek 隆重推出第一代推理模型 DeepSeek-R1 系列,包括 DeepSeek-R1-Zero 和 DeepSeek-R1。关键还开源了
还有目前的在线版也可以直接体验
在每一轮对话过程中,模型会输出思维链内容(reasoning_content)和最终回答(content)。在下一轮对话中,之前轮输出的思维链内容不会被拼接到上下文中,如下图所示
DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练而成的模型,其训练过程中未依赖监督微调(SFT)。该模型在推理任务上展现了卓越的性能,具备自我验证、反思和生成长链条推理等能力。然而,DeepSeek-R1-Zero 存在如无尽重复、可读性差及语言混杂等问题。
为解决这些问题并进一步提升推理性能,我们推出了 DeepSeek-R1。通过在强化学习之前引入冷启动数据,DeepSeek-R1 在数学、代码及推理任务上的表现已媲美 OpenAI-o1。
为支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1,以及基于 Llama 和 Qwen 系列从 DeepSeek-R1 蒸馏出的六个密集模型。特别是 DeepSeek-R1-Distill-Qwen-32B,其性能已超越 OpenAI-o1-mini,创下密集模型的新标杆。
模型概述
后期训练:在基础模型上进行大规模强化学习
我们直接对基础模型应用强化学习(RL),而不依赖监督微调(SFT)作为前置步骤。
这一方法使模型能够探索复杂问题的链式推理(CoT),从而发展出 DeepSeek-R1-Zero。该模型是首个完全通过 RL 激发推理能力的研究成果,证明了无需 SFT 即可激发大模型的推理能力。
为开发 DeepSeek-R1,我们设计了包含两个 RL 阶段和两个 SFT 阶段的流水线。RL 阶段旨在优化推理模式并与人类偏好对齐,SFT 阶段则作为模型推理和非推理能力的种子。
这一流水线为行业带来了全新思路,有助于开发更优质的模型。
蒸馏:小模型也能强大
我们验证了大型模型的推理模式可被蒸馏至小型模型中,且表现优于直接在小模型上通过 RL 训练的推理模式。
通过 DeepSeek-R1 生成的推理数据,我们对多个密集模型进行了微调,并开源了以下基于 Qwen2.5 和 Llama3 系列的蒸馏模型:
DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Llama-70B
这些模型在评估中表现出色,为研究社区提供了高质量的小型模型。
模型下载
DeepSeek-R1 系列模型
DeepSeek-R1-Distill 模型
评估结果
DeepSeek-R1 性能对比
DeepSeek-R1 系列模型在多个基准测试中均展现了领先性能,具体评估结果如下:
蒸馏模型性能对比
Chat 网站与 API 平台
您可以通过 DeepSeek 官方聊天平台 https://chat.deepseek.com
与 DeepSeek-R1 进行交互,并切换到 "DeepThink" 模式。
我们还提供 OpenAI 兼容的 API 服务,详情请访问 DeepSeek 平台 https://platform.deepseek.com
。
本地运行指南
DeepSeek-R1 系列模型
请访问 DeepSeek-V3 仓库 获取更多关于运行模型的信息。
DeepSeek-R1-Distill 模型
DeepSeek-R1-Distill 模型的使用方式与 Qwen 或 Llama 模型类似。例如,您可以通过以下命令快速启动服务:
使用 vLLM:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
通过 SGLang 启动:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
最新国产的 AI 都很高产的,昨天字节也刚刚推了了一个全新的 AI IDE,直接对标 Cursor
欢迎关注 “AI智见录”,为您分享更多精彩 AI 内容。
期文章推荐
扫描以下二维码加小编微信,备注 “ai”,一起交流 AI 技术!