硬刚OpenAI o1,DeepSeek开源R1,自带思维链能力,能够推理和解决复杂问题

职场   2025-01-21 07:20   河南  

DeepSeek 隆重推出第一代推理模型 DeepSeek-R1 系列,包括 DeepSeek-R1-Zero 和 DeepSeek-R1。关键还开源了

还有目前的在线版也可以直接体验

在每一轮对话过程中,模型会输出思维链内容(reasoning_content)和最终回答(content)。在下一轮对话中,之前轮输出的思维链内容不会被拼接到上下文中,如下图所示

DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练而成的模型,其训练过程中未依赖监督微调(SFT)。该模型在推理任务上展现了卓越的性能,具备自我验证、反思和生成长链条推理等能力。然而,DeepSeek-R1-Zero 存在如无尽重复、可读性差及语言混杂等问题。

为解决这些问题并进一步提升推理性能,我们推出了 DeepSeek-R1。通过在强化学习之前引入冷启动数据,DeepSeek-R1 在数学、代码及推理任务上的表现已媲美 OpenAI-o1。

为支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1,以及基于 Llama 和 Qwen 系列从 DeepSeek-R1 蒸馏出的六个密集模型。特别是 DeepSeek-R1-Distill-Qwen-32B,其性能已超越 OpenAI-o1-mini,创下密集模型的新标杆。


模型概述

后期训练:在基础模型上进行大规模强化学习

我们直接对基础模型应用强化学习(RL),而不依赖监督微调(SFT)作为前置步骤。

这一方法使模型能够探索复杂问题的链式推理(CoT),从而发展出 DeepSeek-R1-Zero。该模型是首个完全通过 RL 激发推理能力的研究成果,证明了无需 SFT 即可激发大模型的推理能力。

为开发 DeepSeek-R1,我们设计了包含两个 RL 阶段和两个 SFT 阶段的流水线。RL 阶段旨在优化推理模式并与人类偏好对齐,SFT 阶段则作为模型推理和非推理能力的种子。

这一流水线为行业带来了全新思路,有助于开发更优质的模型。

蒸馏:小模型也能强大

我们验证了大型模型的推理模式可被蒸馏至小型模型中,且表现优于直接在小模型上通过 RL 训练的推理模式。
通过 DeepSeek-R1 生成的推理数据,我们对多个密集模型进行了微调,并开源了以下基于 Qwen2.5 和 Llama3 系列的蒸馏模型:

  • DeepSeek-R1-Distill-Qwen-1.5B
  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Llama-70B

这些模型在评估中表现出色,为研究社区提供了高质量的小型模型。


模型下载

DeepSeek-R1 系列模型

模型名称
总参数量
激活参数量
上下文长度
下载链接
DeepSeek-R1-Zero
671B
37B
128K
🤗 HuggingFace
DeepSeek-R1
671B
37B
128K
🤗 HuggingFace

DeepSeek-R1-Distill 模型

模型名称
基础模型
下载链接
DeepSeek-R1-Distill-Qwen-1.5B
Qwen2.5-Math-1.5B
🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B
Qwen2.5-Math-7B
🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B
Qwen2.5-14B
🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B
Qwen2.5-32B
🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B
Llama3.1-8B
🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B
Llama3.3-70B-Instruct
🤗 HuggingFace

评估结果

DeepSeek-R1 性能对比

DeepSeek-R1 系列模型在多个基准测试中均展现了领先性能,具体评估结果如下:

蒸馏模型性能对比


Chat 网站与 API 平台

您可以通过 DeepSeek 官方聊天平台 https://chat.deepseek.com 与 DeepSeek-R1 进行交互,并切换到 "DeepThink" 模式。

我们还提供 OpenAI 兼容的 API 服务,详情请访问 DeepSeek 平台 https://platform.deepseek.com


本地运行指南

DeepSeek-R1 系列模型

请访问 DeepSeek-V3 仓库 获取更多关于运行模型的信息。

DeepSeek-R1-Distill 模型

DeepSeek-R1-Distill 模型的使用方式与 Qwen 或 Llama 模型类似。例如,您可以通过以下命令快速启动服务:

使用 vLLM

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

通过 SGLang 启动:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

最新国产的 AI 都很高产的,昨天字节也刚刚推了了一个全新的 AI IDE,直接对标 Cursor

欢迎关注 “AI智见录”,为您分享更多精彩 AI 内容。

期文章推荐

  1. 直冲 Cursor!字节发布全新 AI IDE Trae,Claude-3.5 无限量免费用!

  2. Windsurf 新版本抢占高地,Cursor 说我又拿了 7 亿融资,谁会赢的未来?

  3. Qwen Chat 发布全新 Web UI!体验超棒!

  4. Roo Cline 3.0 重磅发布:人手一个架构师时代到来!

  5. Gemini 2.0 Flash + Cline 打造最强 0 元购组合!

  6. Cline 3.1 最新发布:体验感拉升一个新高度!

  7. 太火爆!Browser-Use WebUI 已被纳入 browser-use 麾下!

  8. Windsurf:唯一让 Cursor 瑟瑟发抖的最强对手!

  9. 一起来聊聊 Cursor、Copilot、Windsurf、V0...

  10. 我把最近爆火的 DeepSeek-V3 接到了 Cursor!

  11. Cursor Yolo 模式太棒了!

- 线 -

扫描以下二维码加小编微信,备注 “ai”,一起交流 AI 技术!

AI智见录
洞见AI前沿,分享技术与实践,助力智慧未来
 最新文章