硬刚OpenAI o1，DeepSeek开源R1，自带思维链能力，能够推理和解决复杂问题

职场 2025-01-21 07:20 河南

DeepSeek 隆重推出第一代推理模型 DeepSeek-R1 系列，包括 DeepSeek-R1-Zero 和 DeepSeek-R1。关键还开源了

还有目前的在线版也可以直接体验

在每一轮对话过程中，模型会输出思维链内容（reasoning_content）和最终回答（content）。在下一轮对话中，之前轮输出的思维链内容不会被拼接到上下文中，如下图所示

DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练而成的模型，其训练过程中未依赖监督微调（SFT）。该模型在推理任务上展现了卓越的性能，具备自我验证、反思和生成长链条推理等能力。然而，DeepSeek-R1-Zero 存在如无尽重复、可读性差及语言混杂等问题。

为解决这些问题并进一步提升推理性能，我们推出了 DeepSeek-R1。通过在强化学习之前引入冷启动数据，DeepSeek-R1 在数学、代码及推理任务上的表现已媲美 OpenAI-o1。

为支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1，以及基于 Llama 和 Qwen 系列从 DeepSeek-R1 蒸馏出的六个密集模型。特别是 DeepSeek-R1-Distill-Qwen-32B，其性能已超越 OpenAI-o1-mini，创下密集模型的新标杆。

模型概述

后期训练：在基础模型上进行大规模强化学习

我们直接对基础模型应用强化学习（RL），而不依赖监督微调（SFT）作为前置步骤。

这一方法使模型能够探索复杂问题的链式推理（CoT），从而发展出 DeepSeek-R1-Zero。该模型是首个完全通过 RL 激发推理能力的研究成果，证明了无需 SFT 即可激发大模型的推理能力。

为开发 DeepSeek-R1，我们设计了包含两个 RL 阶段和两个 SFT 阶段的流水线。RL 阶段旨在优化推理模式并与人类偏好对齐，SFT 阶段则作为模型推理和非推理能力的种子。

这一流水线为行业带来了全新思路，有助于开发更优质的模型。

蒸馏：小模型也能强大

我们验证了大型模型的推理模式可被蒸馏至小型模型中，且表现优于直接在小模型上通过 RL 训练的推理模式。
通过 DeepSeek-R1 生成的推理数据，我们对多个密集模型进行了微调，并开源了以下基于 Qwen2.5 和 Llama3 系列的蒸馏模型：

DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B

这些模型在评估中表现出色，为研究社区提供了高质量的小型模型。

模型下载

DeepSeek-R1 系列模型

模型名称	总参数量	激活参数量	上下文长度	下载链接
DeepSeek-R1-Zero	671B	37B	128K	🤗 HuggingFace
DeepSeek-R1	671B	37B	128K	🤗 HuggingFace

DeepSeek-R1-Distill 模型

模型名称	基础模型	下载链接
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama3.1-8B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama3.3-70B-Instruct	🤗 HuggingFace

评估结果

DeepSeek-R1 性能对比

DeepSeek-R1 系列模型在多个基准测试中均展现了领先性能，具体评估结果如下：

蒸馏模型性能对比

Chat 网站与 API 平台

您可以通过 DeepSeek 官方聊天平台 https://chat.deepseek.com 与 DeepSeek-R1 进行交互，并切换到 "DeepThink" 模式。

我们还提供 OpenAI 兼容的 API 服务，详情请访问 DeepSeek 平台 https://platform.deepseek.com。

本地运行指南

DeepSeek-R1 系列模型

请访问 DeepSeek-V3 仓库获取更多关于运行模型的信息。

DeepSeek-R1-Distill 模型

DeepSeek-R1-Distill 模型的使用方式与 Qwen 或 Llama 模型类似。例如，您可以通过以下命令快速启动服务：

使用 vLLM：

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

通过 SGLang 启动:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

最新国产的 AI 都很高产的，昨天字节也刚刚推了了一个全新的 AI IDE，直接对标 Cursor

欢迎关注 “AI智见录”，为您分享更多精彩 AI 内容。

期文章推荐

- 这是底线 -