论文解读GRPO

文摘 2025-01-24 12:47 上海

论文解读GRPO

# 文章推荐 #

文章名称：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

文章链接：https://arxiv.org/pdf/2402.03300

github链接：https://github.com/deepseek-ai/DeepSeek-Math

这篇论文的题目是《DeepSeekMath: 探索开放语言模型中的数学推理极限》。

首先，论文主要讲的是一个叫做DeepSeekMath 7B的模型。这个模型是基于一个叫做DeepSeek-Coder-Base-v1.5 7B的模型进行优化的。优化的方法是通过在预训练过程中加入大量的数学相关数据，这些数据是从一个叫做Common Crawl的公开数据集中筛选出来的，总共有1200亿个与数学相关的标记或术语。此外，模型还结合了自然语言数据和代码数据。

接下来，论文提到DeepSeekMath 7B在数学推理方面表现非常出色。它在MATH基准测试中取得了51.7%的准确率，这个基准测试的难度相当于竞赛级别的数学题。而且，这个模型在不使用外部工具包和投票技术的情况下，表现已经接近甚至可以媲美像Gemini-Ultra和GPT-4这样的先进模型。

论文还提到，DeepSeekMath 7B通过一种叫做Self-consistency的方法，在64个样例上达到了60.9%的准确率。这种方法可以帮助模型在数学推理过程中更加一致和准确。

那么，为什么DeepSeekMath 7B会有这么好的表现呢？论文总结了两个主要原因：

第一，模型通过一个精心设计的数据筛选管道，充分利用了公开可用的网络数据。这意味着模型可以从大量的数学相关数据中学习到更多的数学知识和推理能力。

第二，论文引入了一种叫做Group Relative Policy Optimization (GRPO)的新算法。这是一种基于Proximal Policy Optimization (PPO)的优化方法，可以在提升数学推理能力的同时，优化模型的内存使用效率。

1 Introduction

首先，论文提到大型语言模型在几何推理基准测试中的应用，并指出这些模型在帮助人类解决复杂数学问题方面非常有用。然而，目前公开可用的数学推理模型性能有限，而像Gemini-Ultra和GPT-4这样的先进模型虽然性能优越，但并未公开。

在本研究中，我们引入了DeepSeekMath，这是一个专门针对数学领域的语言模型，其性能远超开源模型，并在学术基准测试中接近GPT-4的水平。为了实现这一点，我们创建了DeepSeekMath语料库，这是一个包含1200亿个数学标记的高质量预训练数据集，从Common Crawl中筛选而来。在初始阶段，我们使用OpenWebMath作为正样本，同时引入其他网页作为负样本。随后，我们利用分类器从Common Crawl中挖掘更多正样本，并通过人工标注进一步优化数据集。实验结果表明，该大规模语料库质量较高，我们的基础模型DeepSeekMath-Base 7B在GSM8K上达到了64.2%的准确率，在竞赛级别的MATH数据集上达到了36.2%，超过了Minerva 540B。

此外，DeepSeekMath语料库是多语言的，因此我们在中文数学基准测试中也观察到了性能提升。我们认为，我们在数学数据处理方面的经验对研究社区具有重要意义，并且未来还有很大的改进空间。

DeepSeekMath-Base基于DeepSeek-Coder-Base-v1.5 7B构建，因为我们发现从代码训练模型比从通用语言模型开始更有效。此外，我们观察到数学训练不仅增强了模型的数学能力，还在MMLU和BBH基准测试中提升了其通用推理能力。

经过预训练后，我们对DeepSeekMath-Base进行了数学指令微调，结合链式思维、程序思维和工具集成推理数据。最终得到的模型DeepSeekMath-Instruct 7B在7B规模的模型中表现最佳，并与70B规模的开源指令微调模型相媲美。

此外，我们引入了组相对策略优化（Group Relative Policy Optimization，GRPO）。GRPO无需使用批评模型，而是通过组内评分估计基线，显著减少了训练资源。仅使用一部分英语指令微调数据，GRPO就在DeepSeekMath-Instruct的基础上实现了显著提升，包括在领域内和领域外任务中。基于此统一范式，我们发现所有这些方法都可以被视为直接或简化的强化学习技术。我们还进行了大量实验，例如在线与离线训练、结果与过程监督、单轮与迭代强化学习等，以深入探讨该范式的关键要素。最后，我们解释了为什么强化学习能提升指令微调模型的性能，并总结了在此统一范式下实现更有效强化学习的潜在方向。

1.1. Contributions

论文的贡献包括数学预训练的扩展和强化学习的探索与分析。

Math Pre-Training at Scale

1. 我们的研究有力证明了公开可用的Common Crawl数据中包含有价值的数学信息。通过精心设计的数据选择管道，我们成功构建了DeepSeekMath语料库，这是一个从网页中筛选出数学内容的高质量数据集，包含1200亿个标记，是Minerva使用的数学网页的近7倍，也是最近发布的OpenWebMath的9倍。

2. 我们的基础模型DeepSeekMath-Base 7B在GSM8K上达到了64.2%的准确率，在MATH数据集上达到了36.2%，与Minerva 540B相当，表明参数数量并非数学推理能力的唯一关键因素。预训练在高质量数据上的小型模型也可以表现出色。

3. 我们分享了数学训练实验的经验。代码训练在数学训练之前可以提高模型解决数学问题的能力，无论是否使用工具。这为长期问题“代码训练是否能提高推理能力？”提供了一个部分答案，我们认为至少在数学推理方面是肯定的。

4. 尽管在arXiv论文上进行训练在许多数学相关论文中很常见，但在本论文中采用的所有数学基准测试中并未带来显著改进。

Exploration and Analysis of Reinforcement Learning

1. 我们引入了组相对策略优化（GRPO），这是一种高效且有效的强化学习算法。GRPO无需使用批评模型，而是通过组内评分估计基线，与近端策略优化（PPO）相比，显著减少了训练资源。

2. 我们证明了仅使用指令微调数据，GRPO就能显著提升DeepSeekMath-Instruct的性能，并在强化学习过程中观察到领域外性能的提升。

3. 我们提供了一个统一的范式来理解不同的方法，如RFT、DPO、PPO和GRPO。我们还进行了大量实验，例如在线与离线训练、结果与过程监督、单轮与迭代强化学习等，以深入探讨该范式的关键要素。

4. 基于统一范式，我们探讨了强化学习有效性的原因，并总结了在此基础上实现更有效强化学习的潜在方向。

1.2. Summary of Evaluations and Metrics

English and Chinese Mathematical Reasoning

我们对模型进行了全面的评估，涵盖从中学到大学水平的数学问题。英语基准测试包括GSM8K、MATH、SAT、OCW Courses、MMLU-STEM，中文基准测试包括MGSM-zh、CMATH、Gaokao-MathCloze和Gaokao-MathQA。我们评估了模型生成自包含文本解答的能力，以及使用Python解决问题的能力。

在英语基准测试中，DeepSeekMath-Base与闭源的Minerva 540B相当，并且在开源模型中表现最佳，无论这些模型是否经过数学预训练。在中文基准测试中，DeepSeekMath-Base表现尤为出色，这可能是因为我们没有像之前的工作那样仅收集英语数学预训练数据，而是也包含了高质量的非英语数据。通过数学指令微调和强化学习，DeepSeekMath-Instruct和DeepSeekMath-RL在竞赛级别的MATH数据集上达到了超过50%的准确率，这是开源社区中的首次。

Formal Mathematics

我们使用miniF2F上的非形式化到形式化定理证明任务评估了DeepSeekMath-Base，选择了Isabelle作为证明助手。DeepSeekMath-Base在少样本自动形式化方面表现强劲。

Natural Language Understanding, Reasoning, and Code

为了全面评估模型的通用理解、推理和编码能力，我们在Massive Multitask Language Understanding（MMLU）上进行了评估，涵盖57个多项选择任务，涉及多个学科；在BIG-Bench Hard上进行了评估，包含23个需要多步推理解决的具有挑战性的任务；以及在HumanEval和MBPP上进行了评估，这些是广泛用于评估代码语言模型的任务。数学预训练对语言理解、推理和编码性能都有益处。

2 Math Pre-Training

2_1. 数据收集与净化

在这一部分，作者详细介绍了如何从Common Crawl中构建DeepSeekMath语料库。Common Crawl是一个包含大量网络数据的公开数据集，但其中包含了大量的非数学内容。为了构建高质量的数学语料库，作者设计了一个迭代的数据收集管道。

首先，作者选择了OpenWebMath作为初始的种子语料库。OpenWebMath是一个高质量的数学相关文本集合。然后，作者使用fastText模型来训练一个分类器，用于从Common Crawl中筛选出更多的数学网页。具体来说，作者从种子语料库中随机选择500,000条数据作为正样本，同时从Common Crawl中选择500,000条数据作为负样本。fastText模型的参数设置如下：

- 向量维度：256

- 学习率：0.1

- 单词n-gram的最大长度：3

- 最小单词出现次数：3

- 训练轮数：3

为了减少Common Crawl的规模，作者采用了基于URL的去重和近重复消除技术，最终得到了400亿个HTML网页。然后，作者使用训练好的fastText模型从去重后的Common Crawl中筛选出数学网页。为了过滤掉低质量的数学内容，作者根据fastText模型的预测分数对收集到的网页进行排序，并只保留排名靠前的网页。作者评估了保留的前400亿、800亿、1200亿和1600亿标记的数据，并在第一次迭代中选择了前400亿标记的数据。

经过第一次数据收集后，仍然有很多数学网页没有被收集到，主要原因是fastText模型是基于一组正样本训练的，这些正样本缺乏多样性。因此，作者采取了另一种方法来丰富种子语料库。具体来说，作者将整个Common Crawl划分为互不相交的领域，一个领域定义为具有相同基础URL的网页集合。对于每个领域，作者计算在第一次迭代中被收集的网页比例。如果某个领域的网页中有超过10%被收集，那么这个领域被标记为与数学相关的领域（例如mathoverflow.net）。然后，作者手动标注这些领域中与数学内容相关的URL（例如mathoverflow.net/questions）。与这些URL相关但未被收集的网页将被添加到种子语料库中。这种方法使得作者能够收集到更多的正样本，从而训练出一个改进的fastText模型，以便在后续的迭代中收集更多的数学数据。经过四次迭代后，作者最终收集到了3550万个数学网页，总计1200亿标记。

为了避免基准测试污染，作者采用了Guo等人、MATH和中文基准（如CMATH和AGIEval）中使用的过滤标准。具体来说，任何包含与评估基准文本10-gram子字符串完全匹配的文本片段都会被从数学训练语料库中移除。对于长度小于10的基准文本，但至少有3个字符的文本，作者采用精确匹配的方法来过滤被污染的网页。

2_2 验证DeepSeekMath语料库的质量

为了验证DeepSeekMath语料库的质量，作者进行了预训练实验，并将其与最近发布的数学训练语料库（如MathPile和Proof-Pile-2）进行了对比。

2.2.1. 训练设置

作者使用了一个具有1.3亿参数的通用预训练语言模型，该模型与DeepSeek LLMs（DeepSeek-AI, 2024）共享相同的框架，记为DeepSeekLLM 1.3B。作者分别在每个数学语料库上训练模型，处理1500亿标记。所有实验均使用高效的轻量级HAI-LLM（High-flyer, 2023）训练框架。遵循DeepSeek LLMs的训练实践，作者使用AdamW优化器（Loshchilov和Hutter, 2017），设置动量参数为0.9，学习率衰减率为0.95，权重衰减率为0.1，并采用多步学习率计划。具体来说，学习率在2000个预热步骤后达到峰值，然后在训练过程的80%后降低到峰值的31.6%，并在训练过程的90%后进一步降低到峰值的10%。作者设置了最大学习率为5.3e-4，并使用4百万标记的批次大小，上下文长度为4096。

2.2.2. 评估结果

作者在8个数学基准测试中使用了少量样本的链式思维提示（Wei等人，2022）来评估下游性能。结果表明，使用DeepSeekMath语料库训练的模型在性能上明显优于使用Proof-Pile-2（500亿标记，相当于Proof-Pile-2的一个完整训练轮次）训练的模型，这表明DeepSeekMath语料库的平均质量更高。

此外，DeepSeekMath语料库是多语言的，主要包含英语和中文。如表1所示，使用DeepSeekMath语料库进行训练可以提升模型在英语和中文数学推理中的性能。相比之下，现有的以英语为中心的数学语料库对中文数学推理的改进有限，甚至可能对性能产生负面影响。

最后，DeepSeekMath语料库的规模远大于现有的数学语料库。如图3所示，DeepSeek-LLM 1.3B在使用DeepSeekMath语料库训练时表现出更快的学习曲线和更持久的改进。相比之下，基线语料库较小，在训练过程中已经被多次重复，导致模型性能迅速达到 plateau。

2.3. 训练和评估DeepSeekMath-Base 7B

在这一部分，作者介绍了DeepSeekMath-Base 7B，这是一个具有强大推理能力的基础模型，特别是在数学领域。该模型基于DeepSeek-Coder-Base-v1.5 7B构建，并使用5000亿标记进行训练。数据分布如下：

- 56%来自DeepSeekMath语料库

- 4%来自AlgebraicStack

- 10%来自arXiv

- 20%来自Github代码

- 剩下的10%来自Common Crawl中的自然语言数据，包括英语和中文

除了训练设置中提到的内容外，作者还设置了最大学习率为4.2e-4，并使用了1000万个标记的批次大小。

作者对DeepSeekMath-Base 7B的数学能力进行了全面评估，重点评估了其在不依赖外部工具的情况下生成自包含数学解决方案、使用工具解决数学问题以及进行形式定理证明方面的能力。除了数学能力外，作者还对模型的自然语言理解、推理和编程技能进行了更一般的评估。

数学问题求解

作者在8个基准测试中评估了DeepSeekMath-Base 7B的数学问题求解能力，这些基准测试包括定量推理、MATH、CMATH、SAT、OCW Courses、MMLU-STEM、Gaokao-MathCloze和Gaokao-MathQA，涵盖了从初中到大学水平的数学问题。如表2所示，DeepSeekMath-Base 7B在开源基础模型中表现最佳，并且在MATH数据集上超过了Minerva 540B（闭源模型，参数数量是DeepSeekMath-Base 7B的77倍）。

形式数学

作者在miniF2F上评估了DeepSeekMath-Base 7B的非形式化到形式化定理证明任务，该任务需要根据非形式化的陈述、形式化的陈述以及非形式化的证明生成形式化证明。作者使用Isabelle作为证明助手，并通过少量样本的链式思维提示生成形式化证明。如表3所示，DeepSeekMath-Base 7B在少样本自动形式化方面表现强劲。

自然语言理解、推理和代码

作者在MMLU和BIG-Bench Hard（BBH）上评估了模型的自然语言理解、推理能力，在HumanEval和MBPP上评估了模型的编程能力。如表4所示，与前体DeepSeek-Coder-Base-v1.5相比，DeepSeekMath-Base 7B在MMLU和BBH上的性能有了显著提升，这表明数学训练对语言理解、推理和编码性能都有益处。此外，通过在训练中包含代码标记，DeepSeekMath-Base 7B成功保持了DeepSeek-Coder-Base-v1.5在两个编程基准测试中的性能。总体而言，DeepSeekMath-Base 7B在三个推理和编码基准测试中显著优于通用模型Mistral 7B。

3 Supervised Fine-Tuning

3.1. 数据集构建

在监督微调阶段，作者构建了一个包含77.6万个训练样本的数学指令微调数据集，涵盖英语和中文问题，涉及多个数学领域和不同难度级别。每个问题都附有解决方案，解决方案采用链式思维（Chain-of-Thought, CoT）、程序思维（Program-of-Thought, PoT）和工具集成推理（Tool-Integrated Reasoning）三种格式。

英语数学数据集

作者标注了GSM8K和MATH问题，并提供了工具集成的解决方案。此外，还采用了一部分MathInstruct和Lila-OOD的数据集，其中的问题使用CoT或PoT解决。英语数据涵盖了代数、概率、数论、微积分和几何等多个数学领域。

中文数学数据集

作者收集了K-12阶段的中文数学问题，覆盖了76个子主题，如线性方程，并使用CoT和工具集成推理形式进行标注。

3.2. 训练与评估DeepSeekMath-Instruct 7B

训练设置

DeepSeekMath-Instruct 7B是在DeepSeekMath-Base基础上进行监督微调得到的。训练时，样本随机连接，直到达到4K的上下文长度限制。训练了500步，批处理大小为256，学习率为5e-5。

评估

在允许和不允许使用工具的情况下，评估模型在四个定量推理基准测试中的表现。评估基准包括英语和中文的数学问题，如MATH、CMATH、SAT和Gaokao-MathQA。

对比模型

- 闭源模型：包括GPT-4和Gemini-Ultra，这些模型经过一系列对齐流程优化。

- 开源模型：包括Mistral 7B、Llama-2 70B和ChatGLM3 6B。

结果

- 不允许使用工具：DeepSeekMath-Instruct 7B在MATH数据集上表现优异，超过大多数开源模型和部分闭源模型。

- 允许使用工具：模型准确率接近60%，超过所有开源模型。

DeepSeekMath-Instruct 7B在数学推理任务中表现出色，尤其是在指令微调后，其性能在竞赛级别数学问题上显著提升。

4 强化学习

4.1. 组相对策略优化（Group Relative Policy Optimization，GRPO）

在这一部分，作者介绍了他们提出的高效且有效的强化学习算法——组相对策略优化（GRPO）。GRPO是从近端策略优化（Proximal Policy Optimization，PPO）演变而来的，PPO是一种常用的强化学习算法，用于大型语言模型的微调。

4.1.1. 从PPO到GRPO

PPO是一种基于 actor-critic的强化学习算法，其目标函数如下：

其中，\(\pi_\theta\) 和 \(\pi_\phi\) 分别是当前策略和旧策略，\(o\) 是问题，\(a\) 是输出，\(A_t\) 是优势值。优势值通过广义优势估计（Generalized Advantage Estimation）计算，并依赖于一个学习的价值函数 \(V\)。为了防止奖励模型过度优化，PPO通常会引入一个KL惩罚项，基于参考模型（通常是初始微调模型）进行正则化。

然而，PPO需要训练一个与策略模型同样大小的价值函数，这带来了巨大的内存和计算开销。此外，对于大型语言模型，通常只对最后一个标记分配奖励，这使得训练一个准确的价值函数变得复杂。为了解决这些问题，作者提出了GRPO。

GRPO通过分组采样输出，利用组内的平均奖励作为基线，从而避免了额外的价值函数。具体来说，对于每个问题 \(q\)，GRPO从旧策略中采样一组输出 \(\{o_1, o_2, ..., o_G\}\)，并使用奖励模型对这些输出进行评分，得到一组奖励 \(\{r_1, r_2, ..., r_G\}\)。然后，这些奖励被标准化，计算每个输出在组内的相对奖励，并基于相对奖励计算优势值。GRPO的目标函数如下：

其中，\(A_t\) 是基于组内相对奖励计算的优势值。GRPO通过直接计算策略模型与参考模型之间的KL散度进行正则化，避免了PPO中复杂的奖励惩罚项。

4.1.2. 结果监督强化学习（Outcome Supervision RL）与GRPO

在结果监督强化学习中，奖励模型仅在输出末尾提供一个奖励。GRPO通过标准化这些奖励来计算优势值，并优化策略模型。具体来说，对于每个输出 \(o_i\)，其优势值 \(A_t\) 被设置为标准化后的奖励值：

\[ A_t = \frac{r_i - \text{mean}(r)}{\text{std}(r)} \]

这种方法简单且高效，但可能无法充分监督复杂的数学推理任务。

4.1.3. 过程监督强化学习（Process Supervision RL）与GRPO

为了更有效地监督复杂的数学推理任务，作者还探索了过程监督强化学习。在这种方法中，奖励模型在每个推理步骤末尾提供奖励。具体来说，对于每个输出 \(o_i\)，奖励模型会为每个步骤提供奖励 \(R = \{r_{i,1}, r_{i,2}, ..., r_{i,K_i}\}\)，其中 \(K_i\) 是输出 \(o_i\) 的步骤总数。这些奖励被标准化后，用于计算每个标记的优势值：

\[ A_t = \sum_{j=t}^{K_i} \frac{r_{i,j} - \text{mean}(R)}{\text{std}(R)} \]

这种方法能够更细致地监督推理过程，有助于提升模型在复杂任务中的表现。

此外，作者还探索了迭代强化学习，通过不断更新奖励模型来适应策略模型的变化。具体来说，作者使用了一种基于采样的方法，结合历史数据增强奖励模型的训练。

4.2. 训练与评估DeepSeekMath-RL 7B

在这一部分，作者基于DeepSeekMath-Instruct 7B进行了强化学习训练。训练数据仅包含GSM8K和MATH数据集中与链式思维推理相关的问题，共计约14.4万个问题。作者使用DeepSeekMath-Base 7B训练了一个初始奖励模型，并设置学习率为2e-5。在GRPO中，策略模型的学习率为1e-6，KL系数为0.04。对于每个问题，作者采样64个输出，最大长度为1024，训练批次大小为1024。策略模型在每次探索阶段后仅更新一次。

实验结果表明，DeepSeekMath-RL 7B在GSM8K和MATH数据集上表现优异，分别达到了88.2%和51.7%的准确率，超过了所有开源模型（7B到70B参数规模）和大多数闭源模型。值得注意的是，DeepSeekMath-RL 7B仅在GSM8K和MATH数据集上进行了训练，但在所有评估指标上均优于DeepSeekMath-Instruct 7B，这充分展示了强化学习的有效性。

总的来说，作者通过引入GRPO算法，显著提升了模型在数学推理任务中的性能，同时降低了训练资源的需求。这一研究为未来在数学推理领域探索更高效的强化学习方法提供了重要参考。

5 Discussion

在这一部分，作者分享了他们在预训练和强化学习实验中获得的经验和见解。

5.1. 预训练的经验教训

5.1.1. 代码训练对数学推理的影响

作者首先探讨了代码训练对数学推理能力的影响。他们通过实验发现，代码训练不仅在使用工具进行数学推理时有效，而且在不使用工具的情况下也能提升模型的数学推理能力。

两阶段训练

- 代码训练400B标记后，数学训练150B标记：这种设置下，模型在使用Python解决问题的能力上有显著提升。

- 通用训练400B标记后，数学训练150B标记：作为对照实验，结果显示代码训练在提升数学推理能力方面优于通用训练。

一阶段训练

- 数学训练150B标记：直接进行数学训练。

- 代码和数学混合训练400B标记：这种设置下，模型在缓解灾难性遗忘问题的同时，保持了数学推理和编码能力的提升。

实验结果表明，代码训练在两阶段和一阶段训练中都能有效提升数学推理能力。然而，一阶段训练中混合代码和数学数据可能会降低模型在不使用工具时的数学推理能力，这可能是因为模型规模有限，难以同时吸收代码和数学数据。

5.1.2. arXiv论文在数学推理方面似乎无效

尽管arXiv论文常被用于数学预训练数据，但作者的实验表明，arXiv论文对数学推理能力的提升似乎并不显著。他们使用了两种不同的arXiv语料库进行实验：

- MathPile：一个经过清理和过滤的890亿标记语料库，其中超过85%是科学领域的arXiv论文。

- ArXiv-RedPajama：去除 preamble、注释、宏和 bibliography 后的280亿标记语料库。

实验结果显示，无论模型大小如何，单独使用arXiv数据进行训练，模型在数学基准测试中的表现都没有显著提升，甚至有所下降。这表明arXiv论文可能不适合直接用于数学推理训练，或者需要更复杂的处理方法。

5.2. 强化学习的见解

5.2.1. 统一范式

作者提出了一个统一的范式来分析不同的训练方法，包括监督微调（SFT）、拒绝采样微调（RFT）、直接偏好优化（DPO）、在线拒绝采样微调（Online RFT）和GRPO。他们通过实验发现：

- 在线拒绝采样微调（Online RFT）：比传统的RFT更有效，尤其是在训练后期。

- GRPO：通过调整梯度系数，能够更有效地提升模型性能，尤其是在处理不同奖励值时。

5.2.2. 为什么强化学习有效

作者发现强化学习主要提升了模型输出分布的鲁棒性，特别是在Top K准确率（Maj@K）上，而对通过K次尝试的准确率（Pass@K）提升不明显。这表明强化学习可能更多地优化了模型在输出时的策略，而不是从根本上提升推理能力。

5.2.3. 如何实现更有效的强化学习

作者提出了未来研究的方向，包括：

- 数据源：探索更高效的数据采样方法，特别是在处理出-of-distribution问题时。

- 算法：研究鲁棒的强化学习算法，能够处理 noisy reward signals。

- 奖励函数：改进奖励模型，使其具有更强的泛化能力、反映奖励模型的不确定性，并能够高效构建高质量的过程奖励模型。

总的来说，作者通过实验和分析，揭示了代码训练和强化学习在数学推理中的作用，并为未来的研究提供了宝贵的见解和方向。

6 结论、局限性和未来工作

6.1. 结论

在这部分，作者总结了他们的研究成果。他们提出了DeepSeekMath，这是一个在数学推理方面表现优异的开源模型。在竞赛级别的MATH基准测试中，DeepSeekMath的表现超过了所有开源模型，并且接近甚至可以媲美闭源模型，如GPT-4和Gemini-Ultra。

DeepSeekMath的构建基于DeepSeek-Coder-v1.5 7B模型，并进行了5000亿标记的持续训练。其中，1200亿标记来自Common Crawl中的数学相关内容。通过详尽的消融实验，作者发现网络页面是高质量数学数据的重要来源，而arXiv论文的效果并没有预期的那么显著。

此外，作者引入了组相对策略优化（GRPO），这是一种基于近端策略优化（PPO）的变体算法。GRPO通过组内评分估计基线，显著减少了训练资源的消耗，同时提升了模型的数学推理能力。实验结果表明，即使DeepSeekMath-Instruct 7B在基准测试中表现优异，GRPO仍然能够进一步提升其性能。

6.2. 局限性

尽管DeepSeekMath在定量推理基准测试中表现优异，但在几何和定理证明方面的能力相对较弱。例如，在内部测试中，模型无法有效处理与三角形和椭圆相关的问题。这可能是因为在预训练和微调阶段的数据选择过程中存在偏差，导致模型对这些特定领域的几何问题缺乏足够的训练数据。

此外，受限于模型的规模，DeepSeekMath在少样本能力上仍逊于GPT-4。具体来说，GPT-4在少样本输入下能够显著提升性能，而DeepSeekMath在零样本和少样本评估中的表现基本一致，未能展现出显著的提升。

6.3. 未来工作

为了进一步提升模型的性能，作者计划从以下几个方面展开未来的研究：

1. 改进数据选择管道：作者将致力于优化数据选择的流程，以构建更高质量的预训练语料库。这将有助于减少数据偏差，提升模型在几何和定理证明等领域的表现。

2. 探索强化学习的潜力：作者将深入研究强化学习的有效性，特别是根据第5.2.3节提到的方向，包括：

- 更高效的数据采样方法：探索如何更高效地采样数据，特别是在处理出-of-distribution问题时。

- 鲁棒的强化学习算法：研究能够处理 noisy reward signals 的鲁棒算法。

- 改进奖励函数：开发更强大的奖励模型，使其具有更强的泛化能力，并能够更准确地反映奖励模型的不确定性。

通过这些努力，作者希望进一步提升DeepSeekMath在数学推理以及其他相关任务中的性能，并为开源社区提供更强大的工具和方法。

时空猫的问答盒

探寻机器学习奥秘，编织神经网络魔法，走进人工智能的未知世界。