大语言模型统一偏好学习技术综述：定义、数据、反馈、算法、评估、趋势

文摘 2024-09-28 12:34 广东

大语言模型（LLMs）展现出了非凡的能力。实现成功的一个关键因素是将LLM的输出与人类偏好对齐。这种对齐过程通常只需要少量数据就能有效地提高LLM的性能。尽管有效，但这一领域的研究跨越了多个领域，涉及的方法相对复杂，难以理解。不同方法之间的关系尚未得到充分探索，限制了偏好对齐的发展。鉴于此，我们将现有的流行的对齐策略分解为不同的组成部分，并提供了一个统一的框架来研究当前的对齐策略，从而建立它们之间的联系。在这项调查中，我们将偏好学习中的所有策略分解为四个组成部分：模型、数据、反馈和算法。这种统一的观点提供了对现有对齐算法的深入理解，并开辟了将不同策略的优势结合起来的可能性。此外，我们提供了流行的现有算法的详细工作示例，以促进读者的全面理解。最后，基于我们的统一视角，我们探讨了将大型语言模型与人类偏好对齐的挑战和未来研究方向。

我们翻译解读最新论文：面向大型语言模型偏好学习，文末有论文链接。作者：张长旺，图源：旺知识

1. 引言

由ChatGPT1代表的，大型语言模型（LLMs）的崛起展示了令人印象深刻的语言能力和专业能力，以及提供正确、礼貌和知识渊博的回答，这是令人惊讶和钦佩的。虽然预训练和监督式微调在发展基础语言技能方面发挥了重要作用，但偏好对齐是LLMs在公开部署前必须经历的一个必要步骤，以防止LLMs可能产生攻击性、有毒或误导性的内容。

尽管大型语言模型（LLMs）在各个领域展示了令人印象深刻的能力[20, 94, 116, 142]，但它们在伦理[55]、安全[64, 107, 129]和推理[74, 124, 145]方面仍面临挑战。作为回应，出现了许多与对齐相关的倡议，以更好地解决这些问题[29, 89, 95, 99]。日益增长的兴趣也激发了这项调查。尽管许多作品[110, 125]已经广泛讨论了对齐的概念，但偏好学习的各种算法之间的关系仍然支离破碎，缺乏统一它们的框架。为了弥合这一差距，我们旨在提供一个系统的偏好对齐框架，如图1所示。通过将相关工作整合到这个框架中，我们希望为研究人员提供全面的理解和进一步探索特定领域的基础。

传统分类视角[54, 110, 125]倾向于将现有方法分为基于强化学习的（RL）方法，如需要奖励模型进行在线RL的RLHF[95]，以及基于监督微调（SFT）的方法，如直接偏好优化（DPO）[99]，后者直接在离线设置中使用偏好优化。然而，这种分裂可能会无意中在两组工作之间造成隔阂，这不利于研究人员进一步理解偏好对齐的共同核心。因此，我们努力为双方建立一个统一的视角，并引入了一个创新的分类框架。

这个新框架的关键在于两个深刻的见解：首先，在线策略和离线策略之间的区别基本上取决于不同的数据来源，这可以从像PPO或DPO这样的算法中分离出来。在线策略需要策略模型实时生成其数据；具体来说，正在优化的LLM也必须实时为下一轮训练产生数据。相比之下，离线策略允许各种数据来源，只要它们是提前收集的，而不需要策略模型同时生成。许多当前的工作采用了特定算法在在线和离线设置之间的转换[40, 106]。因此，我们不使用在线/离线或RL/SFT作为分类算法的标准。其次，受到现有工作[106]的启发，强化学习和基于监督微调方法的优化目标实际上非常相似。不同之处在于，基于强化学习的方法通常需要一个奖励模型来计算进一步训练的奖励，而监督微调算法可以直接使用各种形式的偏好进行模型优化，例如更好地对齐的输出和来自偏好关系的成对或列表对比。有了统一的视角，我们可以将反馈定义为能够产生与人类判断对齐的偏好的广泛工具，如奖励模型、人类注释者、更强大的模型如GPT-4以及各种规则。基于这些考虑，我们将偏好学习的过程划分为数据、反馈、偏好优化和评估。我们论文的分类法如图2所示。此外，我们在这个框架内提供了一些常见算法的清晰运行示例，以促进读者对算法的理解，如图3和图4所示。

总之，我们的论文调查并组织了现有的LLM偏好学习方法，提供了一个统一而新颖的视角。此外，基于这项调查的内容，我们总结了这一领域的几个未来方向，旨在为进一步的研究提供见解。

2. 定义和公式化

在本节中，我们首先提供我们对LLM偏好学习的定义：给定一般人类偏好的分布P (𝑥, 𝑦)，其中𝑥是提示，𝑦是LLM的相应输出，偏好学习对于LLM 𝜋𝜃 是一个范式，它产生了一个新的LLM 𝜋𝜃′，与P (𝑥, 𝑦)对齐，其中P (𝑥, 𝑦𝜃′(𝑥)) > P (𝑥, 𝑦𝜃(𝑥))。

为了使LLMs能够学习人类偏好，这个过程通常涉及到提供一个数据样本，其中包含输入x和相应的响应y，以及与人类偏好对齐的环境P (𝑥, 𝑦)为其分配反馈。与人类偏好一致的样本会被赋予更高的奖励，这可能表现为正面标签、在优先级排名中的位置提升，或更高的奖励分数。在获得数据后，策略模型𝜋𝜃′通过特定算法进行优化。

此外，还需要解释LLM偏好学习和一些相关概念之间的关系，基于这个定义。（1）对齐：按照Kenton等人[59]的定义，对齐指的是研究集中在解决所谓的行为对齐问题：我们如何创建一个行为符合人类意愿的智能体？根据这个定义，我们将LLM的偏好学习视为旨在实现对齐的方法类别。本文的范围仅限于文本偏好对齐，不包含其他众所周知的对齐主题，如幻觉、多模态对齐和指令调整。（2）从人类反馈中的强化学习（RLHF）：与RLHF不同，本文的范围不仅包括基于RL的方法，还包括传统上称为基于SFT的方法。更重要的是，我们采用统一的视角来研究基于强化学习和基于监督学习的方法。

3. LLM偏好学习的统一视角

受到最近工作[40, 106]的启发，我们从以下两个方面对现有工作进行统一的调查：

首先，RL和基于SFT方法的优化目标可以在同一个框架内描述。遵循[106]，训练方法的参数𝜃的梯度可以写成：

其中D表示包含输入问题𝑞和输出𝑜的数据源。𝛿表示梯度系数，它直接决定了偏好优化的方向和步长。A表示算法。梯度系数由特定算法、数据和相应的反馈决定。追溯到梯度系数的一个重大影响源是反馈。请注意，反馈可以采取多种形式。例如，RFT[149]中数据的正确性或DPO[99]中的偏好标签可能会影响梯度系数，从而影响最终梯度。因此，我们定义本文中的反馈为能够影响模型训练过程中梯度的环境给出的偏好指标。值得注意的是，基于RL和基于SFT的方法都可以包含在这个框架内。

其次，算法可以从在线/离线设置中解耦。在对齐的背景下，在线学习指的是偏好预言𝑟或其近似器𝑟ˆ可以在训练过程中被查询，即当前演员模型采样的响应的反馈可以即时给出。如果反馈信号不能实时获得，则被认为是离线学习。

从传统的角度来看，基于RL的方法在在线/离线设置方面更加灵活，而基于SFT的方法通常是离线的。然而，正如我们在第一点中统一了基于RL和基于SFT的方法一样，可以推断出基于SFT的方法也可以应用于在线设置，这一点已经通过最近的工作[40]得到证明。实际上，决定设置是在线还是离线的因素仅仅是偏好信号是实时生成的还是预先存储的。在第4节中，我们阐明了在线和离线设置获取数据的方法。在在线设置中，数据收集通常遵循在线策略，而在离线设置中，它通常遵循离线策略。尽管将在线反馈收集与离线策略结合起来是可能的，但这种实例在现有工作中相对罕见。因此，与其他调查论文[110, 125, 128]的分类不同，我们不使用在线/离线或RL/SFT作为分类算法的标准。相反，我们将算法从在线/离线设置中解耦。例如，DPO算法不一定非得是离线的。这取决于它们实际应用的上下文。如果有评估器可以实时评估生成的数据中的偏好关系，那么DPO也可以用于在线优化。

基于上述两点讨论，我们最终将偏好学习划分为四个关键要素：模型、数据、反馈和算法，如图5所示。

偏好学习的过程可以描述如下：对于一个LLM 𝜋𝜃、要对齐，我们首先需要准备训练数据D。如果我们处于在线设置中，我们必须从模型和环境实时采样行为数据，并且环境将提供偏好反馈信号到数据。是否符合人类偏好将反映在反馈R中。例如，在DPO系列方法中，不符合偏好的数据将被赋予一个坏标签。在RFT中，它将被丢弃，也就是说，梯度系数将为零。对于像PPO这样的基于RL的算法，这将对应于一个较低的奖励分数。随后，将元组(D{𝑥,𝑦} , R, 𝜋𝜃) 输入到算法A中。我们根据算法对每个模型更新所需的数据数量将算法分类为四种类型：无需训练的方法、逐点方法、成对对比和列表对比，而不需要担心它们是RL还是SFT基于算法。最后，我们获得了一个与人类偏好对齐的LLM 𝜋𝜃′。这个过程的正式描述在算法1中提供。

4. 偏好数据

偏好数据没有固定的形式，我们使用最简单的符号来表示偏好数据(𝑥, 𝑦,𝑟).。这里𝑥, 𝑦是文字信息输入和候选输出。𝑟是由某些反馈系统给出的偏好标签，可能是人类、奖励模型或其他评分系统。

当前LLM偏好学习方法从两个来源收集训练数据：在线策略或离线策略。一般来说，在线数据收集意味着我们直接从我们的策略LLM 𝜋𝜃𝑡在每个训练步骤𝑡收集数据。离线数据收集可以独立于进行偏好学习并产生由策略模型本身未生成的数据集。值得注意的是，使用从𝜋𝜃0采样的偏好数据来训练𝜋𝜃𝑡对于t > 0也是离线策略。

4.1. 在线数据收集

在线数据收集过程类似于在线强化学习的设置，其中偏好数据直接在训练期间获得：它首先通过策略LLM采样一批经验，然后通过与环境交互获得奖励，最后使用它来更新策略LLM。在这种情况下，不同的方法在环境的偏好生成器𝑔(𝑥)上有所不同。

在线采样方法为了从环境中采样各种经验，许多研究探索了不同的策略进行解码。

多种采样策略，如Top-K/Nucleus Sampling[44]和Beam Search[36]，在LLMs的生成过程中被采用。这些方法决定了用于偏好学习的数据的效率和有效性。

对于涉及多步解决方案的问题，也有一些研究[31, 84, 98, 124, 138, 154, 155, 164]采用蒙特卡洛树搜索（MCTS）[63]来增强数据采样的多样性和性能。MCTS起源于AlphaGo的进展。MCTS的基本概念涉及通过众多模拟或rollouts评估各种策略，以确定哪种策略产生更好的结果。这种方法类似于一种有条理和深思熟虑的思考过程，与优先考虑即时收益的贪婪解码方法形成对比。MCTS的核心操作可以分为四个不同的阶段：选择、扩展、模拟和反向传播。MCTS的高效搜索策略使模型能够在同时获得步骤级标签的同时生成更高质量的数据。这些精炼的数据随后可以用于在解码[31, 98, 164]期间提高模型性能，训练奖励模型[84, 124]以及微调模型[31, 154, 155]。

4.2. 离线数据收集

离线数据收集意味着独立于LLM的学习过程收集训练数据。这种方法通常比在线数据收集更容易，主要是因为有可用的开源偏好数据集。或者，我们也可以提前使用初始模型𝜋𝜃0编译数据集。离线数据收集策略确保了更多样化的训练数据集，通常可以在LLM的偏好学习过程中带来改进。有两个主要的偏好数据来源，人类注释者的数据和由更先进的LLMs生成的数据。请注意，随着相关研究的不断发展，与偏好学习相关的开源数据集的数量正在增加。因此，很难编制一个包含所有数据集的全面列表。因此，我们只强调一些代表性的工作。

来自人类数据 Webgpt[93]有20K比较，每个例子包括一个问题，一对模型答案和人类评定的偏好分数。

OpenAI的人类偏好[95]源自Reddit的TL;DR语料库[120]的精心挑选部分。此数据集中的每个条目包括一个帖子，以及两个替代摘要选项，并由人类注释者评估以确定两者中的首选摘要。

HH-RLHF[5]涉及170K人类与AI助手之间的聊天。在这些聊天中，AI提供了两个不同的回复。人类注释者标记哪个回复更好，哪个不太好。

SHP[28]包含385K人类对18个主题领域问题的响应的偏好，反映了用户对有用性的偏好。与HH-RLHF相比，SHP仅依赖人类编写的数据，允许两者之间有互补的分布。

来自LLMs的数据从人类那里获得偏好可能需要消耗资源。然而，研究表明[19, 66]强大的LLMs擅长模拟人类偏好。因此，已经有许多努力利用LLMs作为偏好数据生成器来扩大规模。

RLAIF[66]策划了一个全面的数据集，融合了Reddit TL;DR语料库[120]、OpenAI的人类偏好[114]和HH-RLHF[5]数据集，其偏好是使用PALM 2而不是人类注释的。实验结果表明，使用AI反馈进行扩展可以显著提高模型的训练性能。

Open-Hermes-Preferences[48]是一个包含大约100万个AI生成偏好的综合数据集。它整合了此数据集的输出和另外两个模型的输出，PairRM[53]被用作评估和排序响应的偏好模型。

ULTRAFEEDBACK[19]使用GPT-4开发ULTRAFEEDBACK，这是一个庞大、高质量和多样化的偏好数据集，旨在克服现有偏好数据的稀缺性和限制。

UltraChat[22]是一个百万级的多轮指令对话数据集。与围绕特定任务构建的数据集不同，UltraChat包含广泛的人类-AI互动场景。它利用了元信息、上下文扩展和迭代提示等先进技术，以及两个单独的ChatGPT Turbo API，用于真实和信息丰富的对话生成。

5. 反馈

图6 | 模型在偏好学习期间收到的奖励说明。对于数据样本(𝑥, 𝑦ˆ)，其中𝑦ˆ是未标记的候选输出，奖励函数应该提供反馈，可以是奖励分数𝑟或偏好标签。根据我们是否需要训练特定的奖励模型，奖励函数可以分类为直接反馈和基于模型的反馈。

在本节中，我们详细阐述了模型在偏好学习中收到的偏好反馈。按照Shao等人[106]的说法，本文中的反馈广泛地指可以影响模型训练过程中梯度的偏好指标。在这里，它不仅可以作为使用强化学习的方法中的奖励，还可以作为偏好标签或不明确使用强化学习的算法使用的其他反馈。形式上，给定一个数据实例(𝑥, { ˆy}), 其中where { ˆy} = 𝑦ˆ1, ˆ𝑦2, ..., ˆ𝑦𝑖和𝑖 ≥ 1，与人类偏好对齐的环境应该给出奖励，这可能是偏好𝑦𝑖 > 𝑦𝑗或一个标量𝑟。如图6所示，我们调查了偏好学习中各种类型的反馈，将它们分为两类：直接反馈和基于模型的反馈。

5.1. 直接反馈

直接反馈是指可以直接获得的反馈，无需训练特定的奖励模型。

标记数据集 获得反馈最直接的方法之一是通过人类注释的标记数据集。数据集中的标记偏好可以直接用于离线方法的模型训练。我们在第4.2节中涵盖了偏好学习现有数据集的最新进展。

手工设计规则 获得直接奖励的另一种方式是使用手工设计的规则作为奖励。由于规则的特殊性，很难建立一个涵盖所有方法的统一标准。不同的任务可能遵循不同的规则集。

对于数学推理任务，Yuan等人[149]使用推理路径的正确性作为控制训练数据的指标。按照Shao等人[106]的说法，提供了这些系列方法的另一个视角，奖励可以通过𝑖? = I(𝐴?)来计算，如果COT推理路径是正确的，奖励等于1，否则为0。Xin等人[136, 137]使用自动化证明工具（LEAN[91]）获得数学定理证明者的反馈。对于机器翻译，Xu等人[140]使用参考自由QE模型的结果来获得不同翻译候选的偏好，并进一步使用CPO优化模型，CPO是DPO算法的改进。对于代码生成，Shen等人[109]根据单元测试结果和启发式偏好对模型输出进行排名。对于每个数据，他们根据测试结果的不同情况从低到高分配不同的分数。当前排名从直接反馈中获得的偏好直接影响模型的最终训练损失。Liu等人[78]和Dou等人[25]使用手工设计的规则将不同情况下的单元测试结果转换为标量，并进一步使用RL算法优化模型。对于摘要，Gao等人[33]通过使用文本人类对代理输出的编辑来探索交互式学习，这被证明是简单有效的。

5.2. 基于模型的反馈

在本节中，我们对基于模型的反馈进行了调查，包括来自奖励模型、成对评分模型和LLM作为裁判的奖励信号。

5.2.1. 奖励模型

训练奖励模型的前提是构建一个可以预测人类偏好概率𝑝的分类器，介于两个潜在响应之间。

基于Bradley-Terry的奖励模型 一条研究线使用Bradley-Terry模型[7]来模拟人类的偏好。这涉及到训练模型来估计𝑝, 这是通过最大化首选输出的可能性来派生的，通过一个强调首选和被拒绝输出之间偏好差异的损失函数进行优化：

该模型通常通过一个负对数似然损失进行优化：

其中𝑦𝑟代表被拒绝的输出，𝑦𝑐代表被选择的输出。在推理时，奖励模型返回一个标量𝑝∗( 𝑦1 ≻ 𝑦2 | 𝑥) 代表输出将是首选响应的概率。

基于二元分类器的奖励模型 对于可以通过结果直接确定案例质量的任务，直接标记样本以训练二元分类器作为奖励模型是一种简单而稳定的方法。例如，在数学推理中，可以根据响应是否产生正确的最终答案来标记样本。类似地，在代码生成任务中，可以通过检查生成的代码是否通过指定的测试来进行标记。与传统的Bradley-Terry奖励模型不同，一旦获得了数据的标签，就可以使用逐点二元分类损失来训练奖励模型，而不需要构建成对数据。BCE训练损失如下：

其中𝑟是偏好标签，ˆ𝑟是预测的奖励。

RM训练优化为了获得更好的奖励模型，许多研究从不同的角度优化现有的奖励模型。

一条研究线寻求获得更好的偏好数据。Lee等人[66]利用现成LLMs的能力来生成偏好标签，可能减少了昂贵且耗时的人类注释的需求。研究表明RLAIF可以在多个任务中达到甚至超越RLHF的性能水平。Jinnai等人[57]探索使用Kullback–Leibler散度和Wasserstein距离来规范Best-of-N采样，这被证明在奖励建模期间有效缓解了奖励黑客问题。Pace等人[96]使用West-of-N生成更好的合成偏好数据，将语言模型训练中的Best-of-N采样策略扩展到奖励模型训练。

另一条研究线专注于通过集成模型来改进奖励模型的过度优化和不确定性估计。Coste等人[18]使用奖励模型集成来缓解奖励模型的过度优化。Zhai等人[152]考虑基于LoRA的集成，而他们的工作侧重于RL微调中的不确定性惩罚目标。Ramé等人[101]考虑了一种不同的方法，即平均多个奖励模型的权重，而不是集成他们的预测。Zhang等人[157]探索了多种集成方法，以发展高效的集成方法。

探索另一个维度，对细粒度奖励的研究正在获得动力。Wu等人[134]引入了细粒度RLHF，这是一个框架，可以在每个段落之后提供多个方面的奖励，用于训练和学习。与结果监督相比，它提供了最终结果的反馈，Uesato等人[119]，Lightman等人[74]和Yu, Gao, 和 Wang[144]探索了过程监督，它为每个中间推理步骤提供奖励。然而，PRM的训练数据受到注释工作的高成本的限制，如何有效地构建步骤级训练数据仍然是一个挑战。Wang等人[124]以无监督的方式构建过程监督数据，这被证明对数学推理有效。

此外，优化奖励模型的训练过程是一个焦点领域，Dong等人[24]和Zhou等人[162]提出使用先验约束来缓解训练奖励模型期间奖励分数不受控制的扩展。Gao等人[32]提出了一个两阶段训练范式，利用自然语言反馈来激发数学奖励模型的评估能力。

5.2.2. 成对评分模型

除了特别训练的奖励模型外，轻量级的成对评分模型广泛用于为模型提供偏好信号[53]。一般来说，成对评分模型采用专门的成对比较方法来区分候选输出之间的微妙差异。由于更容易并且更一致地比较多个候选者而不是每次都对单个候选者进行评分，成对评分模型通常更小并且取得更好的结果。例如，PairRanker[53]，只有0.4B参数，显示出与ChatGPT基础排名最高的相关性，并在SPPO[133]和SimPO[89]等工作中广泛使用。然而，成对方法不能提供全局分数，他们可以同时处理的候选者数量是有限的。因此，获得多个候选者之间的全局排名或一般的奖励信号通常需要更高的成本。

5.2.3. LLM作为裁判

更直接和易于调整的方法是使用LLM评分来为偏好学习或评估提供奖励，称为LLM作为裁判。对于更大的模型，如GPT-4，我们可以直接在提示中指定评分规则，允许模型对生成的响应进行评分。扩展这种方法，我们可以实现LLM自我奖励。例如，最近的自我奖励机制[148]表明，LLMs可以通过评估自己的响应而不是依赖人类标记者来改进。然而，模型判断可能会引入错误或偏见。为了解决这个问题，Wu等人[132]引入了一种新颖的元奖励步骤，模型评估自己的判断，并使用该反馈来完善其判断技能。这种无监督方法使LLM给出的分数更准确。对于涉及复杂推理步骤的任务，LLM作为裁判通常表现不佳比训练有素的评分验证器。为了缓解这个问题，McAleese等人[88]训练了一个批评模型，提示接受（问题，答案）对作为输入，并输出一个纯文本“批评”，指出答案中可能存在的问题，用于代码生成。Zhang等人[156]训练了一个生成性验证器，利用LLMs的文本-标记预测能力来进行数学推理。

6. 算法

偏好学习算法基于数据和反馈优化LLM，使其与人类偏好对齐。根据公式1中计算梯度系数所需的样本数量，我们可以将这些算法分类为三种类型：逐点方法、成对对比和列表对比。逐点方法基于单个样本的质量来确定梯度系数，成对对比需要比较样本对，列表对比涉及评估整个样本列表以计算梯度系数。此外，还有一些无需训练即可优化模型的算法，我们将它们归类为无需训练的对齐。总的来说，我们将偏好算法分为四组：逐点方法、成对对比、列表对比和无需训练的对齐。对于一些代表性的算法，属于成对/列表对比，我们还提供了它们的详细损失设计在表1中。

6.1. 逐点方法

逐点方法基于单个数据点(𝑥, 𝑦)优化模型。由于这些方法在优化过程中不需要成对偏好数据，因此降低了标记偏好数据的成本。逐点方法是易于实现的，并在一系列情况下展示了有效性[23, 29, 72, 105, 106, 149, 150]。

最简单的逐点优化方法是拒绝采样微调。这种方法首先使用奖励函数或规则选择高质量的数据点，然后对这些选定的数据进行微调LLM。拒绝采样微调的对象在等式（5）中显示，其中𝑦+是具有高奖励的响应。

有几项工作展示了拒绝采样微调的效果。RAFT[23]使用奖励模型对生成的样本进行排名，筛选出与人类偏好和价值观最一致的样本。然后使用这些策划的样本进行微调，以增强其对人类的友好性和可访问性。Star[150]迭代地使用有限数量的理由示例以及大量缺乏理由的数据集，提高了处理越来越复杂推理的能力，而无需依赖奖励模型。Yuan等人[149]使用拒绝采样微调来增强LLMs的数学推理能力，因为他们发现选择的样本包含了更多不同推理路径的多样性，这被证明有利于解决数学问题。尽管简单直接，拒绝采样微调未能利用低奖励的数据，这阻止了它从非优选数据中学习并进一步优化模型。

Proximal Policy Optimization (PPO) [105]来自OpenAI，是最有代表性和成功的逐点优化算法之一。值得注意的是，像ChatGPT和GPT-4这样的最成功的应用是由PPO方法生产的。在PPO优化阶段，我们更新LM以最大化从学习到的奖励函数𝑟获得的回报：

其中𝜋𝑟𝑒𝑓是监督微调模型，𝜋𝜃初始化为𝜋𝑟𝑒 𝑓 . 𝛽 是KL散度系数，控制着与原始模型的偏差。尽管OpenAI展示了令人印象深刻的性能，但PPO算法需要大量的计算资源，并且存在样本效率低的问题。PPO算法的另一个缺点是训练不稳定，使得确定PPO方法的适当超参数变得具有挑战性。

为了解决前面概述的PPO的缺点，提出了几种替代的逐点方法。其中一种方法是ReMax[72]，它借鉴了REINFORCE算法[131]的概念。值得注意的是，ReMax通过引入一个减法基线值来修改梯度系数的计算，基线值可以定义为贪婪采样响应的奖励。作者建议这种方法通过消除对PPO至关重要的批评模型的需求，从而减少了计算需求，同时也促进了更稳定的训练。从我们的角度来看，ReMax应该是“成对的”，因为它在计算梯度系数时引入了一个额外的减法基线。我们在本节中介绍ReMax，以帮助读者理解过程，而不会太突然。

另一种逐点方法是Ethayarajh等人[29]的KTO。这种方法需要非常少的预先确定的超参数，确保了稳定的训练，同时也是资源高效的。由于采用了Kahneman & Tversky的展望理论，KTO不需要成对偏好数据集。它只需要一个标签，表示响应是否首选。KTO直接最大化生成的效用，而不是最大化偏好的可能性。利用这些逐点偏好数据，KTO可以实现与DPO相当或更好的性能。同时，KTO算法在极端数据不平衡的情况下也表现出良好的性能[29]，这使其成为某些特定情况下的良好选择。

6.2. 成对对比

Liu, Sferrazza, 和 Abbeel [77]指出，逐点方法要么只依赖于积极的候选者，学习进行无脑的暗示，而不是真正理解人类偏好与那些消极候选者的对比，要么面临重大的优化挑战，使它们的实际应用变得复杂。因此，他们提出了Chain-of-Hindsight (CoH)，其中一对积极和消极的候选者𝑖?+和𝑖?−在微调期间都放在上下文中，伴随着相应的提示。这有助于调整后的LLM从语义对比中学习。对于推理，LLM被正面提示（例如，有帮助的响应是：）触发，以生成首选响应。

然而，这种提示方法还不足以迫使LLM感受到人类偏好的区别。相反，更多的研究人员选择操纵其内部状态（例如，生成候选者的概率）来明确构建成对对比学习。例如，Zhao等人[160]使用SLiC[159]的公式应用𝑦+和𝑦−之间的成对对比。一个亮点是他们将训练数据集扩展到包括来自初始SFT检查点的额外候选者𝑦。另一个代表性方法是Rafai等人设计的直接偏好优化（DPO）[99]。他们将RLHF的目标方程改为给定奖励模型𝑟，参考模型𝜋ref和相应的最优策略𝜋𝑟,

其中𝑥和𝑦是上下文和其候选响应，分别。结合方程7和奖励模型中使用的Bradley-Terry[7]损失，DPO为直接优化策略𝜋同时包含一个隐式奖励学习过程，制定了一个新的目标，

尽管它有效，Azar等人[3]证明DPO可以轻易地从提供的偏好数据集中的成对注释中过拟合。这是因为DPO使用非线性映射𝜓(𝑞) = log 𝑞/(1−𝑞) 将𝑦+的分数转换为无界范围。这导致在优化分数差异的同时，减少了RLHF中正则化项的影响。作者因此提出了Identity-PO (IPO)，用恒等映射替换了无界映射。本质上，IPO限制了上述分数差异的上限，以缓解过拟合。

在IPO出现之后，更多的研究人员试图修改LDPO以获得更好的性能。Wang等人[121]指出，RLHF中反向KL散度的约束对生成内容的多样性有限制，这可以通过其他f-散度来缓解。他们因此抽象出一个通用的DPO类损失函数，为不同的f-散度提供了即插即用的形式。Ji等人[51]声称，与RLHF不同，DPO本质上优化了正向KL散度KL(𝜋ref||𝜋)。作为替代，他们直接构建了等同于反向KL散度的目标，通过简单估计划分函数。Chen等人[9]和Ramesh等人[102]都更关注输入上下文。Chen等人[9]依赖于Mallow[86]公式的条件来模拟输入上下文对最终获得的奖励的影响，这取代了DPO中的原始奖励建模，而Ramesh等人[102]利用上下文放置细粒度控制信息。此外，一些研究人员发现DPO倾向于降低𝑖?+的log-likelihood，这可能鼓励LLM生成次优响应[30, 141]。Pal等人[97]随后提出了DPO-positive方法，增加了一个惩罚项来缓解这种现象。Yu等人[146]也采取了增加惩罚项的方式，但这源自于提示LLM本身。

另一个方向是修改训练管道。通常，DPO涉及两个渐进阶段：首先是SFT，接下来是对比对齐。因此，观察到的一种修改方式是降低微调的成本。Hong, Lee, 和 Thorne[45]在初始SFT损失中添加了一个Odds Ratio项，以增强监督。这种设计基本上遵循了成对对比的精神，同时将上述两个阶段合并为一个，以缩短管道。此外，一个简洁的DPO类算法最近被提出，名为SimPO[89]。它继承了DPO的框架，但消除了第二阶段中的参考模型𝜋ref，直接优化𝑖?+超过其他候选者的log-likelihood，这在另一方面与LLM推理中序列最大化log-likelihood的本性一致。其他尝试可以转移到在线设置中的离线DPO。例如，Kim等人[60]和Gorbatovski等人[35]有动态更新DPO中的𝜋ref的动机，包括完全替换和软合并。Kim等人[60]为此方式提供了令人信服的证据：通过转换其损失，DPO可以被视为优化𝜋以保持𝜋(𝑦+|𝑥)/𝜋(𝑦−|𝑥)远离𝜋ref (𝑦+|𝑥)/𝜋ref (𝑦−|𝑥)，并且迭代更新𝜋ref迫使𝜋收敛到最优策略。Morimura等人[90]与Dong等人[23]有在线数据收集和选择的相同想法，但在DPO上利用它。这个过程旨在缓解原始低质量数据的影响。Liu等人[81]和Zhang等人[153]完成了类似的目标，但框架更复杂。

一些工作还促进了偏好对齐的应用。例如，Hejna等人[42]基于人类偏好的遗憾模型导出了一种离线策略LLM学习方法，名为对比偏好学习，它可以在更复杂的场景中模拟偏好，如机器人学。通过对特定领域中的偏好进行仔细的重新定义，She等人[108]和Lyu等人[85]成功地将DPO转移到多语言推理和知识感知QA，而Zhou等人[163]，Guo等人[41]和Badrinath, Agarwal, 和 Xu[4]专注于多目标偏好对齐的适应。

6.3. 列表对比

将成对对比扩展到列表对比也是一个自然的灵感，其有效性已通过Song等人[113]证明。RRHF[147]率先采用将两个候选者𝑦+, 𝑦−扩展到更长列表𝑦𝑖使用外部LLM的方法。然而，这种方法将每个候选者{𝑦𝑖}与其较差的一个𝑦>𝑖配对，因此保留了成对对比的利用。Song等人[112]进一步提出了Preference Ranking Optimization (PRO)，递归地在𝑦𝑖 和 𝑦>𝑖之间应用多个列表对比。Hong等人[46]随后在从优越的黑盒LLMs中提取上利用列表对比，获得了改进的性能。

纯列表对比可能会导致由于候选者的估计偏差而导致性能下降，需要更细粒度的设计。Wang等人[123]和Mao等人[87]在计算分数上实施了多种校准策略，以不同的排名目标来缓解过拟合。不同地，Liu等人[80]和Zhu等人[165]选择在损失函数中设计重新加权机制，每个项都使用外部评分信息，这对𝜋的精确评分能力是有益的。一些替代的列表对比方法已经引入了对当前最成功的PPO算法的增强。例如，GRPO[106]为给定的查询采样了一系列响应，并使用奖励模型评估每个输出。每个响应的奖励通过减去响应列表的平均奖励并除以其标准差来归一化。对于每个输出，GRPO将优势设置为归一化奖励，消除了PPO依赖的批评模型的使用，从而减少了训练期间的存储资源消耗。

6.4. 无需训练的对齐

无需训练的对齐指的是不微调语言模型本身的的方法，通过这些方法，语言模型的参数在对齐后保持不变。相反，无需训练的对齐通过优化输入提示（§6.4.1）或在输出阶段进行优化（§6.4.2），使模型输出更好地与偏好对齐。在输入端的优化包括将上下文学习示例[75, 111]，检索增强内容[139]并入提示，并使用提示重写器[12]在输入到模型之前对其进行微调。在输出端的优化涉及重新分配模型的输出概率分布[21, 47, 143]，在解码过程中遇到有害内容时进行回溯和重新生成[71]，并在模型之后添加一个模块来重写最初生成的内容[52]。

6.4.1. 输入优化

Lin等人[75]分析了基础模型生成的内容与对齐模型生成的内容之间的令牌分布变化，发现大多数变化发生在风格化令牌上。基于这一见解，他们采用系统提示并重新设计上下文中学习示例的响应风格以对齐模型。Xu等人[139]通过对给定提示最相关的规范进行对齐，来对齐生成的内容。BPO[12]认为有效的提示可以导致更好的响应。基于这一概念，BPO训练了一个序列到序列的模型作为提示重写器，使用由ChatGPT生成的低质量和高质量的提示对，并在推理期间使用它来优化输入。

6.4.2. 输出优化

改写(Paraphrasing) Aligner [52]训练了一个额外的对齐模块。在推理期间，指令首先输入原始模型以生成未对齐的响应；然后，这个未对齐的响应连同指令一起输入对齐模块，以产生对齐的响应。

Logits修改(Logits Manipulation) FUDGE [143], Deng 和 Raffel [21], Liu 等人[79], 和 Mudgal 等人[92]通过在解码阶段修改模型的输出概率分布来实现对齐，他们因此增加了生成对齐响应的可能性，并降低了有害响应的概率。

搜索(Searching) RAIN [71]通过对可回溯解码实现对齐，在保留有用令牌的同时丢弃有害令牌，令牌的质量由LLM本身评估。Huang 等人[47]将自评估替换为定制的奖励模型，以允许对齐解码中更细粒度的个人偏好。ICDPO [111]设计了一个两阶段的Best-of-N类过程来优化输出，在上下文中学习（ICL）之后，根据它们不同程度的人类偏好，从本地LLM采样的多个候选者中选择最终响应。与传统的Best-of-N依赖外部验证者（例如奖励模型）进行响应选择不同，ICDPO提出了一种巧妙的公式，将ICL前后的状态作为联合估计，这完全由本地LLM本身完成。它可以取得与微调相当的性能，但只需要少量高质量的示例，降低了实施成本。

7. 评估

对于偏好学习的评估，理想的方法是人类评估，例如Chatbot Arena [14]，这是一个用于大型语言模型（LLMs）的基准测试平台，通过众包进行匿名、随机的比赛。然而，由于资源限制和人类评估可能存在的偏见，流行的评估方法仍然是自动化评估，分为两部分：规则基础评估作为第7.1节和LLM基础评估作为第7.2节。

7.1. 规则基础评估

规则基础评估通常在数据集对每个输入都有正确的输出方案的计划中进行。通过这种方式，评估可以通过使用广泛使用的自动度量来完成，包括准确性，F1，Exact-Match [100]和ROUGE [76]。

当前对通用LLM的评估主要集中在评估一些核心任务上，然后才能泛化以满足各种实际需求。LLMs [1, 16, 117, 118]在多方面评估集上进行评估，以覆盖关键能力。

事实知识 事实知识对于语言模型为用户提供信息需求至关重要，包括Massive Multitask Language Understanding dataset (MMLU) [43]，C-Eval [49]和Massive Multitask Language Understanding in Chinese (CMMLU) [67]。

数学包括Grade School Math dataset (GSM8K) [17]，MATH [43]和Chinese Elementary School Math Word Problems dataset (CMATH) [130]的测试分割。

推理推理是LLMs的一个基本能力，特别是解决复杂问题，包括Big-Bench-Hard (BBH) [115]。

闭卷问答 闭卷问答包括TriviaQA [58]，NaturalQuestions [65]，CSQA [104]和StrategyQA [34]。

编码编码是一种特殊的应用，人们倾向于使用LLMs，并可能对将LLMs与外部工具集成很重要。LLMs在工具使用和功能调用方面会更好，具有更好的编码技能。编码基准包括MBPP [2]和HumanEval [10]。如今，编码评估基准倾向于在仓库级代码生成上评估LLMs，包括SWE-Bench [56]和ML-Bench [83]。

然而，带有标准度量的规则基础评估策略存在显著的缺点。标准度量只表明模型的输出是否接近正确的输出，但目前流行的任务通常是开放式的（例如，摘要）。用模型的输出与正确的标签之间的标准度量计算是误导性的评估。

7.2. LLM基础评估

随着LLMs的最新进展，LLM助手已经开始在多样化的任务（例如，写作，聊天和编码）中展现出人工通用智能。规则基础评估的上述任务是具有挑战性的。一些最近的工作[15, 38]发现，语言模型在人类评估和NLP基准测试中的性能存在不一致，这可能是因为现有的评估（规则基础评估）只测量了LLMs在一组有限的任务（例如，多项选择知识或检索问题）上的核心能力，而没有考虑开放式任务中与人类偏好的对齐。因此，出现了一种健壮且可扩展的自动化方法的需求，以评估LLM与人类偏好的对齐。因此，使用大型语言模型（LLMs）作为代理来评估其他LLMs的质量，作为一种成本效益高且有前途的方法出现了。

7.2.1. LLM基础评估方法

LLM基础评估方法主要可以分为以下三种类型：

成对比较 LLM评估器提供了指令和两个模型的相应输出，然后被要求选择首选或宣布平局。[61, 68, 122, 126, 127]成对比较通常是最流行的方法，并且与人类评估的一致性最高，但这种方法本身是不可持续的，因为随着要评估的模型数量增加，可能的配对数量将显著增长，并且计算成本将相应增加。AlpacaEval [70]是一个快速，成本效益高且可靠的LLM基础自动评估系统。它使用AlpacaFarm [26]评估集，该评估集旨在评估模型遵循一般用户指令的能力。模型的响应与参考响应使用基于GPT-4的自动注释器进行比较，产生了上述的胜率。AlpacaEval [70]与人类注释的一致性很高，并且其排行榜排名与人类评估员生成的排名有很强的相关性。AlpacaEval引入了基于两个LLM生成的响应的胜率的度量，由人类评估员判断。AlpacaEval 2.0 [27]进一步完善了这一点，引入了控制长度的胜率，通过考虑输出长度差异来去除胜率的偏差。

单一答案评分 另一种选择是要求LLM评估器对单个指令和相应的答案分配评估分数。[50, 61, 62, 69, 82, 126]单一答案评分对于排名多个模型是有效的，但无法辨别特定对之间的微妙差异，并且可能会在评估中显示出显著的分数波动[69, 122, 151, 161]。

参考引导评分 提供参考答案是评估模型在具有客观人类偏好的任务中至关重要的，例如数学，翻译等。[61, 122, 127]然而，这种方法要求高质量的注释作为参考答案。

尽管这种方法目前最受欢迎，并且与人类评估的一致性最高，但它存在可扩展性问题，随着要评估的模型数量增加，可能的配对数量将显著增长，并且计算成本将相应增加[151]。

7.2.2. LLM基础评估模型

作为LLM基础评估器的首选模型是优先模型，包括GPT-4，这可能是因为这些模型通常使用RLHF进行训练，以与人类偏好对齐，并且已经证明了强大的人类一致性。[5]直观地，评估器应该能够区分好的和坏的响应[13, 62, 69, 82, 122]。以这种方式使用最先进的模型可以带来出色的性能和广泛的泛化能力。然而，缺点包括高成本和潜在的不可再现性。作为回应，最近的研究已经转向对较小的开源LLM进行微调，用于评估目的，旨在实现接近GPT-4的性能。这些模型主要是通过精心构建高质量的评估数据并微调开源模型来创建的。与使用优先模型相比，微调小型模型增强了模型在某些方面的评估能力，减少了潜在的偏见（例如位置偏见），并显著降低了成本。然而，实验结果表明，尽管微调的评估模型在各自的领域测试集上实现了优越的准确性，但它们仍然显示出局限性，包括泛化能力的缺乏，对特定评估策略的过拟合，以及对表面质量的偏见。

7.2.3. 限制

LLM基础评估器被发现表现出某些偏见和限制。[122]指出，LLM基础评估器不可避免地具有位置偏见（即，当使用GPT-4进行成对比较时，评估结果可以通过改变候选答案在上下文中出现的顺序来轻易地被操纵）。另一个LLM基础评估器的偏见是，LLM基础评估器倾向于偏好更冗长的输出[161]，表现出对其自身类似的模型生成的输出的偏好[38, 161]，并且在评估数学，推理等领域的主题时显示出有限的能力，这些领域对LLMs来说仍然是一个挑战[151]。为了系统地量化LLM基础评估器的性能，几项工作引入了元评估基准。FairEval [122], MT-Bench [161], 和 LLMEval [158]通过使用手动注释的偏好数据集，评估LLM基础评估器是否表现出与人类的高度一致性。[151]提出了一个名为LLMBar的元评估基准，其中包括一个对抗性集。值得注意的是，所有模型，包括GPT-4，在没有使用额外策略的情况下，在对抗性集上都表现困难。

8. 未来方向

更高质量、更多样化的偏好数据。在偏好学习场景中，模型的最终性能在很大程度上取决于偏好数据的质量和多样性[40, 113]。因此，可以在这个领域进行进一步的研究。例如，可以使用合成数据技术来确保提示质量[96, 148]。此外，可以探索更先进的抽样技术来提高模型响应的抽样多样性和质量。

可靠的反馈和可扩展的监督。偏好学习的优化目标来自反馈，因此可靠的反馈起着重要作用。一些可靠的反馈，如代码编译器[37, 109]或证明助手[136]，已经在代码或数学领域进行了探索，但它们仅限于这些领域。如果我们能够将它们扩展到更一般的领域，那将是有价值的。此外，在人类无法提供可靠反馈的情况下，还需要更多的研究，以实现对下一代超级智能的可扩展监督，例如递归奖励建模[148]，或弱到强的技术[8, 11]。

高级偏好学习算法。数据和反馈决定了模型性能的上限，良好的训练算法可以帮助我们尽可能接近这个上限。未来，更好的训练算法应该努力满足以下要求：（1）更好地接近性能上限；（2）对提供的数据和反馈更加鲁棒[73, 102]；（3）更高的训练效率，因此可以扩展[72, 89]。事实上，已经有许多针对偏好学习的PPO和DPO的优化变体。然而，这些算法的性能可能在不同的模型和任务设置中不一致[103]。从理论上找到最有效的变体也是一个非常实际的话题，我们将其留作未来的工作。

LLM的更全面评估。现有的评估数据集不足以评估模型的能力，问题的形态也相对同质（例如，多项选择问题）。尽管越来越多的开放式生成评估基准被提出，但评估偏见[122]和评估成本[6]等因素仍然困扰着我们。我们需要更全面，可靠和多样化的评估方法和基准，这些方法与大型语言模型的发展和进步相辅相成。

9. 结论

在这项调查中，我们将偏好学习策略分解为几个模块：模型，数据，反馈和算法。通过区分不同策略的变化，我们构建了一个统一的偏好学习策略视图，并建立了它们之间的联系。我们认为，尽管这些对齐算法的核心目标本质上是相似的，但它们在不同的应用场景中的表现可能会有显著差异。我们将探索哪些变体在特定上下文中表现更好的探索留给未来的工作。最后，我们希望这项调查为研究人员提供了对偏好学习的进一步理解，并从而激发这一领域的进一步研究。

作者：张长旺，图源：旺知识

参考资料

标题：Towards a Unified View of Preference Learning for Large Language Models: A Survey

作者：Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang

单位：Peking University, Alibaba Group, Shanghai Jiao Tong University, Zhongguancun Laboratory, Microsoft, University of Waterloo, University of Wisconsin-Madison, Institute of Software, Chinese Academy of Sciences

标签：人工智能、机器学习、语言模型、偏好学习、模型对齐

概述：这篇文章是关于如何通过偏好学习来统一和提升大型语言模型性能的综述。

链接：https://arxiv.org/pdf/2409.02795

旺知识

AI技术最新进展、发展趋势、研发经验、从业经验