论文原作:arxiv.org/pdf/2305.18290
DPO是否优于RLHF
尽管大规模无监督语言模型(LMs)能够学习广泛的世界知识和一些推理技能,但由于其训练过程完全无监督,因此很难实现对其行为的精确控制。
当前,为了获得这种可控性,已有方法会收集人类对不同模型生成质量的相对评价标签,并通过结合人类反馈的强化学习(RLHF)来微调无监督LM,以符合这些偏好。
1 引言
2 基础概念
RLHF通常包括三个阶段:1)有监督微调(SFT);2) 偏好采样与奖励学习;3) 强化学习优化。
奖励建模阶段:在第二阶段,SFT模型通过提示x生成答案对(y1, y2),这些答案对是从π【SFT】(y | x)中产生的。然后,这些答案对会被呈现给人类标注者,标注者会对其中一个答案表达偏好,表示为y[w] ≻ y[l] | x,其中y[w]和y[l]分别代表在(y1, y2)中被偏好和不被偏好的生成答案。
这些偏好被假设是由某种潜在奖励模型r(y, x)生成的。有多种方法用于模拟偏好,其中Bradley-Terry(BT)模型是一个流行的选择(如果有多个排名答案,可以采用Plackett-Luce排名模型)。根据BT模型,人类偏好分布p可以表示为:
假设我们能够访问一个静态的比较数据集D,它由从p*中抽取的样本组成,我们可以参数化一个奖励模型rϕ(x, y),并通过最大似然估计参数,负对数似然如下:
其中σ是逻辑函数(f(x) = 1 / (1 + pow(e, -x)),在语言模型的背景下,网络rϕ(x, y)通常从SFT模型π【SFT】(y | x)初始化,并在最终的变换器层之上添加一个线性层,以产生奖励值的单一标量预测。
其中β是一个控制从基础参考策略πref偏离的参数,即初始的SFT模型πSFT。在实践中,语言模型策略πθ也被初始化为πSFT。增加的约束很重要,因为它防止模型偏离奖励模型准确的分布太远,同时保持生成的多样性并防止模式崩溃到单一高奖励答案。
由于语言生成的离散性质,这个目标不是可微分的,通常使用强化学习进行优化。标准方法是构建奖励函数,并使用PPO进行最大化。
1) 对于每个提示x,从参考模型πref( y∣x)中采样y1,y2,并通过人工偏好标注来构建离线偏好数据集D={ (x,y[w], y[l]) };
2) 优化语言模型πθ,以在给定的πref、数据集D 和 期望的β 下最小化 LDPO(DPO损失函数)。
3)我们对等式4进行重新排列,以将奖励函数表示为其对应的最优策略πr、参考策略πref和未知的配分函数Z(·)的函数。具体来说,我们首先对等式4的两边取对数,然后通过一些代数运算,我们得到:
4)我们可以将这种参数重排应用到真实奖励r∗及其对应的最优模型π∗上。将等式5中的r∗(x,y)的参数重排代入偏好模型等式1中,配分函数将被消去,因此我们可以仅用最优策略π∗和参考策略πref来表达人类偏好概率。
5)既然我们现在有了基于最优策略而非奖励模型的人类偏好数据的概率,我们就可以为参数化策略πθ制定一个最大似然目标,我们的策略目标变为:
DPO更新机制:要从机制上理解DPO,分析损失函数LDPO的梯度是非常有益的。关于参数θ的梯度可以表示为:
从偏好中学习是一个强大且可扩展的框架,用于训练能力强且与人类目标一致的语言模型。我们引入了DPO(直接偏好优化),这是一种无需强化学习的简单训练范式,用于从偏好中训练语言模型。DPO并没有将偏好学习问题强行转化为标准的强化学习设置以使用现成的强化学习算法,而是识别了语言模型策略与奖励函数之间的映射关系,使得语言模型能够直接通过简单的交叉熵损失来满足人类偏好,无需强化学习,也不失一般性。几乎无需调整超参数,DPO的性能即可与现有的RLHF(基于人类反馈的强化学习)算法相媲美,甚至更优,包括基于PPO的算法;因此,DPO显著降低了从人类偏好中训练更多语言模型的门槛。
局限性与未来工作:我们的研究结果为未来工作提出了几个重要问题。与从显式奖励函数中学习相比,DPO策略在分布外的泛化能力如何?我们的初步结果表明,DPO策略在泛化能力上与基于PPO的模型相似,但需要进一步的综合研究。
1)使用DPO策略的自标注训练是否同样能有效利用未标注的提示?
2)另一方面,在直接偏好优化设置中,奖励过度优化是如何表现的?
3)此外,虽然我们评估了参数最多达60亿的模型,但探索将DPO扩展到状态最先进、规模更大的模型(数量级更大)是一个令人兴奋的未来研究方向。
4)在评估方面,我们发现GPT-4计算的胜率受到提示的影响;未来的工作可以研究如何从自动化系统中获得高质量判断的最佳方式。
最后,DPO的应用远不止于从人类偏好中训练语言模型,还包括在其他模式下训练生成模型等多种可能性。