可以说,人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而,先前的RLHF算法通常是一个复杂而脆弱的过程。 在经典的 RLHF 框架中,我们首先需要训练一个奖励模型来表示人类偏好,然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象(reward over-optimization)和奖励攻击(reward hacking)难题,虽然通过RL学习,奖励模型对LLM评估得到的性能会增加,但部署到实际场景中,性能会停滞甚至会下降。后来,有研究者提出直接对齐算法(Direct Alignment Algorithms,DAAs)来绕过奖励建模阶段,以缓解上述现象。 目前,DDA已经成为经典 RLHF pipeline的替代方案,但DAA是否存在类似的过度优化现象尚未得到很好的探索,本文介绍一篇来自斯坦福大学等研究机构的理论性工作,本文表明的观点在于,尽管 DAA 不使用单独的奖励模型,但其仍然会因过度优化而导致性能恶化。并且提出了一个统一不同DDA方法的理论框架,通过大量的实验(在不同模型规模和超参数下)证明并解释了过度优化问题的潜在原因。
目前,DDA已经成为经典 RLHF pipeline的替代方案,但DAA是否存在类似的过度优化现象尚未得到很好的探索,本文介绍一篇来自斯坦福大学等研究机构的理论性工作,本文表明的观点在于,尽管 DAA 不使用单独的奖励模型,但其仍然会因过度优化而导致性能恶化。并且提出了一个统一不同DDA方法的理论框架,通过大量的实验(在不同模型规模和超参数下)证明并解释了过度优化问题的潜在原因。
论文题目:
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
论文链接:
https://arxiv.org/abs/2406.02900
一、引言
作为ChatGPT的底层优化算法,RLHF备受学术界和工业界的关注,因此产生了很多性能更优的变体。例如OpenAI的InstructGPT、Anthropic的Constitutional AI等,这些方法使用三阶段流程(SFT、奖励建模、RL)来对齐语言模型。OpenAI发表在ICML2023上的工作[1]首先对这类方法中的奖励过度优化现象进行了研究,过度优化在一定程度上影响了LLMs在实际场景中的可靠性和安全性。虽然后续出现的直接对齐算法DAA(例如Direct Preference Optimization[2]和Implicit Preference Optimization[3])简化了传统RLHF的整体流程,但其仍然存在过度优化问题。
此外,在DAA研究社区中,尚未出现对DAA中过度优化现象的理论分析和解释,这导致研究者们无法针对性地对其进行改进。因此,本文的研究团队首先对不同DAA方法中的过度优化问题建立了一个理论框架,并探索了这种现象在不同模型规模和超参数下的表现。此外,本文还尝试将LLMs的缩放定律(Scaling Law)拓展到DAA中,这一创新性尝试为我们理解DAA的行为提供了新的视角。
二、RLHF和DAA的理论基础
三、对DAA中过度优化的实证分析
3.1 过度优化现象评估
评估实验在1B, 2.8B, 和6.9B三种模型规模上进行,每次对模型训练1个epoch,并在epoch内记录4个均匀分布的中间检查点,从上图中我们可以看到,参与实验的所有目标函数都表现出明显的过度优化,并且性能呈“驼峰型”模式,即随KL预算增加先上升后下降,在较大KL预算情况下,模型在处理25%数据后就达到最佳性能,之后开始下降。
3.2 将Scaling Law引入到DAA算法中
上图左侧展示了使用标准训练和经过长度正则化方法的胜率性能,可以看出,这两种方法都存在过度优化的问题,但训练动态会根据 KL 预算的增加而有所不同。这表明,长度正则化虽然可以改变KL-胜率的约束区域,但无法消除过度优化现象,甚至在某些情况下,长度正则化可能会加剧过度优化。作者使用线性回归来分析DAA隐式奖励和长度之间的关系,其结果如上图右侧所示,回归形式可以表示如下:
四、DAA算法中奖励利用的本质
经过上述理论和实验分析,作者认为,虽然DAA方法不像传统RLHF那样使用单独的奖励模型,但它们仍然表现出类似的过度优化行为,本文试图在强化过程中的奖励利用方面来解释这一现象的潜在机制。作者首先对比了DAA和传统RLHF中的奖励利用问题:
传统RLHF中的奖励过度优化:
原因:优化时使用可能出现分布外(OOD)行为的代理奖励函数
表现:奖励函数对OOD样本给出错误的高奖励,导致性能下降
DAAs中的“隐式”奖励过度优化:
特点:没有单独的奖励模型,模型的OOD行为与“隐式”奖励模型直接相关
困难:难以直接应用传统RLHF中的解释手段
作者对上述MDP执行标准训练程序,即先在偏好响应上进行SFT训练,然后使用DAA更新策略,同时记录不同DAA算法在训练过程中OOD轨迹的概率变化情况,实验结果如下图所示。
五、总结
参考资料
[1] L. Gao, J. Schulman, and J. Hilton. Scaling laws for reward model overoptimization. International Conference on machine Learning, 2023.
[2] R. Rafailov, A. Sharma, E. Mitchell, C. D. Manning, S. Ermon, and C. Finn. Direct preference optimization: Your language model is secretly a reward model. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
[3] M. G. Azar, M. Rowland, B. Piot, D. Guo, D. Calandriello, M. Valko, and R. Munos. A general theoretical paradigm to understand learning from human preferences, 2023.
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。