斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

创业 2024-09-02 08:22 北京

可以说，人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而，先前的RLHF算法通常是一个复杂而脆弱的过程。
在经典的 RLHF 框架中，我们首先需要训练一个奖励模型来表示人类偏好，然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象（reward over-optimization）和奖励攻击（reward hacking）难题，虽然通过RL学习，奖励模型对LLM评估得到的性能会增加，但部署到实际场景中，性能会停滞甚至会下降。后来，有研究者提出直接对齐算法（Direct Alignment Algorithms，DAAs）来绕过奖励建模阶段，以缓解上述现象。
目前，DDA已经成为经典 RLHF pipeline的替代方案，但DAA是否存在类似的过度优化现象尚未得到很好的探索，本文介绍一篇来自斯坦福大学等研究机构的理论性工作，本文表明的观点在于，尽管 DAA 不使用单独的奖励模型，但其仍然会因过度优化而导致性能恶化。并且提出了一个统一不同DDA方法的理论框架，通过大量的实验（在不同模型规模和超参数下）证明并解释了过度优化问题的潜在原因。

论文题目：
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
论文链接：
https://arxiv.org/abs/2406.02900

一、引言

作为ChatGPT的底层优化算法，RLHF备受学术界和工业界的关注，因此产生了很多性能更优的变体。例如OpenAI的InstructGPT、Anthropic的Constitutional AI等，这些方法使用三阶段流程(SFT、奖励建模、RL)来对齐语言模型。OpenAI发表在ICML2023上的工作[1]首先对这类方法中的奖励过度优化现象进行了研究，过度优化在一定程度上影响了LLMs在实际场景中的可靠性和安全性。虽然后续出现的直接对齐算法DAA（例如Direct Preference Optimization[2]和Implicit Preference Optimization[3]）简化了传统RLHF的整体流程，但其仍然存在过度优化问题。

此外，在DAA研究社区中，尚未出现对DAA中过度优化现象的理论分析和解释，这导致研究者们无法针对性地对其进行改进。因此，本文的研究团队首先对不同DAA方法中的过度优化问题建立了一个理论框架，并探索了这种现象在不同模型规模和超参数下的表现。此外，本文还尝试将LLMs的缩放定律（Scaling Law）拓展到DAA中，这一创新性尝试为我们理解DAA的行为提供了新的视角。

二、RLHF和DAA的理论基础

传统的RLHF流程通常包含三个主要阶段，监督微调（Supervised Fine Tuning, SFT）、奖励建模（Reward Modeling）和强化学习训练。监督学习通过构建高质量的提示和问答对来训练LLM对下一个token进行最大似然估计，来得到初步训练的模型 。随后需要构建一个奖励模型，其目的是学习可以表示人类偏好的奖励函数，即使用SFT模型为每个提示生成答案对，并根据人类偏好对生成答案进行排序，整体上，偏好分布可以表示如下：

其中是未观察到的潜在奖励，是logistic函数，经过训练后我们可以得到参数化的奖励模型 。随后我们可以使用 对LLM进行进一步的更新，流行的方法通常使用PPO等策略梯度算法进行优化。尽管RLHF在具体实践中很有效，但它存在一个关键问题：奖励过度优化。由于LLM策略优化的是代理奖励估计 ，而不是真实的奖励函数，这导致随着训练迭代的进行，模型的期望奖励增加，但实际输出质量可能下降。

DAA算法的核心思想在于，其直接使用用户反馈来更新LLM策略 ，绕过单独的奖励函数拟合和RL阶段，极大地简化了RLHF的流程。在数学形式上，DAA首先基于RLHF目标的闭式解，并将带入奖励优化目标中得到DAA的目标函数：

三、对DAA中过度优化的实证分析

3.1 过度优化现象评估

为了清晰的展示直接对齐过程中过度优化的现象，作者评估了三种不同的训练DAA目标，分别是DPO[2]、IPO[3]和SLiC[4]。作者使用不同的 值（KL散度约束）训练模型，并使用GPT-4作为评判标准，计算模型生成摘要相对于数据集摘要的胜率，并通过绘制胜率图和KL散度图来对过度优化现象进行可视化，实验结果如下图所示。

评估实验在1B, 2.8B, 和6.9B三种模型规模上进行，每次对模型训练1个epoch，并在epoch内记录4个均匀分布的中间检查点，从上图中我们可以看到，参与实验的所有目标函数都表现出明显的过度优化，并且性能呈“驼峰型”模式，即随KL预算增加先上升后下降，在较大KL预算情况下，模型在处理25%数据后就达到最佳性能，之后开始下降。

为了进一步分析，作者在上图中进一步绘制了有关训练动态的其他结果，其中表明，1B模型在较小的KL预算下就开始过度优化，而6.9B模型则展现出了更好的win-rate和KL权衡，这表明，模型参数规模越大，越不容易出现DAA的过度优化现象。

3.2 将Scaling Law引入到DAA算法中

在得到评估DAA中过度优化的算法框架之后，作者开始探索能否将Scaling Law引入到该框架中。经典RLHF的先前工作已经为奖励模型得分建立了此类缩放定律，该定律可以衡量模型在初始策略和优化策略之间的 KL 散度，可以形式化表示为：

其中，，由于DAA不训练代理奖励模型，因此在DAA算法中，作者直接使用GPT-4模型的胜率替代 。令作者惊讶的是，这个缩放定律可以准确地将 和DAA的胜率联系起来。与 和胜率之间的二次拟合相比，这个缩放定律可以将误差RMSE减半。此外，作者还考虑了DAA算法中的长度偏好问题（Length Correlations）。先前有研究表明，DPO算法非常容易放大数据集中的冗长偏差，本文通过如下的实验表明，长度并不是过度优化唯一可以利用的维度。

上图左侧展示了使用标准训练和经过长度正则化方法的胜率性能，可以看出，这两种方法都存在过度优化的问题，但训练动态会根据 KL 预算的增加而有所不同。这表明，长度正则化虽然可以改变KL-胜率的约束区域，但无法消除过度优化现象，甚至在某些情况下，长度正则化可能会加剧过度优化。作者使用线性回归来分析DAA隐式奖励和长度之间的关系，其结果如上图右侧所示，回归形式可以表示如下：

其中是输入提示，是 DPO 隐性奖励对应的样本。作者绘制了不同模型大小的值的变化情况，从实验结果中可以看出，以DPO为代表的DAA算法存在明显的缩放定律行为，较弱的模型在简单长度特征上的推断程度比较强的模型高得多，例如上图中模型大小为2.8B的红色三角明显优于模型大小为6.9B的绿色叉号。基于这一结果，作者认为，在有限的模型容量下，无论是从模型能力还是从 KL 预算角度考虑，模型都会由于过度优化而产生特征外推，从而导致出现 OOD 问题。

四、DAA算法中奖励利用的本质

经过上述理论和实验分析，作者认为，虽然DAA方法不像传统RLHF那样使用单独的奖励模型，但它们仍然表现出类似的过度优化行为，本文试图在强化过程中的奖励利用方面来解释这一现象的潜在机制。作者首先对比了DAA和传统RLHF中的奖励利用问题：

传统RLHF中的奖励过度优化:

原因：优化时使用可能出现分布外（OOD）行为的代理奖励函数
表现：奖励函数对OOD样本给出错误的高奖励，导致性能下降

DAAs中的“隐式”奖励过度优化:

特点：没有单独的奖励模型，模型的OOD行为与“隐式”奖励模型直接相关
困难：难以直接应用传统RLHF中的解释手段

此外，本文作者指出，DAAs中的奖励建模目标不是严格凸的，这可能导致可能存在多个最优解，最终得到的结果可能出现在OOD响应空间中。为了进一步说明这一点，本文设计了一个简单的树形MDP实验。如下图所示，在树形结构中，每个状态有3个可能的动作，每个动作可以确定性地映射到下一个状态，所有叶节点最后整合得到终止状态。

作者对上述MDP执行标准训练程序，即先在偏好响应上进行SFT训练，然后使用DAA更新策略，同时记录不同DAA算法在训练过程中OOD轨迹的概率变化情况，实验结果如下图所示。

可以看出，DAA算法在训练过程中逐渐靠近了OOD轨迹，而在分布内（偏好对）轨迹的概率在训练期间降低。这揭示了DAAs的一个基本缺陷，即使在很简单的训练设置中，现有的DAA算法仍然会在OOD序列产生错误外推。因此作者认为，未来的DAA设计可能需要考虑如何引入额外的正则化项来约束OOD行为，同时能够设计新的目标函数，使问题更接近严格凸。这样可以从根本上解决强化过程中的过度优化问题。

五、总结

本文对RLHF中直接对齐算法（DAA）的过度优化问题进行了大量的分析，通过提出统一框架、设计创新性实验和理论分析，本文不仅描述了DAA中过度优化的表现，还探讨了其潜在机制。过对不同算法（DPO、IPO、SLIC）和不同模型规模（1B、2.8B、6.9B）的实验，作者观察到不同 KL 散度下一致的过度优化趋势。尽管DAA简化了传统RLHF流程，但仍面临类似的过度优化问题。这一发现对于改进大语言模型的对齐方法、设计更安全可靠的AI系统都有重要意义。此外，作者也为未来的研究指明了方向，例如改进DAA目标函数、开发新的正则化技术、深化理论分析等。

参考资料

[1] L. Gao, J. Schulman, and J. Hilton. Scaling laws for reward model overoptimization. International Conference on machine Learning, 2023.

[2] R. Rafailov, A. Sharma, E. Mitchell, C. D. Manning, S. Ermon, and C. Finn. Direct preference optimization: Your language model is secretly a reward model. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.

[3] M. G. Azar, M. Rowland, B. Piot, D. Guo, D. Calandriello, M. Valko, and R. Munos. A general theoretical paradigm to understand learning from human preferences, 2023.

[4] Y. Zhao, R. Joshi, T. Liu, M. Khalman, M. Saleh, and P. J. Liu. Slic-hf: Sequence likelihood calibration with human feedback. arXiv preprint arXiv:2305.10425, 2023.

llustration From IconScout By Rini Astiyah

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

service@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513647&idx=1&sn=a3b483d4f0ebdba0398e97f3fc5c8917

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉