打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

科技 2024-11-01 13:25 北京

新智元报道

编辑：LRST

【新智元导读】CGPO框架通过混合评审机制和约束优化器，有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。

近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF逐渐成为调整和优化语言模型输出的主流方法。

尽管RLHF在处理复杂任务时表现出色，但其在多任务学习（MTL）中的表现却受限于「奖励欺骗」以及多目标优化中的矛盾问题。

传统的RLHF方法依赖于线性组合的奖励模型，不仅需要人工调参，且容易导致模型被某一任务的奖励优化「误导」。

最近Meta GenAI和FAIR团队提出了一个全新的后训练范式——Constrained Generative Policy Optimization （CGPO），通过引入「混合评审机制」（Mixture of Judges, MoJ）与高效的约束优化器，全面提升了RLHF在多任务环境中的表现。

论文链接：https://arxiv.org/pdf/2409.20370

实验结果表明，CGPO能够根据任务的不同需求灵活调整优化策略，并通过多任务梯度累积来实现模型的更新，使其在处理不同任务时均能达到最佳表现。

CGPO框架：打破RLHF瓶颈的全新设计

CGPO的核心在于它突破了传统RLHF对多任务学习的局限性，尤其是在奖励优化与任务目标冲突之间找到了新的平衡。通过混合评审机制，CGPO能够有效识别并消除「奖励欺骗」行为，即模型在某些任务中过度优化特定的奖励指标，进而导致其他任务的表现下降。

此外，CGPO的约束优化器具备自动化调节能力，使其可以在不依赖人工经验的情况下，找到不同任务间的最优平衡点。

CGPO采用了基于规则和LLM的双重评审机制。在规则评审中，预先定义的规则能够有效检测出模型生成结果是否符合任务需求，如解决数学问题的正确性、代码生成的准确性等；而LLM评审则利用语言模型的内在判断能力，检测生成内容的事实性、响应的安全性等，这对于处理复杂对话和开放性问题尤为重要。

CGPO的核心贡献

CGPO的设计从根本上解决了RLHF在多任务优化中的两大难题：

1. 奖励欺骗的防范

CGPO通过混合评审机制，在模型生成的过程中持续监控奖励欺骗行为，保证模型不会过度优化某一任务的奖励，而牺牲其他任务的表现。不同于传统RLHF方法，CGPO能够智能检测出不合规的生成内容，并通过约束策略进行调整。

2. 极端多目标优化问题的解决

多任务学习通常涉及多个甚至冲突的目标，传统的RLHF框架难以处理这些目标之间的平衡。而CGPO通过为每个任务单独设定评审和优化器，确保各任务能够独立优化其目标，避免了不同任务目标之间的相互妥协。最终，CGPO为多任务学习提供了更优的帕累托前沿解。

技术亮点：三大优化器与多评审机制

CGPO引入了三种主要的RLHF约束优化器——Calibrated Regularized Policy Gradient（CRPG）、Constrained Regularized Reward Ranking Finetuning（CRRAFT）、Constrained Online DPO（CODPO），这些优化器不仅有效解决了RLHF中的多任务优化难题，还具备强大的扩展性，适用于各种规模的LLM训练场景。

1. CRPG优化器：通过结合奖励建模与约束调整，确保模型生成高质量响应，同时防止偏离既定约束。实验中，CRPG在数学、编程等需要精确计算和逻辑推理的任务中表现尤为突出。

2. CRRAFT优化器：通过奖励排名策略，只保留满足所有约束条件的生成结果，同时提升奖励值。该优化器在真相问答、指令跟随等任务中表现出色。

3. CODPO优化器：通过直接偏好优化，使得高奖励值且符合约束的生成结果得以保留，提升模型整体表现。

CGPO处理多任务场景

在多任务环境下，CGPO通过“奖励模型 + 多任务判定器 (MoJs) + 优化器”的组合，为每个任务提供量身定制的对齐指导，从而更好地适应每个任务的独特特性，增加实现最优对齐结果的可能性。CGPO 框架的核心包括两个部分：多目标奖励建模和多专家对齐。

1. 多目标奖励建模

CGPO的多目标奖励建模不同于传统RLHF（在多目标场景中的方法。传统方法通常为所有任务使用统一的线性组合奖励模型，而CGPO则先将提示集 D按照性质分类为不同、不重叠的子集，即 D = {D1, D2,..., DL}，每个子集 Di 对应一个特定任务，例如包含有害意图的提示归为“有害意图”任务，而一般对话提示归为「普通对话」任务。

然后，针对每个任务，选择一个合适的奖励模型进行训练，以确保每个任务在优化过程中只关注自身的目标指标，避免其他任务目标的干扰。通过这种分类和奖励模型定制，CGPO 能更好地排除不相关或相互矛盾的目标，从而提高在每个任务中达成最优结果的可能性。

2. 多专家对齐

多专家对齐是指为每个任务应用定制化的多任务判定器（MoJs）、奖励模型和优化器设置。在每个任务生成样本后，使用专门为该任务定制的判定器来筛选不符合标准的生成结果。判定器的选择因任务而异，以反映各奖励模型的具体缺点和对LLM的预期标准。

例如，在「普通对话」任务中，判定器会专注于评估回复的真实性和拒答情况，从而提升模型的响应性和可靠性。

而在「推理」任务中，则使用基于规则的数学/编程判定器，以确保输出的准确性。在有约束要求且需要更广泛探索的任务（如指令跟随、数学和编程）中，CGPO 会采用较宽松的KL阈值，并允许每个提示生成更多的样本；而在不需要广泛探索的任务（如普通对话）中，则使用更严格的KL阈值，并减少生成样本的数量。

CGPO 在每次迭代中处理各个任务，基于任务特定的提示集、奖励模型、判定器来计算更新的梯度，然后将所有任务的梯度累加，并结合预定义的任务权重更新模型参数。通过这种方式CGPO 能在多任务、多约束的环境中高效地实现各任务之间的平衡与对齐，优化每个任务的独特目标。

最终，CGPO 的设计使其能够在多任务环境中更灵活地适应不同任务的需求，达成更高效的对齐和优化效果。

实验验证：CGPO的显著性能提升

在多项任务的测试中，CGPO展现了显著的性能优势。具体来说，在通用聊天任务（AlpacaEval-2）、STEM问题解答任务（Arena-Hard）、指令跟随（IFEval）、数学与推理（MATH和GSM8K）、编程任务（HumanEval）、以及知识问答（ARC Challenge）中，CGPO均大幅超越现有的RLHF算法如PPO和DPO。

实验数据显示，CGPO在AlpacaEval-2中相较PPO提升了7.4%，在Arena-Hard中提升了12.5%，而在数学推理任务（MATH和GSM8K）中，CGPO表现稳定，分别提升了2%，在人类评估（HumanEval）中的编程测试上则提升了5%

此外，PPO在编程任务中表现出奖励欺骗行为，导致模型在训练后期出现严重退化，而CGPO通过约束优化有效避免了这一问题，确保模型表现稳定。

在CGPO与PPO的性能对比中，CGPO结合CRPG和CRRAFT优化器在多个基准测试中持续提升，尤其在ARC Challenge、HumanEval、MBPP等任务上表现出色。

相比之下，PPO在编码任务中出现显著下滑，表明奖励欺骗问题严重。虽然CODPO优化器表现稍弱，但总体上仍优于DPO和PPO，特别是在安全性任务中，CODPO取得了最佳结果，展示了其在多任务微调中的卓越效果。

通过消融实验可以发现MoJs不仅能防止在在编码任务里的奖励欺骗，还显著提升了模型在MATH和GSM8K中的表现。

结论：CGPO为多任务学习的未来铺路

CGPO框架的提出，为强化学习与人类反馈在多任务学习中的应用提供了革命性的新思路。

通过创新的混合评审机制与三大约束优化器，CGPO不仅有效解决了奖励欺骗和极端多目标优化的难题，还为大型语言模型的后训练提供了更稳定和高效的优化路径。随着研究的深入，未来我们有望看到更多基于CGPO的自动化优化方法，进一步提升多任务学习的表现。

参考资料：

https://arxiv.org/pdf/2409.20370

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652535633&idx=4&sn=d6c10d79221b3139a12f2837ffa5b424

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉