翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

科技 2024-12-03 00:02 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 量子位

作者 | 梦晨西风

之前领导OpenAI安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。

当然是发～博～客。

前脚刚发出来，后脚就被大伙儿齐刷刷码住，评论区一堆人排队加待读清单。

还有不少OpenAI前同事转发推荐。

这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。

主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即Agent利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。

她强调奖励黑客行为在大模型的RLHF训练中的潜在影响，并呼吁更多研究关注理解和缓解这一问题。

在我看来，这是现实世界部署更多自主AI模型应用的主要障碍。

尝试定义Reward Hacking

传统概念强化学习中，Agent利用奖励函数中的缺陷或模糊性来获得高额奖励，而没有真正学习或完成预期任务，是一个常见的问题。

她举的例子包括：

机器人把手放在物体和摄像头之间，欺骗人类已经抓住物体了
以跳的更高为目标的Agent在物理模拟器中利用程序bug，完成不符合物理规律的跳跃。
……

在大模型中，Reward hacking则可能表现为：

摘要生成模型利用ROUGE评估指标的缺陷获得高分，但生成的摘要难以阅读。
代码模型篡改单元测试代码，甚至直接修改奖励本身。

翁荔认为Reward hacking的存在有两大原因：

强化学习环境通常不完美
准确指定奖励函数本质上是一项艰巨的挑战

语言模型兴起的时代，并且RLHF成为对齐训练事实上的方法，语言模型强化学习中的Reward hacking表现也相当令她担忧。

过去学术界对这个话题的研究都相当理论，专注于定义或证明Reward hacking的存在，然而关于实际该如何缓解这种现象的研究仍然有限。

她写这篇博客，也是想呼吁更多研究关注、理解和缓解这一问题。

为了定义Reward Hacking，翁荔首先回顾了近年来学术界提出的相关概念

包括奖励腐败(Reward corruption)、奖励篡改(Reward tampering)等等。

其中，Reward hacking这个概念，早在2016年由Anthropic创始人Dario Amodei共一论文提出。

当时他和另一位联创Chris Olah还在谷歌大脑，且已经与OpenAI联创John Schulman展开合作。

如今他们仨又在Anthropic汇合了……

言归正传，综合一系列研究，翁荔认为Reward Hacking在较高层次上可分为两类：

环境或目标设定不当：由于环境设计或奖励函数存在缺陷，导致Agent学到非预期行为。
奖励篡改：Agent学会直接干预奖励机制本身。

同时她也认为设计有效的奖励塑造机制本质上很困难。

与其责备设计不当的奖励函数，不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素，设计一个好的奖励函数本身就是一项内在挑战。

另外在分布外环境中测试强化学习Agent时，还可能出现以下问题：

模型即使有正确的目标也无法有效泛化，这通常发生在算法缺乏足够的智能或能力时。
模型能够很好地泛化，但追求的目标与其训练目标不同。

那么，为什么会出现Reward Hacking？根据Amodei等人2016年的分析成因包括：

环境状态和目标的不完全可观测性，导致奖励函数无法完美表征环境。
系统复杂性使其易受攻击，尤其是被允许执行改变环境的代码时。
涉及抽象概念的奖励难以学习或表述。
RL的目标就是高度优化奖励函数，这与设计良好的RL目标之间存在内在”冲突”。

此外，观察到的Agent行为可能与无数个奖励函数相一致，准确识别其真正优化的奖励函数在一般情况下是不可能的。

翁荔预计随着模型和算法的日益复杂，Reward Hacking问题会更加普遍。

更智能的模型更善于发现并利用奖励函数中的”漏洞”，使Agent奖励与真实奖励出现偏差。相比之下，能力较弱的算法可能无法找到这些漏洞。

那么，大模型时代的Reward Hacking，又有哪些独特之处？

语言模型中的Reward Hacking

在RLHF训练中，人们通常关注三种类型的奖励：

人们真正希望大模型优化的内容，被称为黄金奖励（Gold reward）
人类奖励（Human reward），实际用来评估大模型，在数据标注任务中来自个体人类，且标注有时间限制，并不能完全准确地反映黄金奖励‍‍
代理奖励（Proxy reward），也就是在人类数据上训练的奖励模型所预测的得分，继承了人类奖励的所有弱点，加上潜在的建模偏差

翁荔认为，RLHF通常优化代理奖励分数，但人们最终关心的是黄金奖励分数。

例如，模型可能经过优化，学会输出看似正确且有说服力的回答，但实际上却是不准确的，这可能会误导人类评估者更频繁地批准其错误答案。

换句话说，由于RLHF，“正确”与“对人类看似正确”之间出现了分歧。

在一项RLHF研究中，使用了大模型竞技场ChatbotArena数据训练奖励模型，就出现AI更擅长说服人类它们是正确的情况：

RLHF提高了人类对AI回答的认可度，但不一定就能提高AI的正确率。
RLHF削弱了人类对AI回答的评估能力，评估的错误率更高。
RLHF使错误的AI回答对于人类更有说服力，表现为评估的假阳性率显著增加。

此外，随着大模型越来越多作为评估者对其他模型提供反馈，也可能进一步引入偏差。

翁荔认为这种偏差尤其令人担心，因为评估模型的输出被用作奖励信号的一部分，可能容易被利用。

比如2023年一项实验中，简单改变候选答案的顺序就能改变结果，GPT-4倾向于给第一个答案高分数，ChatGPT（3.5）更倾向于第二个。

另外，即使不更新参数，大模型仅靠上下文学习能力也可能产生Reward hacking现象，称为ICRH（In-context Reward Hacking）。

ICRH与传统Reward Hacking还有两个显著不同：

ICRH在自我优化设置中的测试时间通过反馈循环发生，而传统Reward hking行为在训练期间发生。
传统Reward hacking行为出现在Agent专注于一项任务时，而ICRH则是由完成通用任务驱动的。

翁荔认为目前还没有避免、检测或预防ICRH的有效方法，仅仅提高提示的准确性不足以消除ICRH，而扩大模型规模可能会加剧ICRH。

在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

缓解措施

最后翁荔表示尽管有大量文献讨论奖励黑客现象，但少有工作提出缓解奖励黑客的措施。

她简要回顾了三种潜在方法。

一种是改进强化学习算法。

前面提到的Anthropic创始人Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中，指出了一些缓解方向，包括：

对抗性奖励函数（Adversarial reward functions）、模型预测（Model Lookahead）、对抗性盲化（Adversarial blinding）、谨慎的工程设计（Careful engineering）、奖励上限（Reward capping）、反例抵抗（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预训练（Reward pretraining）、变量不敏感性（Variable indifference）、陷阱机制（Trip wires）。

此外，谷歌DeepMind团队此前提出了“解耦批准”的方法来防止奖励篡改。

在这种方法中，收集反馈的行为与实际执行的行为是分开的，反馈会在行为执行前就给出，避免了行为对自己反馈的影响。

另一种潜在缓解措施是检测奖励黑客行为。

将奖励黑客行为视为一个异常检测任务，其中检测器应标记出不一致的实例。

给定一个可信策略和一组手动标注的轨迹回放，可以基于可信策略和目标策略这两个策略的动作分布之间的距离构建一个二分类器，并测量这个异常检测分类器的准确性。

之前有实验观察到，不同的检测器适用于不同的任务，而且在所有测试的强化学习环境中，没有任何测试的分类器能够达到60%以上的AUROC。

第三种潜在缓解措施是分析RLHF数据。

通过检查训练数据如何影响对齐训练结果，可以获得有关预处理和人类反馈收集的见解，从而降低奖励黑客风险。

哈佛大学与OpenAI研究人员今年合作提出了一套评估指标，用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐（SEAL）。

这一篇博客关于缓解措施的部分还只是“初探”，翁荔对下一篇内容给出了预告：

希望我很快能在一篇专门的帖子中涵盖缓解措施部分

关于翁荔

翁荔是OpenAI前华人科学家、ChatGPT的贡献者之一，本科毕业于北大，在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间，后担任Dropbox软件工程师。

她于2017年初加入OpenAI，在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中，翁荔领导安全系统团队（Safety Systems），解决减少现有模型如ChatGPT滥用等问题。

最著名的Agent公式也由她提出，即：Agent=大模型+记忆+主动规划+工具使用。

其Google Scholar引用量达14000+。

一个月前，翁荔短暂回国现身2024Bilibili超级科学晚活动，以《AI安全与“培养”之道》为主题进行了演讲分享。

这也是她首次在国内大型活动场合公开发表AI主题演讲。

之后没几天，翁荔突然发推文表示决定离职OpenAI。

目前她还没有宣布下一个计划，推特签名透露会与AI安全相关。

领英和谷歌学术页面也还挂着OpenAI，均未更新。

原文：
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

参考链接：
[1]https://x.com/lilianweng/status/1863436864411341112

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉