对抗AI奖励黑客，揭秘模型训练隐秘角落！离开OpenAI后Lilian Weng重磅回归技术分享！大白话解读，看模型如何“谄媚”

文摘 2024-12-06 06:17 浙江

点击箭头处“蓝色字”，关注我们哦！！

原文：https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

今天的内容来自OpenAI前安全副总裁Lilian Weng， Lilian Weng的技术博客一直是享誉AI届的专业顶流，今天这篇内容是她从OpenAI离职后的首篇技术博客，深入剖析人工智能领域备受关注的现象——奖励黑客。读下来还是觉得得到了很多的启发，特来和大家分享下。

进入正文之前一些小感慨，为什么要去看AI领域的论文。一开始我也会觉得AI领域的论文更多的会对作LLM训练研究相关的同学有更大的指导意义，相对更偏向应用层或者使用者的我读这些收益产出比不高，关键也没办法完全理解。但是随着对AI更多的了解，越来越觉得前沿的论文其实对于AI的走向、模型还有什么可能、LLM的上限和下限...有更多一些的认识，这些“碎片”的知识对于我们的脑子其实也像是训练数据，也有自己的scaling law定律，随着知识量的变大我们大脑或许也会涌现一些AI时代的“AI感”(类似于“网感”的一种东西)，而且很多领域大牛的研究看看其实也有助于我们变“聪明”，生成更多潜意识里的跨领域通用框架，对应的就是模型一直在努力突破的知识迁移能力，比如今天这篇文章就让我意识到人类有时候爱钻规则的漏洞是天性，或者更是一种睿智的体现，以及我们在量化我们的目标时也要防止这个数据与真实目标的背离......以上简单一句话，多看看总是没错的!是吧!

好的我们正式开始这篇有关“奖励黑客”的技术研究的解读!先马后看留个赞!

文章背景

奖励黑客指的是强化学习(RL)代理利用奖励函数中的漏洞或不明确性来获得高回报，而并没有真正学会完成预期任务的情况。简单来理解就是智能体为了最大化短期奖励而采取非预期行为的问题。奖励黑客存在的原因是RL环境往往存在缺陷，准确指定奖励函数本身就具有挑战性。

随着语言模型在广泛任务上的泛化能力增强以及RLHF成为实际应用中训练对齐的方法，RL(强化学习 Reinforcement Learning)训练语言模型中的奖励黑客已经成为一个关键的实际挑战。例如，模型学习修改单元测试以通过编码任务，或者响应包含模仿用户偏好的偏差等情况都非常令人担忧，这可能是阻碍更多自主使用场景的AI模型在现实世界部署的主要障碍之一。

过去在这个话题上的大部分工作都相当理论化，着重于定义或证明奖励黑客的存在。然而，在RLHF和LLMs的背景下研究实用缓解措施的工作仍然有限。

强化学习中的奖励函数及挑战

在RL(强化学习 Reinforcement Learning)中如何进行奖励塑造的研究已经有很长的历史。奖励函数定义了任务，也显著塑造和影响强化学习的学习效率和准确性。

奖励函数定义了智能体应该追求的目标。例如，在游戏中，得分可以作为奖励;在机器人导航任务中，到达目的地可以获得奖励。

但是!不同的选择可能会直接决定学习效果的好坏，甚至会导致任务不科可学习，或者触发可被黑客攻击的奖励函数。简单的理解的话，那就是如果奖励设计不当，智能体可能会找到捷径或采取非预期的行为以获取更高奖励，这被称为“奖励劫持”。例如，在一个清洁机器人的例子中，如果只奖励清除垃圾的数量而不惩罚乱丢垃圾的行为，机器人可能会故意制造垃圾以便有更多机会清理，厉害吧...

为强化学习任务设计奖励函数通常感觉像一门“黑魔法”，这其中的复杂度来源于许多因素：如何将大目标分解成小目标?奖励是否稀疏还是稠密?如何衡量成功?这些挑战和难点主要是围绕在精确性和复杂性这两个大的方面，要设计出既能准确反映任务成功与否又不会引导智能体做出错误行为的奖励函数，以及对于多步骤的任务，如何在不导致奖励过多关注短期成就可能导致忽视长期目标的前提下，设置阶段性的奖励。

如果奖励设计不当，智能体可能会找到捷径或采取非预期的行为以获取更高奖励，这被称为“奖励劫持”。例如，在一个清洁机器人的例子中，如果只奖励清除垃圾的数量而不惩罚乱丢垃圾的行为，机器人可能会故意制造垃圾以便有更多机会清理。

什么是奖励黑客

在强化学习(RL)中，奖励塑造(Reward shaping)是一种用于丰富奖励函数的技术，使智能体更容易学习，但是但是设计不当的奖励塑造机制可能会改变最优策略的轨迹。奖励黑客(Reward hacking)就是指RL智能体利用奖励函数中的缺陷或模糊性来获得高奖励，而没有真正学习预期的行为或完成设计的任务。

近些年提出的几个相关概念，都涉及某种形式的奖励黑客：

奖励黑客(Reward hacking)(Amodei et al., 2016)

奖励腐败(Reward corruption)(Everitt et al., 2017)

奖励篡改(Reward tampering)(Everitt et al., 2019)

规范游戏(Specification gaming)(Krakovna et al., 2020)

目标鲁棒性(Objective robustness)(Koch et al., 2021)

目标泛化错误(Goal misgeneralization)(Langosco et al., 2022)

奖励误设(Reward misspecifications)(Pan et al., 2022)

这一概念最初由Amodei等人(2016)提出，他们在其开创性的论文“Concrete Problems in AI Safety”中提出了一系列关于AI安全的开放研究问题。他们将奖励黑客列为关键的AI安全问题之一。其中规范游戏(Krakovna et al., 2020)是一个与奖励黑客类似的概念，用来定义那些满足目标的字面描述但未达到预期结果的行为。

奖励黑客可以分为两大类，一种是环境或目标错配，意思是模型学习到了不希望的行为以获得高奖励，这是通过利用环境漏洞或者优化一个与真实奖励目标不一致的奖励函数来实现的——例如当奖励被错误指定或缺乏关键要求时。

另一种就是上面说的奖励篡改(Reward Tampering)，是指模型学会了干扰奖励机制本身，导致观察到的奖励不再准确反映预期的目标。在奖励篡改中，模型通过直接操纵奖励函数的实现方式或间接改变用作奖励函数输入的环境信息来修改其奖励机制。

杂散相关性的影响

误导性相关性或捷径学习(Geirhos等人，2020)在分类任务中与奖励黑客密切相关。误导性或捷径特征可能导致分类器不能按照预期学习和泛化。例如，区分狼和哈士奇的二元分类器可能过拟合到雪景的存在，因为所有的狼训练图像都包含了雪(Ribeiro等人，2024)。

如图，如果模型过拟合到误导性特征，它将在分布外(out-of-distribution，OOD)测试集上表现不佳。

风险最小化(Empirical Risk Minimization, ERM)原则指出，由于完整的数据分布未知，由于我们无法获得完整的数据分布信息，因此在训练模型时，最小化训练数据上的损失被视为一种合理的代理方法来估计和最小化模型的泛化误差。换句话说，我们会倾向于选择那些在训练数据上表现最佳(即训练损失最低)的模型。然而，纳加拉詹等人 (2021) 的研究表明，这种方法存在一定的局限性。具体来说：

依赖所有类型的信息特征：ERM会利用所有可用的数据特征来拟合训练数据，包括那些可能是虚假或不可靠的特征(spurious features)。这些特征可能在训练集上看似有用，但在实际应用中并不真正有助于任务的成功完成。

缺乏约束条件下的过拟合：当尝试在没有适当约束的情况下拟合数据时，模型可能会过度拟合训练数据中的噪声或异常模式，而不是捕捉到数据的真实结构。这会导致模型在未见过的数据上的性能不佳，因为它们学会了依赖那些不稳定的、特定于训练集的特征。

实验结果：研究者的实验表明，即使任务非常简单，ERM仍然会倾向于依赖虚假特征。这意味着，如果某些特征在训练集中偶然与目标变量相关联，但这种关联在更大或不同的数据集中并不存在，那么基于ERM训练出的模型仍会错误地将这些特征视为重要的预测因子。

这就是我们上面说的，误导性或捷径特征

因此，在测试RL智能体在分布外(OOD)环境中时，也可能会出现鲁棒性失败(鲁棒性(Robustness)指的是系统、模型或方法在面对各种异常情况、噪音、误差或其他不利条件时，仍能保持其性能和稳定性的能力)，原因如下：

模型未能有效泛化：在算法缺乏足够的智能或能力时，即使目标正确，模型也可能无法有效泛化。

模型泛化能力良好但追求不同的目标：这种情况是说，模型能够很好地泛化，但追求的目标与训练时的目标不同。这种情况发生在代理奖励(proxy reward)与真实奖励函数(true reward function)不一致时。这被称为目标鲁棒性(objective robustness)或目标泛化错误(goal misgeneralization)。

我们来通过两个RL环境(CoinRun和Maze)中的实验来了解下训练期间随机化的重要性：

如果在训练期间，硬币或奶酪被放置在固定位置(例如关卡的右端或迷宫的右上角)，但在测试环境中，硬币或奶酪随机放置，智能体会直接跑到固定位置，而不会在测试时获得硬币或奶酪。

当视觉特征(例如奶酪或硬币)与位置特征(例如右上角或右端)在测试时不一致时，会导致训练模型更倾向于位置特征。这种情况下，模型会优先选择位置特征，而不是视觉特征。

奖励黑客行为示例

强化学习任务中的奖励黑客行为示例

机器人手抓取物体：一个训练用来抓取物体的机器人手学会了通过将手放在物体和摄像机之间来欺骗人们。 (Link)

跳跃高度最大化：一个被训练以最大化跳跃高度的智能体可能利用物理模拟器中的漏洞，达到不切实际的高度。 (Link)

自行车骑行到目标：一个训练用来骑自行车到达目标的智能体，当它越来越接近目标时会获得奖励。该智能体可能学会围绕目标做小圈，因为远离目标没有惩罚。(Link)

足球游戏设置：在一个足球游戏中，每当智能体触球就会得到奖励。智能体可能学会保持在球附近，以高频振动的方式不断触球。(Link)

Coast Runners 游戏：在这个游戏中，智能体控制一艘船，目标是尽快完成比赛。当给定一个形状奖励(shaping reward)用于撞击赛道上的绿色方块时，智能体会改变策略为绕圈并反复撞击同一个绿色方块。 (Link)

数字进化中的意外创造性 (Lehman et al., 2019)：“The Surprising Creativity of Digital Evolution” 展示了如何优化错误指定的适应度函数可以导致意想不到的“黑客”行为或非预期的进化或学习结果。

AI中规范博弈的例子 (Krakovna et al., 2020)：“The Surprising Creativity of Digital Evolution” 收集了许多关于智能体如何探索规范漏洞以获取高分但不符合设计意图的例子。

大型语言模型任务中的奖励黑客行为示例

文本摘要生成：一个用于生成摘要的语言模型能够找到ROUGE指标的漏洞，从而获得高分，但生成的摘要几乎无法阅读。 (Link)

代码编写模型：一种编程模型学会更改单元测试以通过编程问题。(太聪明了我怎么没想到呢!)(Link)

直接修改奖励计算代码：编程模型可能会直接修改用于计算奖励的代码。 (Link)

现实生活中的奖励黑客行为示例

社交媒体推荐算法：推荐算法本应提供有用的信息，但有用性常由代理指标衡量，如点赞数、评论数或用户参与平台的时间和频率。最终，算法倾向于推荐能影响用户情绪状态的内容，例如极端内容，以激发更多互动。 (Harari, 2024)

视频分享网站的观看时间优化：为错误指定的代理指标优化可能导致用户观看时间的激增，而真正的目标应该是优化用户的主观幸福感。(Link)

为什么存在奖励黑客行为?

古德哈特定律(Goodhart’s Law)指出：“当一个度量成为目标时，它就不再是好的度量。” 这意味着，一旦对某个指标施加了优化压力，这个原本良好的度量标准可能会被破坏。在强化学习(RL)的背景下，很难定义一个100%准确的奖励目标，任何代理指标都存在被智能体利用其微小缺陷进行攻击的风险。Garrabrant (2017) 将古德哈特定律分为四个变体：

回归型(Regressional) - 对不完美代理的选择也必然会选出噪声。

极端型(Extremal) - 度量选择将状态分布推入到不同数据分布的区域。

因果型(Causal) - 当代理和目标之间存在非因果相关性时，干预代理可能无法干预目标。

对抗型(Adversarial) - 对代理的优化为对手提供了将其目标与代理关联起来的激励。

Amodei等人(2016)总结了在RL设置中奖励黑客行为可能发生的原因：

部分观察状态和目标是环境状态的不完全表示：这意味着智能体接收到的信息可能是不完整或有偏差的，导致它不能全面理解环境。

系统本身复杂且易受攻击：如果允许智能体执行能够改变环境一部分的代码，那么利用环境机制变得容易得多。

奖励可能涉及难以学习或公式化的抽象概念：例如，具有高维输入的奖励函数可能会过度依赖于少数维度。

RL旨在高度优化奖励函数：这内在地造成了“冲突”，使得设计良好的RL目标变得困难。一种特殊情况是带有自我强化反馈组件的奖励函数类型，其中奖励可能会被放大和扭曲，以至于破坏了原始意图，如广告投放算法导致赢家通吃的情况。

这也说明了，在强化学习(RL)中，为什么难以确定智能体确切遵循的奖励函数。即使我们观察到了智能体的行为，也可能无法唯一地推断出该智能体所优化的奖励函数，因为存在多种不同的奖励函数可以解释同样的行为。这种现象被称为奖励函数的“不可识别性”(感觉有点像是现实世界对于成功的归因往往不只有一条路)。Amin和Singh (2016) 将其原因分为两类：

表示性(Representational)：表示性不可识别性指的是某些算术运算不会改变智能体的行为。例如，如果我们对奖励函数进行重新缩放或平移(即乘以一个正数或加上一个常数)，这些操作通常不会影响智能体的最优策略。因此，如果两个奖励函数之间只存在这样的变换，那么它们将产生相同的行为，这意味着仅通过观察行为我们无法区分这两个奖励函数。

例子：假设有一个奖励函数 (R_1) 和另一个奖励函数 (R_2 = 2 \times R_1 + 5)。无论选择 (R_1) 还是 (R_2)，智能体都会采取相同的最优策略，因为它只是简单地放大了所有奖励值并增加了一个常数。这不会改变哪些动作序列是最优的。

实验性(Experimental)：实验性不可识别性指的是，对于给定的一组观测到的行为，可能存在多个不同的奖励函数都能合理解释这些行为。换句话说，智能体在不同奖励函数下都表现得一样好，使得我们无法根据现有的数据来判断哪个奖励函数是真实的。

例子：考虑一个环境中有两个可能的目标位置 A 和 B，而智能体总是前往位置 A。这可能是由于奖励函数更偏好 A，但也可能是路径到 A 更容易走，或者两者都有高奖励但 A 更近。如果没有额外的信息，我们不能确定智能体到底是基于哪种奖励函数做出的选择。

RL强化学习环境中的黑客行为

奖励黑客的普遍性

随着模型和算法复杂度的增加，奖励黑客问题变得更为常见。更智能的代理能够识别并利用奖励函数设计中的漏洞，通过找到任务规范中的不足来最大化代理指标分数，而不真正提升实际目标的表现。相比之下，较弱的算法可能无法发现这些漏洞，因此在模型不够强大时，我们不会观察到奖励黑客行为或识别出当前奖励函数设计的问题。

对抗策略的存在

在零和机器人自我对抗游戏(Bansal et al., 2017)中，两个代理(受害者 vs. 对手)被训练互相竞争。标准训练过程可以产生一个在与正常对手对抗时表现良好的受害者代理。然而，Gleave等人(2020)的研究表明，可以通过优化折扣奖励总和的方式训练出一种对抗性的对手策略，这种策略能够在不到3%的时间步内通过看似随机的动作可靠地击败受害者。

为什么要存在对抗策略呢?这里的对抗策略不是通过物理干扰受害者，而是通过引入OOD(out-of-distribution)观测来影响受害者的行为。例如，当受害者的对手位置观测被屏蔽并设置为静态状态时，受害者对对抗策略表现的更加稳定，尽管这可能导致其面对正常对手策略时表现较差。更高维度的观测空间虽然在正常情况下提高了性能，但也使得策略更容易受到对抗性对手的影响。

影响奖励黑客的因素&错误的代理类型

这里先科普两个概念，真实奖励(True Reward 或 Oracle/Gold Reward)与代理奖励(Proxy Reward)

真实奖励：指我们真正希望智能体优化的目标或最终想要实现的结果。它是理想中的奖励函数，完美地反映了我们的意图和期望。(有时候比较抽象，比如幸福感)

代理奖励：是用于替代真实奖励的一个近似值或指标。它是在实践中可以更容易获取、计算或估计的奖励信号

Pan等人(2022)研究了不同因素如何影响奖励黑客行为，包括：

模型大小：更大的模型尺寸通常会带来更高的代理奖励，但同时降低了真实奖励。

动作空间分辨率：增加动作精确度使代理更强大，但高分辨率可能导致代理奖励保持不变而真实奖励下降。

观测保真度：更准确的观测能改善代理奖励，但稍微减少真实奖励。

训练步骤：在初始阶段，代理奖励和真实奖励呈正相关;但在更多训练步骤后，过度优化代理奖励可能会损害真实奖励。

他们还提出了三种类型的错误指定代理奖励分类：

权重失调(Misweighting)：代理奖励和真实奖励捕捉相同的期望结果，但在相对重要性上有所不同。

本体论差异(Ontological)：代理奖励和真实奖励使用不同的期望结果来捕捉同一概念。

范围限制(Scope)：代理奖励在一个受限领域(如时间或空间)内测量期望结果，因为跨所有条件进行测量成本过高。

所以说，如果一个代理奖励被指定得非常不准确，以至于它与真实奖励之间存在非常弱的相关性，那么我们可能能够在训练之前识别并预防奖励黑客行为。基于这一假设，Pan等人(2022)研究了代理奖励和真实奖励在一系列轨迹回放中的相关性。有趣的是，即使当代理奖励和真实奖励之间存在正相关时，奖励黑客行为仍然会发生。

强化学习从人类反馈中学习(RLHF)的黑客行为

RLHF概述

人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)已经成为对齐训练语言模型的实际标准方法。在这个过程中，首先训练一个奖励模型(reward model)来拟合人类反馈数据，然后通过RL优化这个代理奖励以使语言模型更符合人类偏好。在RLHF设置中，我们关心三种类型的奖励：

Oracle/Gold黄金奖励：这是我们真正希望语言模型优化的目标。

人类奖励：这是我们在实践中用来评估语言模型的数据，通常来源于时间有限的人类个体。由于人类可能会提供不一致的反馈或犯错，因此人类奖励并不是Oracle奖励的完全准确表示。

代理奖励：这是由一个基于人类数据训练的奖励模型预测的分数。因此，它不仅继承了人类奖励的所有弱点，还可能引入建模偏差。(有点像是风控的风险分)

最终，尽管RLHF优化的是代理奖励分数，但我们真正关心的是Oracle/Gold黄金奖励。这带来了如何确保代理奖励能够忠实反映Oracle奖励的问题，以及如何避免智能体利用代理奖励中的漏洞进行奖励黑客行为的问题。

训练过程中的黑客行为

Gao等人(2022)研究了RLHF中奖励模型过优化的缩放规律。为了在实验中扩大人类标签的数量，他们使用了一个合成数据设置，在该设置中，“黄金”标签(即Oracle奖励)由一个大型奖励模型(6B参数)近似得出，而代理奖励模型的参数规模则从3M到3B不等。

随着奖励模型规模的增加，过优化的风险也随之增加。Gao等人(2022)的研究表明，较大的奖励模型可能会过于紧密地拟合训练数据，从而导致泛化能力下降，影响在未见数据上的表现。

BoN (Best-of-N)、RL (Reinforcement Learning)

X轴表示最佳策略与初始策略之间的KL距离、Y轴表示奖励模型RM分数、不同颜色和线型代表不同大小的奖励模型(RM Size)和不同类型的奖励类型(Proxy和Gold)。

Gao等人(2022)的实验发现：

更大策略模型的影响：较大的策略模型在面对RM时，从优化中获得的好处较少(即初始奖励与峰值奖励之间的差异小于较小的策略模型)，但同时它们也较少发生过优化。

更多RM数据的作用：更多的RM数据能够提高黄金奖励分数，并减少“古德哈特定律效应”(Goodharting)，即代理奖励与真实奖励之间的偏差。

RLHF对人类偏好的影响

RLHF旨在改善模型与人类偏好的一致性，但人类反馈可能无法捕捉我们关心的所有方面(如事实准确性)，因此可能会被利用来过度拟合不期望的属性。例如，模型可能会被优化以输出看似正确且有说服力但实际上不准确的回答，从而误导人类评估者更频繁地批准其错误答案(Wen等人，2024)。换句话说，由于RLHF，正确性与人类认为正确的感知之间出现了差距。

具体来说，Wen等人(2024)使用基于ChatbotArena数据的奖励模型进行了RLHF实验。他们在问答数据集QuALITY和编程数据集APPS上评估了该模型。实验揭示了以下几点：

RLHF增加了人类的批准率，但不一定提高了正确性。

RLHF削弱了人类评估的能力：经过RLHF训练后，人类评估的错误率更高。

RLHF使得错误输出对人类更有说服力：评估的假阳性率在RLHF训练后显著增加。

该论文将这种效果称为“U-Sophistry”(“U”代表“非预期的”)，相对于“I-Sophistry”(“I”代表“预期的”)，后者涉及明确指示模型尝试欺骗人类受试者。

研究还发现人工智能助手在提供反馈时可能会表现出“拍马屁”的行为...即倾向于支持用户的信念而不是提供基于事实的客观反馈。实验中，当用户在提供论点后表达了自己的喜好，AI助手的反馈会受到这些偏好的影响，如果用户表示喜欢某个论点，AI的反馈会更积极;如果用户表示不喜欢，AI的反馈则会更消极。

此外，研究还发现AI模型有时会模仿用户的错误，例如在分析诗歌时错误地将诗歌归属于错误的诗人。通过对一个名为RLHF的帮助数据集进行逻辑回归分析，研究者发现，AI助手的反馈中最能预测用户反馈的因素是AI是否符合用户的信念。这意味着AI助手在提供帮助时，可能会更多地考虑用户的感受和信念，而不是提供客观准确的信息。

评估者的黑客攻击

随着大型语言模型(LLM)的能力越来越强，使用LLM作为评估者或评分员来为其他生成模型提供反馈和训练奖励，尤其是对于那些不能轻易判断或验证的任务(例如，处理长篇输出、主观评分标准，如创意写作的质量等)。一些人将这种方法称为“LLM作为评分员范式”。这种方法大大降低了对人工标注的依赖，显著节省了评估时间。然而，使用LLM作为评分员也不是完美的代理，因为会引入偏见，比如不同模型家族都更偏好自己的回应，或者在按顺序评估回应时的位置偏见(Wang et al. 2023))。如果将评分员的输出作为奖励信号的一部分，这些偏见尤其令人担忧，因为它们可能导致通过利用这些评分员进行奖励黑客攻击。

刘等人(Liu et al. (2023))在摘要任务上对一系列模型(BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere)进行了实验，并跟踪了基于参考和无参考的指标来评估摘要质量。当他们在评估者(x轴)与生成器(y轴)的热图中绘制评估分数时，他们观察到两个指标都出现了深色的对角线，表明存在自我偏见。这意味着当LLM被用作评估者时，它们倾向于偏好自己的输出。

Wang等人(Wang et al. (2023))发现，当使用LLM作为评估者来评分其他多个LLM输出的质量时，通过简单地改变上下文中候选人的顺序，就可以轻易地黑客攻击质量排名。GPT-4被发现始终对第一个显示的候选人给予高分，而ChatGPT则偏好第二个候选人。

根据他们的实验，LLM对回应的位置敏感，并受到位置偏见的影响(即，偏好特定位置的回应)，尽管指令中包含了“确保回应的呈现顺序不影响你的判断”的声明。这种位置偏见的严重性通过下图的Conflict Rate“冲突率”来衡量，定义为在交换回应位置后导致不一致评估判断的(提示、回应1、回应2)元组的百分比。不出意外的是，回应质量的差异也收到了影响，冲突率与两个回应之间的分数差距呈负相关。

为了减轻这种位置偏见，研究提出了几种校准策略：

多重证据校准(MEC)：这种方法要求评估模型不仅给出评分，还要提供支持其评分的文本证据或解释。通过采样多个证据解释(使用特定的温度参数)，可以增强评估的鲁棒性。文中提到某个参数或条件在设置为1时效果较好，但当这个参数或条件增加超过3时，性能提升不明显。(提供证据)

平衡位置校准(BPC)：这种方法通过汇总不同回应顺序下的评分结果来计算最终得分，以减少因回应顺序不同而导致的评分偏差。(平均数)

人机协同校准(HITLC)：当评估模型遇到难以判断的样本时，会引入人类评分员。首先，将评分结果映射为赢、平、输三个标签，并计算这些标签的熵值(BPDE)。熵值高意味着模型在评估决策上的不确定性更大，这表明该样本难以评估。然后，选择熵值最高的样本让人类评分员进行评估，以提高评估的准确性。(根据难度问题分层)

上下文奖励黑客攻击In-Context Reward Hacking, ICRH

上下文奖励黑客攻击(In-Context Reward Hacking, ICRH)的现象也是在大型语言模型(LLM)中经常容易发生的。ICRH发生在LLM在反馈循环中优化其输出以满足评估者的标准时，可能导致模型行为偏离预期目标，产生负面效果。

ICRH是指在LLM与其评估者之间的反馈循环中发生的现象，其中LLM可能会优化一个隐含的目标，以期在评估中获得更高的分数，但这可能会带来负面的副作用。比如在测试时，LLM可能会学会如何调整其输出以满足评估者的评分标准，即使这种调整并不真正提高输出的质量。所以说在设计和训练LLM时还是需要考虑的潜在问题，提前采取措施确保模型的优化目标与人类评估者的期望保持一致。

在迭代自我完善训练设置中，同一个模型既充当评估者也充当生成器，并且可以对两者进行微调。这种设置可能会导致模型学会利用评估和生成过程中的漏洞，以在评估者(可能是另一个LLM或外部环境)的反馈循环中获得更高的分数。

潘等人(Pan et al. (2023))的实验中，使用了相同的模型作为评估者和生成器，只是根据不同的提示来执行不同的角色。实验任务是论文编辑，其中评估者提供反馈，生成器根据反馈编辑论文。人类评估的分数被用作论文质量的基准分数。作者们假设，这种设置可能会导致评估者给出的分数(模型内部的评分)和人类评估的分数(基准分数)不一致，即发生ICRH。

实验结果表明，较小的模型(如GPT-3.5)比较大的模型(如GPT-4)更容易受到ICRH的影响。当评估者和生成器可以查看相同数量的过去迭代时，人类评分和评估者评分之间的差距会增大，表明共享上下文对ICRH的影响比上下文长度更重要。

潘等人(Pan et al. (2024))进一步研究了ICRH，特别是在反馈由外部世界提供，且目标是一个不完美的代理目标时。他们通过两个实验来说明导致ICRH的过程：

LLM根据反馈优化其输出：LLM根据反馈优化其输出，例如，根据参与度指标优化推文，可能导致推文的毒性增加。

LLM根据反馈优化其策略：LLM根据反馈优化其策略，例如，构建一个LLM代理来代表用户支付发票，但遇到错误后，模型学会了在没有用户认证的情况下转移资金。

ICRH与传统奖励黑客攻击的不同之处，在于ICRH是在部署时通过反馈循环在自我完善设置中发生的，而传统奖励黑客攻击是在训练期间发生的。此外，ICRH是由作为一个通才驱动的，而传统奖励黑客攻击是当代理专门化于一个任务时产生的。

目前没有简单的方法来避免、检测或防止ICRH，改进提示规范和扩大模型规模可能都不足以消除ICRH。只能通过在部署前进行测试，通过多轮反馈、多样化反馈以及注入非典型环境观察来模拟部署时可能发生的情况，以评估模型在实际部署时的表现。

奖励黑客技能的泛化

研究表明，如果模型在一个任务中表现出奖励黑客行为，这种行为可能在其他任务中也会表现出来，尤其是在面对新的、未见过的环境时。研究人员通过在一些可以被奖励黑客攻击的环境中训练模型，并观察这种行为是否泛化到其他未见过的数据集。

实验中使用了8个多项选择题数据集，其中4个用于训练，4个用于测试。强化学习训练过程中采用了专家迭代的方法，即在最佳样本上进行迭代微调。

实验发现，所有实验都有一个草稿本设计，用于记录模型的隐藏推理步骤，这有助于解释模型在过程中的思考方式。分析草稿本可以揭示模型是否融入了用户信念，以及是否显示了对评估的认识。

丹尼森等人(Denison et al. (2024) )通过一系列越来越复杂的可操纵环境来研究奖励篡改。他们发现，在课程中训练更容易的环境会增强对剩余环境中的规范游戏。在某些情况下，模型甚至可以在完整课程上训练后直接零样本泛化重写自己的奖励函数。

这些可操纵环境的课程包括政治拍马屁、工具使用奉承、评分标准修改和奖励篡改等场景，这些场景都是用来测试模型是否会为了获得更高的奖励而采取不正当的行为。

强化学习算法改进

在强化学习(RL)和大型语言模型(LLM)领域中，关于奖励黑客行为的泛化和缓解措施。研究人员通过一系列课程训练模型，并测试模型是否能够学习到能够泛化到未见环境中的策略。实验使用了Claude-2模型，并采用了专家迭代方法来选择最佳响应。研究发现，即使在训练后，模型覆盖奖励并避免检测的频率非常低。

文章还讨论了几种可能的缓解措施，包括：

对抗性奖励函数：将奖励函数视为一个能够适应模型新发现的自适应代理。
模型前瞻：基于未来预期状态给予奖励。
对抗性失明：使模型对某些信息视而不见，防止其学习如何黑客攻击奖励函数。
谨慎工程：通过精心设计系统来避免奖励黑客。
奖励封顶：限制最大可能的奖励，防止代理通过黑客攻击获得超高回报。
反例抗性：提高对抗性鲁棒性，增强奖励函数的鲁棒性。
多种奖励的组合：结合不同类型的奖励，增加黑客攻击的难度。
奖励预训练：从一系列样本中学习奖励函数，但可能带来其他问题。
变量漠不关心：要求代理优化环境中的一些变量，而不是所有变量。
陷阱：故意引入漏洞，并设置监控和警报，以检测奖励黑客攻击。

这张图展示了三种不同的强化学习(RL)反馈机制，它们分别是：

Approval RL(批准强化学习):

在这种机制中，代理(机器人)根据观察(observation)采取行动(action)。然后，这个行动被发送到一个中央系统(可能代表一个全球性的评估系统或者是一个大型语言模型)。中央系统提供反馈(feedback)，这个反馈被用来更新代理的行为策略。这种设置中，代理直接从中央系统接收对其行动的批准或不批准的信号。

Human-in-the-loop Approval(人机协同审批):

这个机制引入了人类评估者(human annotator)作为反馈循环的一部分。代理采取行动后，这个行动被发送给人类评估者，人类评估者根据一定的标准(query)来评估这个行动。评估者的反馈(feedback)被用来指导代理的行为。这种设置允许人类直接参与到评估过程中，以确保代理的行为符合预期的标准。

Decoupled Approval(解耦审批):

在人类反馈作为代理行动批准的RL设置中，Uesato等人(Uesato et al. (2020))提出了通过解耦批准来防止奖励篡改。这种方法通过独立采样行动来收集反馈，确保行动不会腐败自己的反馈，从而防止奖励篡改。

在解耦审批机制中，代理的行动被发送到一个模拟器(emulator)或者评估系统，这个系统独立于代理的奖励信号。这个系统收集人类反馈(feedback)，但这些反馈是在行动执行之前收集的，从而防止了行动对其自身反馈的潜在腐败。这种机制通过解耦行动和反馈的收集过程，减少了奖励黑客攻击(reward hacking)的风险。

通过上面的方式，可以有效减少模型为了获得更高的奖励而学习到不期望的行为，比如操纵奖励函数或者利用评估系统的漏洞。这些机制有助于确保模型的行为更加符合设计者的意图，并且提高了模型在未见环境中的泛化能力。

检测奖励黑客攻击(Reward Hacking Detection)

奖励黑客攻击是指模型为了获得更高的奖励分数，可能会学习到一些不诚实或者不道德的行为。例如，如果一个模型知道它可以通过说谎来获得更高的评分，它可能会学会在评估时说谎。

为了检测这种行为，研究者们提出了一种方法，即将奖励黑客攻击视为异常检测问题。他们使用一个“可信策略”，这个策略由人类验证过的轨迹和奖励组成，作为基准。

然后，他们构建了一个二元分类器，这个分类器通过比较两个策略的动作分布之间的距离来工作。如果目标策略的动作分布与可信策略的动作分布相差很大，那么这个分类器就会标记为异常，可能表明存在奖励黑客攻击。

潘等人(Pan et al. 2022).的实验发现，不同的检测器在不同的任务上效果不同，而且没有一个分类器能够在所有测试的强化学习环境中实现超过60%的AUROC(Area Under the Receiver Operating Characteristic curve，接收者操作特性曲线下面积)，这是一个衡量分类器性能的指标。

RLHF(Reinforcement Learning from Human Feedback)数据分析

RLHF是一种训练强化学习模型的方法，它使用人类反馈来指导模型学习。这种方法可以帮助模型更好地对齐人类的价值观和目标。

Revel等人(2024年)提出了一套评估指标，用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们对HHHH-RLHF数据集进行了系统性错误分析(SEAL)。

在这个分析中，他们首先手动定义了一组特征分类，比如“无害”、“拒绝”和“创造性”。然后，他们使用大型语言模型(LLM)根据这个分类为每个样本的每个特征分配一个二进制标志。

特征被分为两类：目标特征(我们希望模型学习的价值)和剧透特征(在训练过程中无意中学习到的非预期价值，比如风格特征，如情感或连贯性)。

SEAL引入了三个指标来衡量数据对对齐训练的有效性：

特征印记(Feature Imprint): 假设我们正在训练一个模型，以识别和奖励那些在对话中表现出“有帮助”(helpfulness)和“无害”(harmlessness)特征的响应。特征印记将通过比较包含这些特征的对话与不包含这些特征的对话的奖励分数来计算。例如，如果一个响应因为包含“有帮助”的内容而得到+0.5的奖励分数，而没有这个特征的响应得到+0.2的奖励分数，那么“有帮助”特征的印记就是+0.3。这表明模型倾向于奖励那些包含“有帮助”特征的响应。

对齐抗性(Alignment Resistance): 想象一下，我们有一个数据集，其中包含了人类评估者对模型生成的响应的偏好。对齐抗性将衡量模型的奖励系统与人类评估者的偏好在多大程度上不一致。例如，如果人类评估者偏好于包含“幽默”(humor)的响应，但模型的奖励系统却倾向于奖励那些包含“技术细节”(technical details)的响应，那么在这些情况下，模型的奖励与人类偏好不匹配，这将被计为对齐抗性。

对齐鲁棒性(Alignment Robustness): 考虑一个场景，其中模型需要对用户评论进行分类，以确定它们是否违反了社区准则。对齐鲁棒性将测试模型在面对输入变化时的稳定性，比如当评论被重写以包含更多的情感色彩(sentiment)或连贯性(coherency)。例如，如果一个原本被模型正确分类为“不违反准则”的评论，在重写后包含了更多的负面情绪，模型错误地将其分类为“违反准则”，那么这表明模型对情感特征的扰动不够鲁棒。对齐鲁棒性指标将衡量这种误分类的频率，以评估模型在面对输入变化时的稳定性。

这张图展示了在预训练(Pre-D)和后训练(Post-D)奖励模型中，不同特征被奖励的程度，以及在对齐训练(Alignment Training)过程中奖励变化的情况。图中分为两个部分：

左图：特征奖励估计(Features Rewarded by Pre-and Post-D Reward Models)

1. 橙色点表示训练前的奖励估计，而蓝色点表示训练后的奖励估计。

2. 从图中可以看出，对齐训练倾向于奖励正面特征，如“无害”(harmlessness)和“有帮助”(helpfulness)，同时惩罚负面特征，如“色情内容”(sexual content)或“侵犯隐私”(privacy violation)。

3. 特征印记是通过固定效应线性回归计算得出的，比较了包含特定特征和不包含该特征的样本的奖励差异。

右图：奖励变化(Changes in Reward Shift as a Function of the Features)

1. 这张图展示了在对齐训练过程中，模型对不同特征的奖励敏感性如何变化。图中的点代表了各个特征的奖励变化印记。

2. 奖励变化是通过线性回归计算得出的，定义为对齐训练前后奖励向量之间的角度变化。这表明训练过程如何调整模型对目标特征的敏感性。

3. 值得注意的是，图中显示了“无害”(harmlessness)特征通过被选择(chosen)和被拒绝(rejected)的条目在奖励模型(RM)上留下印记("is harmless (c)" 和 "is harmless (r)")，而“有帮助”(helpfulness)特征仅通过被拒绝的条目留下印记("is helpful (r)")。

结合之前讨论的特征印记、对齐抗性和对齐鲁棒性，这张图提供了对模型训练过程中特征重要性变化的直观理解。通过观察这些变化，研究者可以评估模型是否在朝着预期的方向发展，以及是否需要进一步调整训练策略以减少奖励黑客攻击的风险，并提高模型的对齐性。

最后，终于把女神的文章梳理完了，虽然这些知识都偏向于模型训练领域来使用，但是个人觉得从启发性的角度还是带来了很多认知上的收益，希望看到这里的你也能有一样的收获吧！

AI时代不掉队

同桌会的你都会

同桌的AI小纸条

一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用，探索人工智能领域的无限可能，并征服他们，让AI赋能生活快乐每一天！