对齐器: 通过学习校正实现高效对齐

教育   2024-10-06 09:02   江苏  
摘要

随着大型语言模型 (LLM) 的快速发展和不断变化的实际需求,找到一种高效且有效的对齐方法变得越来越重要。 然而,当前对齐方法的复杂性和部署场景中快速迭代需求之间的矛盾,需要开发一种模型无关的对齐方法,这种方法能够在这些约束条件下运行。 在本文中,我们介绍了 对齐器,这是一种新颖且简单的对齐范式,它使用小型模型学习首选答案和非首选答案之间的校正残差。 对齐器 被设计为一个模型无关的即插即用模块,可以仅通过一次性训练直接应用于各种开源和基于 API 的模型,使其适合快速迭代。 值得注意的是,对齐器 可以应用于任何强大的、大规模的 upstream 模型。 此外,它甚至可以迭代地利用修正后的响应作为合成的人类偏好数据来 bootstrap upstream 模型,突破模型的性能上限。 我们的实验表明,在 3H 维度(帮助性、无害性和诚实性)上评估,通过在 11 个不同的 LLM 上部署相同的 对齐器 模型,可以提高性能。 具体而言,对齐器-7B 在所有测试的 LLM 上平均提高了 68.9% 的帮助性和 23.8% 的无害性,同时也有效地减少了幻觉。 在 Alpaca-Eval 排行榜上,将 对齐器-2B 堆叠在 GPT-4 Turbo 上,使其 LC 胜率从 55.0% 提高到 58.3%,超过了 GPT-4 Omni 的 57.5% 胜率(社区报告)。

1引言

最近,LLM 与人类意图和价值观的对齐引起了广泛关注 [1]。 在各种方法中,监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) [2, 3] 已成为实际方法。 SFT 利用人类演示对 LLM 进行微调,并指导模型执行所需的操作,而 RLHF 则基于人类偏好训练奖励模型 (RM),并通过强化学习 (RL) 方法使用来自 RM 的反馈信号对 LLM 进行微调 [4]

尽管这些方法 [5, 6, 7, 8, 9] 在满足 3H(有用性、无害性和诚实性)标准 [10] 方面非常有效,但它们也面临着一些挑战,例如高昂的训练资源消耗和难以确保一致的性能 [11]。 同时,在现实场景中,对齐要求是动态变化的 [12]。 模型可能会遇到对齐训练之外的情况,并表现出不良行为,而这些行为难以通过诸如 SFT 和 RLHF 这样耗时的技术来立即解决。

我们能否开发一种高效、轻量级且与模型无关的对齐方法?

图 1: (左) Aligner 模块的架构及其在语义空间中的行为示例。 作为一个即插即用的模块,Aligner 堆叠在上传流大型语言模型之上。 Aligner 将上传流模型的初始答案重新分配为更有用且更无害的答案,从而使组合后的大型语言模型响应与人类意图保持一致。 (右) Aligner 在架构和功能方面类似于大型语言模型的残差学习增强器。 就像残差块通过捷径添加修改而不改变基础结构一样,Aligner 使用 复制和修正 方法来改进原始答案。 这种类比突出了 Aligner 在保留上传流模型参数的同时增强其与期望结果保持一致的双重作用。

受残差学习的启发 [13],我们简化了对齐过程,重点关注复制和修正操作。 我们引入了高效的对齐范式,即 Aligner,它不涉及任何强化学习过程,如图 1 所示。 具体而言,Aligner 在偏好数据集上进行了微调,以学习首选响应和非首选响应之间的修正残差,然后将其堆叠在上传流模型上,以实现修正对齐。 这里,上传流大型语言模型指的是目标对齐的模型,它与强化学习人类反馈过程中的源模型进行比较。 与需要训练和加载多个模型的强化学习人类反馈方法相比,Aligner 只需要一个额外的模块堆叠在上传流大型语言模型上。 此外,我们方法的计算资源需求仅取决于所需 Aligner 的有效性,而不是上游 LLM 的参数大小。

从表示学习 [14, 15, 16] 的角度来看,Aligner 表现出可解释的残差行为。 如图 4 所示,Aligner 根据早期层中原始答案的质量来决定对原始响应的参考程度和额外校正的程度,而其中间层和后期层用于实现此 决策。 该机制比直接学习从输入查询到对齐答案的映射更简单。 这种简单性表明,小型 Aligner 也可以学习复杂的校正模式,这证明了它们能够以相对较小的推理能力来引导强大的模型,这进一步强调了我们的 Aligner 范式 的优越性。

总之,Aligner 具有以下几个显著优势:

  •  

    资源效率高。 由于没有演员、评论家、奖励和参考模型等额外模型,我们的 Aligner 是一个在偏好数据集上训练的小型模型,用于学习校正残差。 具体来说,在对齐 70B LLM 时,Aligner-7B 比 DPO 小 11.25 倍,比 RLHF 小 22.5 倍。 1 关于训练参数。

  •  

    即插即用。 Aligner 的即插即用性质和模型无关性使其成为 API 模型(没有参数访问权限)的理想选择。 一旦经过训练,Aligner 就可以应用于各种上游 LLM,而无需调整参数。 实验表明,Aligner-7B 模型增强了各种 11 模型(包括基于 API 的模型/开源安全对齐模型/安全不对齐模型)的帮助性和无害性。 实验结果表明,Aligner-7B 将 GPT-4 的有用性提高了 17.5%,其无害性提高了 26.9%。

2对准器

预备知识:监督微调 (SFT)

SFT 旨在使用监督学习(具体而言,最大似然估计)在一个精心策划的高质量数据集𝒟SFT={𝒙(i),𝒚(i)}i=1N上微调预训练的 LLM 以生成目标答案。 目标是获得一个具有以下训练目标的模型π𝜽SFT

同样,如图1所示,Aligner 通过条件生成重新分配模型的答案来改善模型与人类意图之间的对齐。 在实际实现中,Aligner 仅需对 SFT 训练代码进行微调(只需更改一行代码),如附录E中所述。

总的来说,Aligner 训练的整个流程可以概括如下:基于偏好数据集,对模型进行微调以学习偏好响应和非偏好响应之间的校正残差。 只需进行一次训练,该模型即可部署到任何模型上以实现校正对齐。

模型训练

基于上述步骤,我们构建了数据集={𝒙(i),𝒚o(i),𝒚c(i)}i=1N,其中𝒙表示用户的查询,𝒚o是原始答案,而𝒚c是根据既定原则校正后的答案。 模型训练过程比较简单。 我们训练了Aligner,这是一个由ϕ参数化的条件 seq2seq 模型μϕ(𝒚c|𝒚o,𝒙),以将初步答案𝒚o重新分配到对齐的答案𝒚c。 如图1所示,基于上游 LLMπ𝜽 对齐答案的组合答案生成过程为:

其中𝒚k是上游 LLMπ𝜽 生成的可能答案。 通过计算整个数据集上的经验损失,我们可以从方程(2)获得方程(3):

等式 (3) 中的第二项与 Aligner 参数无关,Aligner 的训练目标可以推导出为等式 (4):

通过优化此目标,我们实际上优化了 SFT 训练目标的上限,这确保了 𝒚c 的有效学习。 值得注意的是,Aligner 在训练和推理阶段都不需要访问上游 LLM π𝜽 的参数。 Aligner 接收用户的查询 𝒙 和上游 LLM π𝜽 生成的初始答案 𝒚o,然后生成与人类价值观更一致的答案 𝒚c。 改进现有答案 𝒚o 使 Aligner 能够专注于如何与人类价值观保持一致,而不是如何直接回答给定查询。 这极大地降低了我们模型容量的要求,使我们能够仅用一个小模型来实现预期的对齐性能。

Aligner 的训练策略:残差校正

我们开发了一种优化的训练策略,称为 Residual Correction,它利用答案 (𝒚o) 和校正 (𝒚c) 之间的语义校正残差,如图 1 所示。 具体而言,我们使用部分训练数据构建了一个 Q-A-A 数据集,以初步训练一个身份 Aligner,这个过程我们称为 warm-up。 随后,我们利用 Q-A-C 数据集进行训练,在身份 Aligner 的基础上进行构建。 我们在 50K 训练数据集上的实验细节见第 3.3 节。 在对齐领域之外,ResNet [13] 也采用类似的方法来缓解由神经网络深度增加引起的梯度消失问题。

Aligner 和 RLHF/DPO 之间的资源分析

与 RLHF 和 DPO [6] 相比,Aligner 在训练资源需求方面显示出显著优势。 在训练资源方面,Aligner-7B 在类似的性能条件下比其他方法更有效。 具体而言,对于 7B 源模型,DPO 需要比 Aligner 多 1.125 倍的资源,而 RLHF 需要多 2.25 倍的资源。 此外,随着源模型规模的增长,其他方法的资源需求急剧增加。 对于一个 70B 模型,DPO 需要比 Aligner 多 11.25 倍的资源,而 RLHF 需要多 22.5 倍的资源。 然而,由于 Aligner 对这些变化不敏感,其训练资源需求无论源模型规模如何变化都保持不变,这表明 Aligner 是一种高效且轻量级的对齐范式。

3实验

表 1: Aligner 模型的性能。 结果表明,Aligner 在所有设置中都取得了显著的性能。 本表中的所有评估都是基于将各种模型与 Aligners 集成,与原始模型进行比较,以量化 3H 标准的百分比增加。 当与各种上游模型集成和评估时,Aligner 只需要一次训练会话(Aligner 可以以零样本的方式运行并增强所有上游模型的性能)。



HelpfulHarmlessHonest


E-DialogueDialogSumBeavertailsHarmfulQATruthfulQA
AlignerUpstream LLMEmpathy Reasoning Helpful Harmless Helpful Harmless Reliable 
2BGPT-426.0%2.3%8.0%28.6%12.5%29.2%-0.5%
GPT-3.526.3%3.3%3.1%7.6%3.6%4.4%0.7%
Claude 283.1%6.0%38.3%15.1%48.0%14.4%0.7%
2-9Beaver-7B95.3%60.7%9.9%12.1%7.8%7.6%5.4%

Alpaca-7B97.7%58.5%5.8%45.0%22.6%65.3%10.0%

Vicuna-7B44.9%58.5%16.9%15.8%17.7%27.1%4.9%

Vicuna-13B53.9%24.0%19.4%14.9%17.1%16.1%7.6%

Vicuna-33B45.7%39.3%24.4%52.4%26.9%32.6%5.1%

Llama2-7B-Chat88.1%69.5%25.4%7.2%11.3%25.9%3.9%

Llama2-13B-Chat85.3%53.4%18.4%12.3%18.6%27.6%1.2%

Llama2-70B-Chat86.7%47.9%17.8%5.5%21.3%7.2%10.8%

Average66.6%36.4%17.0%19.7%18.8%23.4%4.5%
7BGPT-427.7%6.2%18.6%25.8%16.3%28.0%-1.2%
GPT-3.525.6%6.8%9.3%9.3%8.4%7.0%0.0%
Claude 290.4%10.4%58.4%30.3%69.4%42.1%2.0%
2-9Beaver-7B98.3%83.5%21.9%12.0%8.9%6.0%10.3%

Alpaca-7B99.4%78.7%34.9%47.0%38.2%70.7%11.8%

Vicuna-7B95.4%73.6%26.4%15.9%12.0%29.3%2.7%

Vicuna-13B94.0%49.5%37.6%16.6%21.9%18.9%2.7%

Vicuna-33B89.3%58.5%51.0%55.9%-1.0%33.6%3.2%

Llama2-7B-Chat95.6%98.8%19.9%7.4%-5.7%22.1%1.5%

Llama2-13B-Chat96.6%70.8%20.1%10.3%15.5%28.6%1.7%

Llama2-70B-Chat95.0%70.1%5.2%2.4%-6.6%4.1%9.1%

Average82.5%55.2%27.6%21.2%16.1%26.4%4.0%
13BGPT-442.6%9.7%33.9%25.1%25.1%20.1%-0.2%
GPT-3.543.7%15.6%15.1%10.9%7.6%7.7%0.5%
Claude 290.6%17.2%50.0%30.0%45.9%28.6%0.5%
2-9Beaver-7B98.1%87.6%14.2%19.1%8.0%11.6%13.0%

Alpaca-7B99.0%82.9%8.5%53.4%3.4%75.9%16.9%

Vicuna-7B96.3%78.5%19.1%24.0%19.5%31.0%6.6%

Vicuna-13B95.9%58.7%31.8%26.7%30.9%18.9%7.1%

Vicuna-33B90.0%65.9%33.3%63.3%7.3%33.3%6.1%

Llama2-7B-Chat96.0%99.1%13.5%4.6%12.6%32.3%4.2%

Llama2-13B-Chat95.4%73.1%16.7%10.6%30.7%35.0%1.0%

Llama2-70B-Chat94.6%69.2%10.6%1.9%6.3%7.6%10.3%

Average85.6%59.8%22.4%24.5%17.9%27.4%6.0%


在本节中,我们评估了 Aligner 模块在 3H(有用、无害、诚实)评估指标和配置中的有效性。 有关详细的训练参数,请参见附录 E

图 2: 有用性和无害性分数的分布。 (a) 训练数据集中首选答案和非首选答案的分布变化;(b) Aligner-7B 的重新分布变化,基于评估数据集中 GPT-4(b1)、Alpaca-7B(b2)和 Llama2-70B-Chat(b3)等上游模型。 我们的发现包括:(1) 训练数据集中首选答案在有用性和无害性方面都超过了原始答案;(2) GPT-4 的拒绝回答模式创造了一个过度修正答案的区域,其中有用性和无害性分数都很低,Aligner-7B 通过提供更多信息和修正来改善了这些答案。 (3) Alpaca-7B 模型缺乏对齐,其答案被我们的 Aligner-7B 显着修正,提高了两个分数。 (4) Llama2-70B-Chat 模型已经与训练数据集修正的平均安全得分相一致,并且从 Aligner-7B 修正中受益,显著提高了有用性,同时保持了无害得分。

3.1实验设置

偏好数据集

我们利用两个开源偏好数据集,HH-RLHF [5] 和 PKU-SafeRLHF [17] 作为我们的偏好数据集。 考虑到 PKU-SafeRLHF 中的偏好对仅由 Alpaca-7B 生成,我们额外构建了一个基于这两个偏好数据集的 50K 偏好数据集。 此数据集中的问题来自 HH-RLHF、PKU-SafeRLHF 等等,导致后续答案和修正答案生成的 27K 个查询。 原始答案是使用各种开源模型生成的,包括 Alpaca-7B [3]、Vicuna-(7B,13B,33B) [18]、Llama2-(7B,13B)-Chat [19] 和 Alpaca2-(7B,13B)。 2. 我们使用 GPT-4、Llama2-70B-Chat 和人工标注者来修改上述问答数据集中的答案。 这些修改基于明确定义的原则,为训练 seq2seq 模型建立约束。 这些原则旨在有效地扩展到我们希望 LLM 体现的特征。 我们专注于 LLM 的 3H 维度(有用性、无害性和诚实性)[10]。 对于符合这些基本原则的答案,我们保留原始答案。 图 2 (a) 直观地显示了数据修正前后的分布变化,从而证明了修改过程对数据集的影响。 有关构建问答数据集的更多详细信息,请参见附录 E.1

模型和评估数据集

我们在三种模型规模上训练了 Aligner,具体来说是基于 Gemma-2B [20] 和 Llama2 (7B, 13B) [19]。 为了评估 Aligner 模块,我们利用五个数据集:E-Dialogue [21]、DialogSum [22]、BeaverTails [17]、HarmfulQA [23] 和 TruthfulQA [24]。 更多细节可以在附录 C.1 中找到。 我们的评估重点关注两类模型:基于 API 的模型(例如,GPT-4 [25]、Claude 2 [26])和开源模型(Llama2-(7B, 13B, 70B)-Chat [19];Vicuna-(7B, 13B, 33B) [18];Alpaca-7B [3];Beaver-7B [27])。 值得注意的是,Llama2 和 Beaver 模型已经过安全对齐处理。

评估指标

我们的评估取决于三个关键维度:有用性、无害性和诚实性。 这些维度的独立特征为答案提供了全面的视角,使我们能够在评估答案质量时平衡信息质量、安全性以及伦理考虑。 初始答案由开源模型和上游模型生成,Aligner 对其进行细化,以产生修正后的答案。 更多细节和示例可以在附录 C 中找到。

3.2实验结果

如表 1 所示,我们采用了不同规模的 Aligner,仅需一次训练即可显着提升所有 11 个上游模型的性能。 在 3H 标准下,Aligner-7B 在所有模型中平均提高了 21.9% 的有用性和 23.8% 的无害性。 值得注意的是,Aligner-7B 可以将 GPT-4 的有用性提高 17.5%,将无害性提高 26.9%。

在 3H 标准上的性能

Aligner 保持上游模型不变,根据可用资源提供 Aligner 模型大小的适应性。 我们使用五个数据集根据 3H 标准评估了 Aligner 的有效性。 实验结果表明,Aligner 显着提高了上游模型在各种参数尺度上的性能。 尤其是在所有五个维度上,Aligner-7B 显着提高了 GPT-4 模型的性能。 在推理维度上,随着参数的增加,Aligner 提升了上游模型的能力,展示了 Scaling Laws [28] 的特点。 值得注意的是,Aligner 在同理心维度上表现出色,进一步证明了它在重新分配上游模型模式分布方面的效率。 为了检测 Aligner 是否会因误解而生成已知的虚假内容,类似于 [19],我们使用 TruthfulQA [24] 来衡量 Aligner 生成的输出在真实性和常识性方面的可靠性。 结果表明,Aligner 在纠正上游模型的同时,不会添加额外的幻觉信息。

评估 Aligner 在安全对齐模型上的堆叠

Llama2-Chat 模型,其多阶段对齐过程(预训练、SFT、RLHF),以及通过 Safe RLHF [27] 微调的 Beaver,两者都表明 Aligner 具有适度的安全改进。 Aligner 的主要成就是它能够放大有用性,尤其是在倾向于避免冒险响应的模型中。 通过重新分配这些过于保守的答案,Aligner 显着提高了整体有用性。 图 2 中直观地展现了这种有用性的提升,它显示了在 Aligner-7B 的影响下,Llama2-70B-Chat 的答案分布向右移动,表明在强大的安全基础上提高了有用性。

3.3消融研究

在身份映射上的消融
图 3: 不同 身份映射 比例的消融研究。 我们首先训练了一个用于身份映射的 Aligner,然后在此 Aligner 基础上进行了广泛的残差 Q-A-C 学习。 具体来说,我们通过从训练数据集中按 2%、10%、20% 和 50% 的比例提取部分数据来形成 Q-A-A 数据集。

为了验证不同 预热 比例的有效性,我们使用两个代表性数据集进行了实验:BeaverTails 和 HarmfulQA。 如图 3 所示,预热 步骤通过最初帮助 对齐器 学习身份映射来帮助 对齐器,从而提高最终性能。 此外,结果进一步表明,预热 阶段的有效性在比例为 10k 到 50k 时达到峰值。 然而,确定 预热 的具体数据比例具有挑战性,需要更多训练资源。

表 2 对齐器 有效性与 CAI 和自我批评的消融研究。 实验结果表明,对齐器 在有用性和无害性指标方面优于这些基线。

ModelMetricsCAI w/o trainingSelf-CritiqueAligner-7B
GPT-4Helpfulness+20.01%+26.56%+17.47%
Harmlessness+9.65%+15.30%+26.88%
Alpaca2-7BHelpfulness+20.00%+30.07%+36.55%
Harmlessness+24.08%+14.36%+58.86%
Beaver-7BHelpfulness+5.00%+12.80%+15.40%
Harmlessness+7.70%-11.6%+9.00%
Llama2-13B-ChatHelpfulness-0.5%+15%+17.8%
Harmlessness+27.4%+11.1%+19.45%


与自我细化、批评方法的比较

宪法人工智能 (CAI) [29]、自我批评 [30] 和自我细化 [31] 主要利用 LLM 的自我批评和细化能力来提高它们的性能。 我们仅在 LLM 推理期间使用 CAI 提示来鼓励他们对答案进行自我修正。 如表 2 所示,我们的方法 对齐器 在有用性和无害性方面都优于基线。 此外,基线方法通常需要多次对话迭代和扩展上下文窗口来插入提示和持续自我修正。 这会导致推理时间更长,并且上下文窗口长度消耗很大。 有关更详细的信息和分析,请参阅附录 C.5

Aligner 在各种偏好数据集上的性能

为了证明 Aligner 与特定数据集的独立性,我们使用了各种开源 RLHF 偏好数据集。 具体来说,我们在 HH-RLHF [5] 和 PKU-SafeRLHF [17, 27] 数据集上进行了训练,并将 Aligner 与 SFT、RLHF 和 DPO 进行了比较。 在使用 SFT、RLHF 和 DPO 对 Alpaca-7B 进行微调后,我们将这些模型与经过 Aligner 校正的原始 Alpaca-7B 进行比较。 实验结果(如表 3 所示)表明,Aligner 在增强原始模型能力方面的性能与基线方法相当或超过基线方法。 值得注意的是,使用 RLHF 或 DPO 微调的模型往往会生成过于保守的答案,或者在显式添加有用信息的同时无法识别危险。 重要的是,使用 RLHF 或 DPO 方法进行训练需要优化明显更多的模型并消耗比训练一个 Aligner 更多的训练资源,e.g.,对于一个 70B 的模型,DPO 需要比 Aligner 多 11.25 倍的资源,RLHF 需要多 22.5 倍的资源。

表 3对准器 在不同的偏好数据集上进行训练。 实验结果表明,Aligner 增强了原始模型的能力,其性能与基线方法相当或超过基线方法。 此外,这些结果在不同的偏好和校正数据集中是一致的。


Q-A-C DatasetsPKU-SafeRLHFHH-RLHF
MethodsHelpfulHarmlessHelpfulHarmlessHelpfulHarmless
Aligner vs. SFT+23.1%+0.4%----
Aligner vs. RLHF+24.4%+21.9%+8.7%+8.8%+9.6%+3.4%
Aligner vs. DPO+49.1%+0.1%+33.3%+27.0%+5.6%+30.9%


3.4可解释性实验

图 4 Aligner 上的可解释性实验结果。 (一)(二) Aligner 在生成给定的两个问答对的前 20 个输出符元时,每一层的 LAT 扫描图。 图中较高的值表示该层中更活跃的校正表示。 具体来说,(a) 表现出升高的活动,表明在输出中增强了校正动作,而 (b) 显示出倾向于复制原始响应。 此外,这两个图之间的明显差异主要在早期层中观察到。 这表明关于校正程度的决定是在 Aligner 的早期层中做出的。 (三) 对照实验表明,提取的校正表示向量在调节 Aligner 的校正行为方面是有效的。 平均 levenshtein 比率与表示向量系数之间的关系近似线性,R2 值约为 0.93。

在执行上述实验时,我们观察到了 Aligner 的校正范式:校正行为不是校正和复制之间的二元决策。 相反,它遵循条件生成范式,其中对原始响应的参考程度和额外校正的程度取决于原始答案的质量。 为了证明 Aligner 已将这种校正范式作为表示学习,我们基于 表示工程 [14] 和 激活引导 [32, 33, 15] 进行实验。 具体来说,我们对基于 Aligner 模块的 Llama2-7B 执行表示提取和 线性人工断层扫描 (LAT) 扫描。 然后,我们利用提取的表示来控制 Aligner 的生成。

表示控制实验的结果表明,在 Aligner 激活中添加或减去表示向量的比率将显着影响校正的大小,范围从直接复制原始响应到大幅增加正常校正的程度。 这提供了强有力的证据,证明 Aligner 已将校正范式内化为表示。 此外,LAT 扫描进一步表明 Aligner 在其早期层中根据原始响应的质量决定校正程度,之后它专注于在其中间层和后期层中完成校正。 这些实验的更多细节,请参见附录 C.6

4通过 Aligner 进行多轮 RLHF 训练

本节旨在说明,由于其高效且即插即用的特性,Aligner 在多轮 RLHF/DPO 管道中起着至关重要的作用,如图 5 所示。 典型的多轮管道通常会遇到奖励崩溃问题,因为用于奖励建模的偏好数据集可能会偏离上游模型的实际答案分布 [34]。 这种错误在多轮中累积,导致模型最终结果出现显著偏差。 此外,错误累积可能会导致奖励在某些方向上过度优化,e.g.,无论安全与否都会生成更长的响应。 Aligner 的参与可以帮助缓解这个问题。

图 5: 使用 Aligner 的多轮对齐管道的示意图。 作为一种数据增强和合成工具,Aligner 可以将上游模型的响应 A 增强为改进的响应 A,从而形成合成偏好数据集。 该数据集可用于通过 RLHF/DPO 进一步训练上游模型。 重复此过程允许进行多轮 RLHF 或 DPO。

如图 5 所示,您可以使用 Aligner(使用原始偏好数据集为下一轮 RLHF 进行训练)将上游模型响应 A 细化为响应 A,并且 (Q,A,A) 对可以成为下一轮 RLHF 或 DPO 训练的新偏好数据集。 这种范式带来了许多优势:

  •  

    Aligner 继承了从偏好数据集中不喜欢的分布转移到喜欢的分布的特性。

  •  

    Aligner 修改上游模型以生成更好的答案,使最终偏好数据集的分布更接近上游模型的答案分布。 这有效地缓解了由分布外 (OOD) 偏好数据集导致的奖励模型崩溃问题。

  •  

    Aligner 充当合成数据生成器,为构建偏好数据集提供了一种高效且可重复的方法。

图 6 通过 Aligner 进行多轮细化。

我们使用来自 PKU-SafeRLHF [27] 的三轮偏好数据集,对 Alpaca2-7B 进行了三轮 RLHF 和 DPO。 之后,我们使用相同的三轮偏好数据集训练了三轮 Aligner,然后用它们来细化上游模型并生成新的偏好数据集。 这些合成偏好数据集随后被用来微调上游模型。 如图 6 所示,通过聚合 AlignerAligner 校正的新偏好数据集可以有效地增强两个关键指标:在每轮都确保帮助度单调增加的同时,提高模型的安全性能。 相反,典型的多轮 RLHF/DPO 管道只增强效用,而使响应变得不安全。

5相关工作

人类反馈强化学习

RLHF 旨在使 LLM 与人类偏好一致 [35, 2],利用 RL 算法 [4] 训练策略模型,特别是 LLM,以最大化来自 RM 的累积奖励。 RLHF 方法涉及各种模型的分布式训练 [11] 以及人类专家的标注,带来了操作方面的挑战。 因此,最近的研究集中在减少 [36, 37] 或消除 [6] 对 RM 的依赖,旨在简化 RLHF 流程。 同时,[5, 38] 使用先进的 AI 模型进行数据标注,进一步简化了 RLHF 流程并降低了成本。 与需要多个模型的 RLHF 方法相比,Aligner 只需要一个受限的 seq2seq 模型来满足对齐目标。 Aligner 的特点是其即插即用性以及对特定模型和参数的漠不关心,这使其成为没有参数访问权限的基于 API 的模型的理想选择。

推理时间方法

这些方法在无需访问 LLM 内部参数的情况下对其进行定制 [39, 40, 7],这对于极其庞大的模型或通过 API 提供的模型特别有用。 然而,这些方法中的大多数对上游模型很敏感。 IPA [7] 使用轻量级适配器策略在解码期间根据上游模型来乘以下一个符元的概率。 然而,IPA 需要访问模型的输出 logits 分布。 [8] 增强和细化用户提示以更好地适应模型,从而促进推理更全面的上下文理解,类似于上下文学习 (ICL) [41, 42]。 [43] 使用较小的模型从上游模型生成的多个响应中选择最佳响应,而无需对上游模型进行微调,类似于 BoN (Best of N) 选择器 [44, 45]。 在这项工作中,我们介绍了 Aligner,这是一种用于无缝集成的与模型无关的对齐模块。 Aligner 只需要一次训练会话就可以对 11 种类型的上游模型进行对齐,根据 3H 标准显着提高了它们的性能。

6结论

我们介绍了 Aligner,这是一种高效、轻量级且与模型无关的对齐 LLM 的方法。 Aligner 不需要额外的组件(如 actor、critic、奖励模型等),展示了计算效率的显著提高。 在 3H 标准下,Aligner-7B 在帮助度和无害性方面平均提高了 68.9% 和 23.8%。 值得注意的是,Aligner-7B 可以将 GPT-4 的帮助度提高 17.0%,将无害性提高 26.9%。 在 Alpaca-Eval 排行榜上,将 Aligner-2B 堆叠在 GPT-4 Turbo (04/09) 上,将其 LC 胜率 [46] 从 55.0% 提高到 58.3%,超过了 GPT-4 Omni 的 57.5% 胜率(社区报告)。

6.1局限性和未来的工作

与直接微调LLM不同,Aligner采用外部模块,这对于无法访问原始参数的模型来说是理想的选择。 但是,Aligner增加了额外的推理成本,需要在原始模型之上添加一个额外的模型。 为了减轻推理负担,未来的工作可以探索更小的Aligner (e.g.,0.5B) 并简化Aligner的更正。 我们旨在使用Aligner模块来增强LLM对齐,目标是提高简洁性、效率和可解释性。 未来的研究将集中在增强Aligner在多轮对话等挑战性场景中的通用性,并开发Control Aligner,用于根据精确指令进行特定领域的对齐。 此外,与RLHF的分段方法不同,其端到端结构为LLM的对齐过程提供了宝贵的见解。


FightingCV
一个专注于解析计算机视觉、多模态方向前沿论文,解答科研问题,分享科研时事的公众号!
 最新文章