1.24-4|测试时偏好优化,通过文本反馈调整模型输出;推理时候选答案选择,成对奖励模型

文摘   2025-01-24 07:20   河南  

偏好优化与奖励模型:测试时偏好优化,通过文本反馈调整模型输出;推理时候选答案选择,成对奖励模型

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

2025-01-22|Shanghai AI Lab, CUHK|🔺40

http://arxiv.org/abs/2501.12895v1
https://huggingface.co/papers/2501.12895
https://github.com/yafuly/TPO

研究背景与意义

在人工智能领域,尤其是大型语言模型(LLMs)的发展中,如何快速适应人类偏好一直是一个重要的研究方向。现有的优化方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),虽然取得了一定的成功,但它们通常需要对模型进行重新训练,这在面对快速变化的数据分布时显得不够灵活。因此,本文提出了测试时偏好优化(Test-time Preference Optimization, TPO),旨在解决两个主要问题:一是如何在推理阶段实现与训练时方法相当的性能,二是如何利用可解释的文本反馈而非仅依赖数值评分进行偏好优化。TPO通过在推理阶段不断调整模型输出,消除了对模型参数的更新需求,从而为快速适应提供了一种轻量级的解决方案。

研究方法与创新

TPO的核心创新在于其独特的优化框架,主要包括以下几个方面:

  1. 文本反馈机制:TPO通过将数值奖励信号转化为文本评析,利用这些文本反馈来迭代改善模型输出。这种方式不仅提高了反馈的可解释性,还使得模型在推理过程中能够更好地理解和应用这些反馈。

  2. 迭代优化过程:在每个推理步骤中,TPO首先生成多个响应,并通过奖励模型对其进行评分。然后,选择评分最高和最低的响应,基于这些反馈生成文本损失和文本梯度,进而更新模型的输出。这种迭代过程使得模型能够灵活应对不同的输入和偏好变化。

  3. 无须重新训练:与传统的训练时优化方法不同,TPO在保持模型参数不变的情况下,通过优化上下文参数来调整生成的输出。这种方法大幅降低了计算成本,使得TPO在资源有限的情况下依然能够高效运行。

实验设计与结果分析

在多个基准数据集上进行的实验表明,TPO能够显著提高未对齐模型(如Llama-3.1-70B-SFT)的性能,甚至在某些情况下超越了经过训练时偏好优化的模型(如Llama-3.1-70B-Instruct)。具体实验结果显示:

  1. 性能提升:经过仅仅两次TPO优化步骤,未对齐模型的性能就已与经过训练的模型相当,特别是在指令跟随和偏好对齐的任务中表现突出。

  2. 计算效率:TPO在计算成本上远低于传统的训练时优化方法,展示了其在实际应用中的可行性。实验表明,TPO的计算需求仅为传统方法的0.01%,这使其在实时应用中具有明显的优势。

  3. 推理稳定性:TPO不仅提高了模型的输出质量,还显著增强了推理的稳定性,减少了生成结果的方差。这一特性对于实际应用中的安全性和可靠性至关重要。

结论与展望

本文提出的测试时偏好优化(TPO)方法为大型语言模型在推理阶段的偏好对齐提供了一种高效、可解释的解决方案。通过利用模型的内在能力,TPO能够在不重新训练的情况下,快速适应人类的偏好,展现出强大的应用潜力。未来的研究可以进一步探索如何增强模型的指令跟随能力,以提升TPO的整体表现。此外,TPO在其他领域的应用,如图像生成或推荐系统,也值得深入探讨。

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

2025-01-22|FDU, THU, HKUST|🔺13

http://arxiv.org/abs/2501.13007v1
https://huggingface.co/papers/2501.13007
https://github.com/THU-KEG/PairwiseRM/

研究背景与意义

在当前的大型语言模型(LLMs)研究中,测试时间的扩展已成为一个重要话题。尤其是在数学推理任务中,如何有效地选择最佳答案成为了一个挑战。传统的奖励模型(RMs)在分配分数时常常存在不一致性和随意性,这限制了它们的有效性。研究表明,即使是人类专家在使用相同标准时,对同一候选答案的评分也可能存在显著差异(Jonsson & Svingby, 2007; Abdul Gafoor & Jisha, 2014)。因此,本文提出了一种新的方法——成对奖励模型(Pairwise RM),结合淘汰赛的方式,以提高在最佳候选答案选择中的准确性。

研究方法与创新

成对奖励模型(Pairwise RM)通过同时评估两个候选解的正确性,避免了传统奖励模型在绝对评分上的不可靠性。具体而言,Pairwise RM采用了一种并行比较的方法,在淘汰赛中,通过成对比较迭代地消除不正确的候选解。该模型的创新之处在于:

  • 并行比较:Pairwise RM通过对两个候选解进行同时比较,消除了对绝对分数的依赖。
  • 淘汰赛机制:通过组织候选解进入淘汰赛,确保最终选择的解是经过多轮比较的结果,增强了选择的可靠性。
  • 大规模数据集:构建了一个包含443K对比数据的PAIRWISE-443K数据集,以支持模型的训练。

在与现有的奖励模型进行对比时,Pairwise RM在数学推理任务中表现出显著的优势,尤其是在解决更具挑战性的问题时,相较于传统模型提升了40%至60%的准确率。

实验设计与结果分析

实验设计围绕MATH-500和Olympiad Bench数据集展开,评估Pairwise RM在最佳候选答案选择中的表现。通过与多种基线模型的对比,结果表明:

  • Pairwise RM在所有数据集和生成模型中均优于基线模型,包括多数投票方法。
  • 在MATH-500数据集中,Pairwise RM在最具挑战性的问题上实现了相对40%至60%的改进,显示了其在复杂推理任务中的强大潜力。

此外,Pairwise RM在不同难度层次的问题上均表现出一致的优势,特别是在中高难度问题的处理上,进一步验证了其有效性。

结论与展望

本文提出的成对奖励模型(Pairwise RM)结合淘汰赛机制,为在测试时间的最佳候选答案选择提供了一种新的思路。通过并行比较和大规模数据集的支持,Pairwise RM显著提升了在数学推理任务中的表现。未来的研究可以探讨将此方法应用于其他复杂推理任务,并进一步优化模型的训练和评估机制,以提升其在更广泛应用场景中的有效性。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章