1.18-4|高效频域动作Tokenization,减少连续动作相关性;基于反思模拟的强化学习,高层级价值观对齐

文摘   2025-01-18 08:22   浙江  

机器人行为与动作建模:高效动作Tokenization,频域动作序列Tokenization,减少连续动作相关性;基于反思模拟的强化学习,高层级价值观对齐

FAST: Efficient Action Tokenization for Vision-Language-Action Models

2025-01-16|Physical Intelligence, UC Berkeley, STAN|🔺11

http://arxiv.org/abs/2501.09747v1
https://huggingface.co/papers/2501.09747
https://www.pi.website/research/fast

研究背景与意义

在机器人控制领域,使用自回归序列模型(如基于Transformer的视觉-语言-动作(VLA)策略)已被证明能够有效捕捉复杂且可推广的机器人行为。然而,这些模型在选择连续动作信号的标记化方面存在显著挑战,尤其是在高频率控制任务中。现有的标记化方法通常基于简单的逐维逐时间步的分箱策略,这在学习灵巧技能时表现不佳。因此,提出一种新的基于压缩的标记化方案——频域动作序列标记化(FAST),为解决这一挑战提供了新的思路。FAST不仅能有效处理高频率任务,还能在维持模型性能的同时显著减少训练时间。

研究方法与创新

本文的核心创新在于提出了一种新的标记化策略,该策略基于离散余弦变换(DCT),旨在减少连续动作信号之间的相关性。具体而言,研究者首先对机器人动作信号进行压缩,以便在训练自回归VLA时减少连续动作标记之间的冗余。FAST标记化流程包括以下几个关键步骤:

  1. 输入动作标准化:将输入动作的范围调整至[-1, 1],以便于后续处理。
  2. 应用DCT:对每个动作维度分别进行DCT转换,以提取信号的频域特征。
  3. 量化与压缩:通过简单的缩放和四舍五入操作,保留高频成分,丢弃低频成分,从而实现压缩。
  4. 字节对对编码(BPE):将稀疏的DCT系数矩阵转化为密集的动作标记序列,进一步提高压缩率。

这种方法的优势在于,FAST标记化不仅提高了训练的效率,还使得模型在处理复杂的、长时序的动作任务时表现出色,尤其是在灵巧操作和高频控制任务中。

实验设计与结果分析

研究者在多个评估环境中测试了FAST标记化的有效性,包括真实机器人任务和模拟任务。实验结果表明,与传统的分箱标记化方法相比,FAST在多个高频率任务中显著提高了训练效率和模型性能。具体结果如下:

  • 在高频率控制任务(如T恤折叠和桌面清理)中,使用FAST标记化的模型在训练过程中表现出更快的收敛速度,并能在更少的训练步骤中达到较高的性能。
  • FAST标记化还使得模型能够在未见环境中进行零-shot评估,显示出其在泛化能力上的优势。

结论与展望

本文提出的FAST标记化方法为高频率机器人动作控制提供了一种有效的解决方案。未来的研究可以进一步探索FAST在不同机器人形态和控制频率下的适用性,以及与其他非自回归解码方法的结合。此外,提升自回归模型的推理速度也是一个重要的研究方向,以便于在动态任务中实现更好的性能。通过不断优化标记化策略及其应用,研究者期待在机器人控制领域取得更大的突破。

RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

2025-01-15|Princeton U, Princeton U, Princeton U|🔺7

http://arxiv.org/abs/2501.08617v1
https://huggingface.co/papers/2501.08617

研究背景与意义

在当今人工智能(AI)系统的快速发展中,确保这些系统与人类价值观和意图保持一致显得尤为重要。尤其是在生成式AI系统中,如何通过人类反馈(RLHF)来优化模型性能,已成为一个重要研究方向。然而,现有的RLHF方法往往依赖于即时反馈,这可能无法准确反映用户的长期效用,导致模型行为的偏差。本文的研究旨在通过引入“反思反馈”(Hindsight Feedback)机制,解决RLHF中的这种短视问题,从而提高AI系统的对齐能力和用户满意度。

研究方法与创新

本文提出了一种新的算法——“基于反思模拟的强化学习”(RLHS),该方法通过模拟可能的后果来收集反馈,从而减轻由于依赖即时反馈而导致的偏差。具体来说,RLHS首先生成与用户行为相关的模拟结果,然后根据这些结果来获取反馈。这种方法的创新点在于,它将评估过程从对未来结果的预测中解耦,转而关注已发生的结果,这样可以更准确地捕捉用户的真实效用。

在理论分析中,作者证明了引入反思反馈可以显著减少模型与用户真实效用之间的偏差,进而提高用户的整体满意度。通过将RLHS应用于两种流行的在线和离线偏好优化方法——近端策略优化(PPO)和直接偏好优化(DPO),实验证明了该方法在减少模型偏差方面的有效性。

实验设计与结果分析

在实验设计中,研究者模拟了一个市场环境,用户与AI助手进行互动,进行购买决策。实验结果显示,使用传统RLHF方法时,用户的满意度评分与实际效用之间存在显著的偏差,随着训练的进行,真实效用反而下降。而引入RLHS后,用户的真实效用和满意度评分均得到了显著改善,验证了反思反馈在提升模型对齐能力方面的有效性。

通过对比实验,结果表明,RLHS在多种场景下均表现出色,用户在使用该方法后能够更好地实现其目标,并获得更高的满意度评分。这一发现强调了关注长期后果的重要性,即使这些后果是模拟的,也能有效缓解RLHF中的对齐问题。

结论与展望

本文的研究为AI系统的对齐问题提供了新的视角和解决方案,强调了反思反馈在优化用户体验中的重要性。未来的研究可以进一步探索如何将这一方法应用于更复杂的AI系统中,以及如何处理多样化的用户偏好和需求,以实现更广泛的应用。此外,结合更多的现实场景和数据,将有助于进一步验证和优化RLHS的有效性。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章