NeurIPS 2024 | 何恺明老师新作!通过异构预训练的变换器扩展本体感觉-视觉学习

文摘   2024-10-08 16:12   天津  

关注+标星,邂逅每一篇经典!


文章摘要

当前训练通用机器人模型的一个障碍是异构性。以前的机器人学习方法通常是收集数据来训练一个特定体现形式(embodiment)的一个任务,这既昂贵又容易过拟合。本研究探讨了通过在不同体现形式和任务的机器人数据上进行异构预训练来学习策略表示的问题。作者提出了异构预训练变换器(Heterogeneous Pre-trained Transformers,简称HPT),它预训练了一个大型、可共享的政策神经网络的主干,以学习任务和体现形式不可知的共享表示。这种通用架构将不同体现形式的特定本体感知和视觉输入与一系列简短的标记序列对齐,然后处理这些标记以映射到控制不同任务的机器人。利用最近的大规模多体现形式的真实世界机器人数据集以及模拟、部署的机器人和人类视频数据集,研究了跨异构性的预训练策略。作者进行了实验,以研究训练目标的扩展行为,涉及多达52个数据集。HPT在多个模拟器基准和现实世界设置中,对未见任务的微调策略性能提高了20%以上,超越了几个基线。

学术地址:

https://arxiv.org/pdf/2409.20537

代码地址:

https://liruiw.github.io/hpt/

前世今生

构建机器人策略是一项艰巨的任务:通常需要为每个机器人、任务和环境收集特定数据,而且学到的策略无法泛化到这些特定设置之外。机器学习领域的一个历史性教训是,大规模、高质量和多样化数据的预训练可以带来通常优于特定模型的通用模型。最近在开源大规模数据收集方面的进展使这条道路成为可能,但大规模机器人数据中存在的异构性(例如不同的机器人硬件和不同环境)构成了重大挑战。该领域现在的核心问题是如何在异构机器人数据上进行预训练以构建机器人基础模型。

自然语言处理和计算机视觉中的基础模型展示了一种范式,即通过在大量和多样化的数据上进行预训练来实现通用任务不可知模型。除了更多数据的好处外,通过多样化任务的训练也强制表示更加泛化。这些基础模型能够在各种任务上实现高任务成功率,对异常值更加鲁棒,并且灵活适应新任务。这些方法将不同领域和任务的输入信号映射到高维表示空间,并展现出一致的扩展行为。之后,仅需最少的微调即可将表示转移用于下游任务以实现良好性能。

图1:异构预训练概念。它通过特定于体现形式的标记器(“stem”)将不同的体现形式(每种都具有自己的本体感知和视觉传感器)映射到共享的潜在空间。这将来自不同体现形式的异构数据对齐到一个联合表示空间中。这使能够在所有异构数据集的并集上训练一个共享的变换器主干。预训练的变换器可以转移到一个新的体现形式上,在转移时学习一个小的、新的标记器。

机器人的异构性通常表现在硬件的不同体现形式,它们在不同环境中执行动作。每种体现形式可能具有不同的本体感知,包括不同自由度、末端执行器、运动控制器和为特定应用构建的工作空间配置。机器人中另一个常见的异构性是视觉异构性。机器人通常配备不同的摄像头传感器,安装在不同位置(例如手腕和/或第三人称),由于环境和任务的不同,每个机器人的视觉外观差异巨大。本体感知和视觉信息对于机器人复杂的、接触丰富的、长期行为至关重要。这些信息的不良学习可能导致过拟合行为,例如重复特定场景和任务的动作甚至轨迹。

在这项工作中,作者提出通过异构预训练将不同体现形式的本体感知和视觉信息对齐到共享的策略“语言”(图1)。有了这样的共享表示,新体现形式只需要最少的数据和训练就可以将其特定设置“翻译”成共享“语言”。换言之,希望预训练任务不可知和体现形式不可知的基础模型,这些模型可以将来自个体体现形式的原始传感器信号映射到共享潜在空间。先前的工作在人类视频上预训练策略的视觉部分取得了显著进展,并且在统一的模型和数据集格式(例如使用语言)上预训练完整的策略。此外,它们假设在预训练中没有本体感知,并在迁移学习中事后添加。

作者引入了异构预训练变换器(Heterogeneous Pre-trained Transformers,简称HPT),这是一系列旨在可扩展地从异构体现形式的数据中学习的结构。HPT模块化了一个通用策略网络架构(图2),并使用监督学习预训练潜在变换器的策略表示。受到从多模态数据中学习的启发,使用体现形式特定的标记器,称为“stem”,来对齐各种传感器输入,如摄像头视图和本体感知输入。“trunk”是共享的,并且在数据集之间预训练,并且在适应预训练期间未知的新体现形式和任务时进行转移。此外,使用任务特定的动作解码器,称为“head”,来产生动作输出。至关重要的是,在“标记化每个体现形式”之后,HPT在一系列潜在标记的共享空间上操作。这种层次结构的灵感来自于人类在脊髓神经回路层面处理特定运动反应与感知刺激之间的反馈循环。

作者广泛研究了策略预训练的扩展行为和各种设计,涉及超过50个独立数据源(比[55]多两倍)和超过10亿参数的模型大小。类似于扩展法则,发现在某种程度上,HPT随着数据集的数量和多样性以及模型和训练计算的扩展而扩展。

此外,异构性可能发生在不同的体现形式领域,如真实机器人硬件、模拟领域和人类视频。在预训练过程中纳入了许多不同体现形式的可用体现数据集,如真实机器人、模拟和互联网人类视频,并展示了框架的通用性,包括昂贵的真实世界机器人远程操作之外的体现形式。

通过在多个模拟基准和真实世界灵巧任务中的迁移学习实验,作者与几个基线和从头开始的对应物进行了比较。总体而言,基于预训练目标,HPT可以随着模型、数据、计算以及真实机器人、模拟和人类视频的机器人数据集的异构性而扩展。这些预训练程序和模型可以简化构建新体现形式和新任务的可靠机器人策略,无论是在数据需求还是泛化性能方面。作为扩展异构预训练的尝试,代码和权重是开源的,作者希望HPT能够为从异构体现形式和任务中学习机器人表示提供一些启示。

图2:HPT架构。HPT被模块化为茎、主干和头部。茎由本体感知标记器和视觉标记器组成,将不同体现形式的视觉和本体感知观测映射到固定数量(例如16个)的标记。共享的主干,即变换器,将连接的标记映射到共享表示。头部然后将处理过的标记映射到不同下游任务中的行动。对于特定的体现形式,激活一对茎/头部(由开关表示)。主干是共享的,并且在监督学习上有标记的数据上预训练,然后转移到新的体现形式。这个过程可以扩展到52个数据集和10亿参数。

匠心独运

图3:HPT中的茎架构。在HPT的茎中,本体感知标记器使用一个多层感知器(MLP)将本体感知信息映射到一个特征,然后由16个可学习的标记进行关注。视觉标记器使用预训练的编码器,并类似地使用注意力机制将视觉特征映射到16个固定标记。该架构灵活地处理输入序列,而不会增大标记的大小。

卓越性能

图4:机器人数据集的异构性。展示了来自不同领域的数据集混合的插图(每种颜色代表一个不同的体现形式),包括真实机器人遥操作[14]、部署的机器人[38]、模拟和人类视频[15]。

总结展望

在许多方面,包括数据集策划和预训练目标,都有改进的空间。具体来说,平衡数据集混合中的体现形式分割相对简单。此外,确保数据质量的仔细数据筛选在这项工作中尚未充分探索。同时,这项工作专注于将监督学习作为预训练目标,并且数据大小(以标记计)和训练计算规模(以FLOPs计)只达到了确保完全收敛的中等规模的LLM训练水平。尽管模型架构和训练程序是模块化的,并且独立于体现形式设置,但异构预训练可能会缓慢收敛。对于评估,模拟和现实世界的评估任务都限制在具有固定体现形式的短视界操纵任务上,这可能会限制使用更高容量模型的好处。此外,学到的策略在测试任务上仍然没有提供非常高的可靠性(通常低于90%)。有关一些失败模式,请参阅附录§C。

鉴于最近规模数据的激增,由于异构性,包括不同的体现形式、任务和机器人操作的环境,机器人学习仍然受到其泛化性的限制。为了处理机器人学中常见的异构性,作者提出了HPT,这是一个模块化架构和框架,通过预训练来包容这种异构性。探索并扩展了HPT与50多个可用数据集的异构性。学到的表示可以在模拟和现实世界中转移并提高性能,并且它与预训练性能相关。代码2是开源的,用于未来研究。作者希望这种观点能激发未来在处理机器人数据的异构性方面的工作,以构建机器人基础模型

参考:

https://arxiv.org/pdf/2409.20537


关注+标星,邂逅每一篇经典!

群函数
分享前沿的开源技术以及有趣的科普知识。敬请关注!
 最新文章