NeurIPS 2024 | 何恺明老师新作！通过异构预训练的变换器扩展本体感觉-视觉学习

文摘 2024-10-08 16:12 天津

关注+标星，邂逅每一篇经典！

文章摘要

当前训练通用机器人模型的一个障碍是异构性。以前的机器人学习方法通常是收集数据来训练一个特定体现形式（embodiment）的一个任务，这既昂贵又容易过拟合。本研究探讨了通过在不同体现形式和任务的机器人数据上进行异构预训练来学习策略表示的问题。作者提出了异构预训练变换器（Heterogeneous Pre-trained Transformers，简称HPT），它预训练了一个大型、可共享的政策神经网络的主干，以学习任务和体现形式不可知的共享表示。这种通用架构将不同体现形式的特定本体感知和视觉输入与一系列简短的标记序列对齐，然后处理这些标记以映射到控制不同任务的机器人。利用最近的大规模多体现形式的真实世界机器人数据集以及模拟、部署的机器人和人类视频数据集，研究了跨异构性的预训练策略。作者进行了实验，以研究训练目标的扩展行为，涉及多达52个数据集。HPT在多个模拟器基准和现实世界设置中，对未见任务的微调策略性能提高了20%以上，超越了几个基线。

学术地址：

https://arxiv.org/pdf/2409.20537

代码地址：

https://liruiw.github.io/hpt/

前世今生

构建机器人策略是一项艰巨的任务：通常需要为每个机器人、任务和环境收集特定数据，而且学到的策略无法泛化到这些特定设置之外。机器学习领域的一个历史性教训是，大规模、高质量和多样化数据的预训练可以带来通常优于特定模型的通用模型。最近在开源大规模数据收集方面的进展使这条道路成为可能，但大规模机器人数据中存在的异构性（例如不同的机器人硬件和不同环境）构成了重大挑战。该领域现在的核心问题是如何在异构机器人数据上进行预训练以构建机器人基础模型。

自然语言处理和计算机视觉中的基础模型展示了一种范式，即通过在大量和多样化的数据上进行预训练来实现通用任务不可知模型。除了更多数据的好处外，通过多样化任务的训练也强制表示更加泛化。这些基础模型能够在各种任务上实现高任务成功率，对异常值更加鲁棒，并且灵活适应新任务。这些方法将不同领域和任务的输入信号映射到高维表示空间，并展现出一致的扩展行为。之后，仅需最少的微调即可将表示转移用于下游任务以实现良好性能。

图1：异构预训练概念。它通过特定于体现形式的标记器（“stem”）将不同的体现形式（每种都具有自己的本体感知和视觉传感器）映射到共享的潜在空间。这将来自不同体现形式的异构数据对齐到一个联合表示空间中。这使能够在所有异构数据集的并集上训练一个共享的变换器主干。预训练的变换器可以转移到一个新的体现形式上，在转移时学习一个小的、新的标记器。

机器人的异构性通常表现在硬件的不同体现形式，它们在不同环境中执行动作。每种体现形式可能具有不同的本体感知，包括不同自由度、末端执行器、运动控制器和为特定应用构建的工作空间配置。机器人中另一个常见的异构性是视觉异构性。机器人通常配备不同的摄像头传感器，安装在不同位置（例如手腕和/或第三人称），由于环境和任务的不同，每个机器人的视觉外观差异巨大。本体感知和视觉信息对于机器人复杂的、接触丰富的、长期行为至关重要。这些信息的不良学习可能导致过拟合行为，例如重复特定场景和任务的动作甚至轨迹。

在这项工作中，作者提出通过异构预训练将不同体现形式的本体感知和视觉信息对齐到共享的策略“语言”（图1）。有了这样的共享表示，新体现形式只需要最少的数据和训练就可以将其特定设置“翻译”成共享“语言”。换言之，希望预训练任务不可知和体现形式不可知的基础模型，这些模型可以将来自个体体现形式的原始传感器信号映射到共享潜在空间。先前的工作在人类视频上预训练策略的视觉部分取得了显著进展，并且在统一的模型和数据集格式（例如使用语言）上预训练完整的策略。此外，它们假设在预训练中没有本体感知，并在迁移学习中事后添加。

作者引入了异构预训练变换器（Heterogeneous Pre-trained Transformers，简称HPT），这是一系列旨在可扩展地从异构体现形式的数据中学习的结构。HPT模块化了一个通用策略网络架构（图2），并使用监督学习预训练潜在变换器的策略表示。受到从多模态数据中学习的启发，使用体现形式特定的标记器，称为“stem”，来对齐各种传感器输入，如摄像头视图和本体感知输入。“trunk”是共享的，并且在数据集之间预训练，并且在适应预训练期间未知的新体现形式和任务时进行转移。此外，使用任务特定的动作解码器，称为“head”，来产生动作输出。至关重要的是，在“标记化每个体现形式”之后，HPT在一系列潜在标记的共享空间上操作。这种层次结构的灵感来自于人类在脊髓神经回路层面处理特定运动反应与感知刺激之间的反馈循环。

作者广泛研究了策略预训练的扩展行为和各种设计，涉及超过50个独立数据源（比[55]多两倍）和超过10亿参数的模型大小。类似于扩展法则，发现在某种程度上，HPT随着数据集的数量和多样性以及模型和训练计算的扩展而扩展。

此外，异构性可能发生在不同的体现形式领域，如真实机器人硬件、模拟领域和人类视频。在预训练过程中纳入了许多不同体现形式的可用体现数据集，如真实机器人、模拟和互联网人类视频，并展示了框架的通用性，包括昂贵的真实世界机器人远程操作之外的体现形式。

通过在多个模拟基准和真实世界灵巧任务中的迁移学习实验，作者与几个基线和从头开始的对应物进行了比较。总体而言，基于预训练目标，HPT可以随着模型、数据、计算以及真实机器人、模拟和人类视频的机器人数据集的异构性而扩展。这些预训练程序和模型可以简化构建新体现形式和新任务的可靠机器人策略，无论是在数据需求还是泛化性能方面。作为扩展异构预训练的尝试，代码和权重是开源的，作者希望HPT能够为从异构体现形式和任务中学习机器人表示提供一些启示。

图2：HPT架构。HPT被模块化为茎、主干和头部。茎由本体感知标记器和视觉标记器组成，将不同体现形式的视觉和本体感知观测映射到固定数量（例如16个）的标记。共享的主干，即变换器，将连接的标记映射到共享表示。头部然后将处理过的标记映射到不同下游任务中的行动。对于特定的体现形式，激活一对茎/头部（由开关表示）。主干是共享的，并且在监督学习上有标记的数据上预训练，然后转移到新的体现形式。这个过程可以扩展到52个数据集和10亿参数。

匠心独运

图3：HPT中的茎架构。在HPT的茎中，本体感知标记器使用一个多层感知器（MLP）将本体感知信息映射到一个特征，然后由16个可学习的标记进行关注。视觉标记器使用预训练的编码器，并类似地使用注意力机制将视觉特征映射到16个固定标记。该架构灵活地处理输入序列，而不会增大标记的大小。

卓越性能

图4：机器人数据集的异构性。展示了来自不同领域的数据集混合的插图（每种颜色代表一个不同的体现形式），包括真实机器人遥操作[14]、部署的机器人[38]、模拟和人类视频[15]。

总结展望

在许多方面，包括数据集策划和预训练目标，都有改进的空间。具体来说，平衡数据集混合中的体现形式分割相对简单。此外，确保数据质量的仔细数据筛选在这项工作中尚未充分探索。同时，这项工作专注于将监督学习作为预训练目标，并且数据大小（以标记计）和训练计算规模（以FLOPs计）只达到了确保完全收敛的中等规模的LLM训练水平。尽管模型架构和训练程序是模块化的，并且独立于体现形式设置，但异构预训练可能会缓慢收敛。对于评估，模拟和现实世界的评估任务都限制在具有固定体现形式的短视界操纵任务上，这可能会限制使用更高容量模型的好处。此外，学到的策略在测试任务上仍然没有提供非常高的可靠性（通常低于90%）。有关一些失败模式，请参阅附录§C。

鉴于最近规模数据的激增，由于异构性，包括不同的体现形式、任务和机器人操作的环境，机器人学习仍然受到其泛化性的限制。为了处理机器人学中常见的异构性，作者提出了HPT，这是一个模块化架构和框架，通过预训练来包容这种异构性。探索并扩展了HPT与50多个可用数据集的异构性。学到的表示可以在模拟和现实世界中转移并提高性能，并且它与预训练性能相关。代码2是开源的，用于未来研究。作者希望这种观点能激发未来在处理机器人数据的异构性方面的工作，以构建机器人基础模型

参考：

https://arxiv.org/pdf/2409.20537

关注+标星，邂逅每一篇经典！

http://mp.weixin.qq.com/s?__biz=Mzk0MTYxOTM0MQ==&mid=2247486178&idx=1&sn=f483313c5ed09fe8fa20ecefbaf80957

群函数

分享前沿的开源技术以及有趣的科普知识。敬请关注！

Science | 神经网络中的特征学习机制以及无需反向传播的机器学习模型。

Nature | 用于快速、无需标记的胶质瘤浸润检测的基础模型！

Science Advances|基于生成对抗网络的重建泛癌组织学

Science Advances|基于光学相干断层扫描（OCT）的非侵入性虚拟活检！

ECCV | 通过密集归一化的超高分辨率非配对图像到图像的转换!

CVPR2024|通过扩散模型调优增强的“SAM”

Nature Mach. Intell.|基于任务辅助的GAN来增强光学纳米显微图像分辨率！

Light | 深度学习自发荧光-谐波显微镜！

Nature Communications|使用自荧光显微镜和深度学习进行虚拟双折射成像和组织学染色！

Nature Communications|未标记尸检组织的虚拟组织学染色！

Nature Communications | 超紫外光声显微镜实现深度学习驱动的真实虚拟组织学！

Nature Communications|基于深度学习的H&E染色组织向特殊染色的转换

Nature B.M.E.|通过深度学习的紫外光声显微镜实现骨组织的无标记术中组织学检查

Light|基于深度学习的虚拟染色、分割和分类在无标记光声组织学中的应用

Cell Systems|基于弱监督深度学习的图像空间转录组学中精确的单分子点检测

Nature B.M.E. | 通过深度学习对未标记组织的自体荧光图像进行虚拟组织学染色

Nature Methods|综述-用于细胞图像分析的深度学习！

Nature Communications| 基于自监督学习亚细胞空间转录组数据分割！

Nature Communications | 用于多尺度组织成像和神经元分割的模块化框架！

Nature Methods|使用Kubernetes扩展基于深度学习的细胞图像分析

Nature Methods| Cellpose 2.0：如何训练你自己的模型？

一种用于多模态图像的细胞分割基础模型

Nature Biotech.|使用大规模数据标注和深度学习实现组织图像的全细胞分割！

Science |诺奖获得者06年经典之作-使用神经网络降低数据的维度！

ECCV | ActionVOS：将动作作为提示进行视频对象分割!

超越自适应SAM：通过自动提示实现端到端的超声图像分割！

CVPR | 端到端多模态Transformer视频对象分割！

ECCV 2024 | AI的物理世界，在音视频场景中参考并分割对象Ref-AVS

Nat.Biomed.Eng. | 用于临床血管成像的快速全光学3D光声扫描仪。

Nature Communications | 高性能的深度脉冲神经网络！

刚刚，2024年诺贝尔化学奖同样也授予AI科学家！

nature | 通用医学人工智能的基础模型！

刚刚，诺贝尔物理学奖颁给研究神经网络的科学家！

NeurIPS 2024 | 何恺明老师新作！通过异构预训练的变换器扩展本体感觉-视觉学习

Nature Communications |纵向深度神经网络用于评估大型开放基准上的转移性脑癌！

基于大型视觉和语言模型的提示引导病理分割PFPs

SAM-Adapter：适应性能低下场景中的任何片段适配！

CVPR2024 | 处理扩散模型中时间间隔端点的奇异性!

CVPR2024 | 面向大图像生成的学习表示引导扩散模型！

Nature Communications|基于少量样本学习的蛋白质语言预测模型！

Nature Communications|基于临床-组织学-基因组的肾细胞癌多分类器系统！

Science Advances | 通过受激拉曼CycleGAN模型对新鲜脑组织进行虚拟病理染色!

Nature Communications | 基于预训练多模态大模型的皮肤病诊断SkinGPT-4！

Nature | 癌症诊断和预后预测的通用病理基础模型！

Nature Communications | 基于可解释图神经网络的癌症基因分析！

Nature Communications | 基于去噪超分辨率网络的蛋白质组学细胞分割与聚类！

Science | 基于无反向传播训练的深度物理神经网络！

Nature Communications|基于组织病理学的临床试验中患者预筛查深度学习算法！

Nature Rev. Cancer | 基于人工智能的癌症研究人员指导综述！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉