谷歌、CMU等研究综述：面向通用机器人的基础模型

文摘 2024-11-04 00:01 北京

构建能够在任何环境中无缝操作、使用各种技能处理不同物体和完成多样化任务的通用机器人，一直是人工智能领域的长期目标。然而，不幸的是，大多数现有的机器人系统受到限制——它们被设计用于特定任务、在特定数据集上进行训练，并在特定环境中部署。这些系统通常需要大量标注数据，依赖于特定任务的模型，在现实世界场景中部署时存在诸多泛化问题，并且难以对分布变化保持鲁棒性。

受到网络规模大容量预训练模型（即基础模型）在自然语言处理（NLP）和计算机视觉（CV）等研究领域开放集表现和内容生成能力印象深刻的启发，我们将本综述（survey）致力于探索（i）如何将现有的NLP和CV领域的基础模型应用于机器人技术领域，以及（ii）专门针对机器人技术的基础模型将会是什么样子。

我们首先概述了传统机器人系统的构成及其普遍适用性的基本障碍。接着，我们建立了一个分类体系，讨论了当前利用现有基础模型进行机器人技术探索和开发针对机器人技术的模型的工作。最后，我们讨论了使用基础模型启用通用机器人系统的关键挑战和有前景的未来发展方向。我们鼓励读者查看我们的“活动”GitHub仓库，其中包括本综述中审阅的论文以及相关项目和用于开发机器人技术基础模型的仓库资源：https://robotics-fm-survey.github.io/。

我们在开发能够适应不同环境并在其中运作的自治机器人系统方面仍面临许多挑战。以往的机器人感知系统利用传统深度学习方法，通常需要大量标记数据来训练监督学习模型；与此同时，为这些大型数据集构建众包标记过程仍然相当昂贵。此外，由于传统监督学习方法的泛化能力有限，训练出的模型通常需要精心设计的领域适应技术才能将这些模型部署到特定场景或任务，这往往需要进一步的数据收集和标记。类似地，传统的机器人规划和控制方法通常需要精确建模世界、自主体的动力学和/或其他代理的行为。这些模型针对每个特定环境或任务建立，并且在发生变化时通常需要重新构建，暴露了它们的有限可迁移性；事实上，在许多情况下，构建有效模型要么太昂贵，要么不切实际。尽管基于深度（强化）学习的运动规划和控制方法可以帮助缓解这些问题，但它们也仍然受到分布变化和泛化能力降低的困扰。

在构建具有泛化能力的机器人系统所面临的挑战的同时，我们也注意到自然语言处理（NLP）和计算机视觉（CV）领域的显著进步——引入了大型语言模型（LLMs）用于NLP，使用扩散模型进行高保真图像生成，以及使用大容量视觉模型和视觉语言模型（VLMs）实现CV任务的零次/少次学习泛化。这些被称为“基础模型”，或简称为大型预训练模型（LPTMS），这些大容量视觉和语言模型也已应用于机器人技术领域，有潜力赋予机器人系统开放世界的感知、任务规划甚至运动控制能力。

除了直接应用现有的视觉和/或语言基础模型于机器人任务之外，我们也看到了开发更多针对机器人的特定模型的相当潜力，例如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型在不同任务甚至不同实体上显示出了极大的泛化能力。视觉/语言基础模型也已直接应用于机器人任务，显示了将不同机器人模块融合为单一统一模型的可能性。尽管我们看到将视觉和语言基础模型应用于机器人任务以及开发新的机器人基础模型的有前景的应用，但许多机器人技术的挑战仍然难以企及。从实际部署的角度来看，模型通常无法复制，缺乏多实体泛化能力，或者无法准确捕捉环境中可行（或可接受）的情况。此外，大多数出版物利用基于Transformer的架构，专注于物体和场景的语义感知、任务级规划或控制；其他可能受益于跨领域泛化能力的机器人系统组成部分尚未被充分探索——例如，用于世界动力学的基础模型或可以进行符号推理的基础模型。最后，我们想强调需要更多大规模实际数据以及具有多样化机器人任务的高保真模拟器。

在本文中，我们调查了基础模型在机器人技术中的应用，并旨在理解基础模型如何帮助缓解核心机器人技术挑战。我们使用“机器人技术基础模型”一词来包括两个不同的方面：（1）将现有的（主要是）视觉和语言模型应用于机器人技术，主要通过零样本学习和情境学习；以及（2）使用机器人生成的数据开发和利用专门针对机器人任务的机器人基础模型。我们总结了机器人技术基础模型论文的方法论，并对我们调查的论文的实验结果进行了元分析。

本文的主要组成部分在图1中进行了总结。本文的整体结构如图2所述。在第2节中，我们简要介绍了基础模型时代之前的机器人研究，并讨论了基础模型的基础知识。在第3节中，我们列举了机器人研究中的挑战，并讨论了基础模型可能如何缓解这些挑战。在第4节中，我们总结了机器人技术中基础模型的当前研究现状。最后，在第6节中，我们提出了可能对这一研究交叉领域产生重大影响的潜在研究方向。

机器人技术中的挑战

在本节中，我们总结了典型机器人系统中各种模块面临的五个核心挑战，每个挑战都在以下小节中详细介绍。尽管类似的挑战已在先前文献中讨论过（见第1.2节），但本节主要关注那些可能通过适当利用基础模型来解决的挑战，这一点从当前研究结果中得到了证据。我们还在本节中描述了分类法，以便在图3中更容易回顾。

用于机器人技术的基础模型

在本节中，我们重点讨论在机器人技术中零次学习应用视觉和语言基础模型。这主要包括用于机器人感知的VLMs的零样本学习部署，在任务级别和运动级别规划以及动作生成方面的LLMs的情境学习。我们在图6中展示了一些代表性的工作。

机器人基础模型（RFMs）

随着包含真实机器人的状态-动作对的机器人数据集数量的增加，机器人基础模型（RFMs）的类别也变得越来越可行。这些模型的特点是使用机器人数据来训练，以解决机器人任务。在本小节中，我们总结并讨论了不同类型的RFMs。我们首先介绍能够在第2.1节中的一个机器人模块内执行一组任务的RFMs，这被定义为单一目的的机器人基础模型。例如，一个能够生成用于控制机器人的低级动作的RFM，或一个能够生成更高级别运动规划的模型。之后，我们介绍能够在多个机器人模块中执行任务的RFMs，因此它们是能够执行感知、控制甚至非机器人任务的通用模型。

如何利用基础模型解决机器人技术挑战

在第3节中，我们列出了机器人技术中的五个主要挑战。在本节中，我们总结了基础模型——无论是视觉和语言模型还是机器人基础模型——如何以更有组织的方式帮助解决这些挑战。

所有与视觉信息相关的基础模型，如VFMs、VLMs和VGMs，都用于机器人技术中的感知模块。而LLMs则更加多功能，可以应用于规划和控制领域。我们还在这里列出了RFMs，这些机器人基础模型通常用于规划和动作生成模块。我们在表1中总结了基础模型如何解决前述的机器人技术挑战。从这个表中我们可以看出，所有基础模型都擅长于各种机器人模块任务的泛化。此外，LLMs尤其擅长于任务规范化。另一方面，RFMs擅长处理动力学模型的挑战，因为大多数RFMs是无模型方法。

对于机器人感知，泛化能力和模型的挑战是相互联系的，因为，如果感知模型已经具有非常好的泛化能力，那么就没有必要为了领域适应或额外的微调而获取更多数据。此外，解决安全挑战的呼声在很大程度上缺失，我们将在第6节中讨论这个特殊问题。用于泛化的基础模型零次泛化是当前基础模型的最显著特征之一。机器人技术几乎在所有方面和模块都受益于基础模型的泛化能力。首先，VLM和VFM作为默认的机器人感知模型在感知方面的泛化能力是一个很好的选择。第二方面是任务级规划的泛化能力，由LLMs生成任务计划的细节。第三个方面是运动规划和控制方面的泛化能力，通过利用RFMs的力量。

用于数据稀缺的基础模型 基础模型在解决机器人技术中的数据稀缺问题上至关重要。它们为使用最少的特定数据学习和适应新任务提供了坚实的基础。例如，最近的方法利用基础模型生成数据来帮助训练机器人，如机器人轨迹和仿真。这些模型擅长从少量示例中学习，使机器人能够使用有限的数据快速适应新任务。从这个角度来看，解决数据稀缺问题相当于解决机器人技术中的泛化能力问题。除此之外，基础模型——尤其是LLMs和VGMs——可以生成用于训练感知模块（见上面的4.1.5节）和任务规范化的机器人技术数据集。

用于减轻模型要求的基础模型 正如第3.3节所讨论的，建立或学习一个模型——无论是环境地图、世界模型还是环境动力学模型——对于解决机器人技术问题至关重要，尤其是在运动规划和控制方面。然而，基础模型展现的强大的少/零次泛化能力可能会打破这一要求。这包括使用LLMs生成任务计划，使用RFMs学习无模型的端到端控制策略等。

用于任务规范化的基础模型 任务规范化作为语言提示，目标图像，展示任务的人类视频，奖励，轨迹粗略草图，政策草图和手绘图像，使目标规范化以一种更自然、类人的格式实现。多模态基础模型允许用户不仅指定目标，还可以通过对话解决歧义。最近在理解人机交互领域中的信任和意图识别方面的工作开辟了我们理解人类如何使用显式和隐式线索传达任务规范化的新范式。虽然取得了显著进展，但最近在LLMs提示工程方面的工作表明，即使只有一个模态，也很难生成相关输出。视觉-语言模型被证明在任务规范化方面尤其擅长，显示出解决机器人技术问题的潜力。扩展基于视觉-语言的任务规范化的理念，探索了使用更自然的输入，如从互联网获取的图像，实现多模态任务规范化的方法。Brohan等人进一步探索了从任务无关数据进行零次转移的这一理念，提出了一个具有扩展模型属性的新型模型类。该模型将高维输入和输出，包括摄像头图像、指令和马达命令编码成紧凑的令牌表示，以实现移动操纵器的实时控制。

用于不确定性和安全的基础模型 尽管不确定性和安全是机器人技术中的关键问题，但使用机器人技术基础模型解决这些问题仍然未被充分探索。现有的工作，如KNOWNO，提出了一种测量和对齐基于LLM的任务规划器不确定性的框架。最近在链式思考提示、开放词汇学习和LLMs中幻觉识别方面的进展可能为解决这些挑战开辟新途径。

文章来源：专知

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247499823&idx=4&sn=cc2dbc24e3efa0569414776bd0baf648

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

第九届认知系统与信息处理国际会议（ICCSIP 2024）即将在常州召开！

具身触觉社区“新锐论前沿” 第一期活动成功举办

柔性仿人手指全覆盖磁皮肤，具备接触觉和运动觉的双模态感知能力

迄今结构最简洁的双向刚度仿人手指关节，设计灵感源自卷尺

大面积柔性磁触觉感知

超人手功能的软体指尖：磁触觉感知兼具吸附抓取能力

控制系统可控性检验理论的变革：从模型驱动到数据驱动

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

推荐清华大学李升波教授撰写的强化学习英文专著

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

Springer英文专著分享：结合穿戴技术的机器人操作与学习

Nature Communications 麻省理工学院计算机科学与人工智能实验室研制“触觉反馈”智能数据手套

ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

Science Robotics 封面论文：视触觉传感器的手内操作

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

IEEE Sensors 视触觉传感器的硬件技术综述

IEEE JSTSP综述：从信号处理领域分析视触觉传感器的研究

不列颠哥伦比亚大学（The University of British Columbia）刘超助理教授招生公告~

新加坡国立大学机器人方向（AdaComp 研究组）科研实习机会

斯坦福李飞飞吴佳俊团队建立HourVideo，揭示当前模型在长视频理解上与人类水平的差距

具身触觉社区 | “新锐论前沿” 第一期活动预告

清华大学张钹院士发表人民日报最新文章：具身智能—人工智能与机器人发展的重要推力

高教出版社《具身智能导论》正式出版

中文专著《机器人触觉感知原理与方法》正式出版

具身触觉社区 | “新锐论前沿” 第一期活动预告

美国《福布斯》刊登文章：2025年人工智能（AI）的十大趋势

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

Science Robotics 综述揭示演化研究新范式，从机器人复活远古生物！

CoRL2024 聚焦「视听触感官」协同配合的具身智能操作

Nature正刊：西湖大学姜汉卿教授与John A. Rogers-黄永刚-解兆谦联合开发新型的多模态触觉反馈智能穿戴装置

Nature正刊：利物浦大学的研究人员开发了人工智能驱动的移动机器人，可以高效地进行化学合成研究

Science Robotic 综述论文：通过机器人技术了解自我意识

Science Robotics 对机器人的意图归因将会影响人机协作感

Science Robotics 专刊总结：借助机器人技术推进科学发现

IEEE TRO综述论文：抓取合成领域的深度学习方法

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

高教出版社《具身智能导论》正式出版

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

机器人神经场的全面盘点：导航/自动驾驶/姿态估计应用一览无余

CMU, UC Berkeley等团队结合神经辐射场的视触觉感知，用于手内操作

Nat. Mach. Intell. | 用化学工具扩充大型语言模型

清华叉院高阳团队首次发现具身智能Scaling Laws

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉