谷歌、CMU等研究综述：面向通用机器人的基础模型

文摘 2024-09-06 00:00 北京

构建能够在任何环境中无缝操作、使用各种技能处理不同物体和完成多样化任务的通用机器人，一直是人工智能领域的长期目标。然而，不幸的是，大多数现有的机器人系统受到限制——它们被设计用于特定任务、在特定数据集上进行训练，并在特定环境中部署。这些系统通常需要大量标注数据，依赖于特定任务的模型，在现实世界场景中部署时存在诸多泛化问题，并且难以对分布变化保持鲁棒性。

受到网络规模大容量预训练模型（即基础模型）在自然语言处理（NLP）和计算机视觉（CV）等研究领域开放集表现和内容生成能力印象深刻的启发，我们将本综述（survey）致力于探索（i）如何将现有的NLP和CV领域的基础模型应用于机器人技术领域，以及（ii）专门针对机器人技术的基础模型将会是什么样子。

我们首先概述了传统机器人系统的构成及其普遍适用性的基本障碍。接着，我们建立了一个分类体系，讨论了当前利用现有基础模型进行机器人技术探索和开发针对机器人技术的模型的工作。最后，我们讨论了使用基础模型启用通用机器人系统的关键挑战和有前景的未来发展方向。我们鼓励读者查看我们的“活动”GitHub仓库，其中包括本综述中审阅的论文以及相关项目和用于开发机器人技术基础模型的仓库资源：https://robotics-fm-survey.github.io/。

我们在开发能够适应不同环境并在其中运作的自治机器人系统方面仍面临许多挑战。以往的机器人感知系统利用传统深度学习方法，通常需要大量标记数据来训练监督学习模型；与此同时，为这些大型数据集构建众包标记过程仍然相当昂贵。此外，由于传统监督学习方法的泛化能力有限，训练出的模型通常需要精心设计的领域适应技术才能将这些模型部署到特定场景或任务，这往往需要进一步的数据收集和标记。类似地，传统的机器人规划和控制方法通常需要精确建模世界、自主体的动力学和/或其他代理的行为。这些模型针对每个特定环境或任务建立，并且在发生变化时通常需要重新构建，暴露了它们的有限可迁移性；事实上，在许多情况下，构建有效模型要么太昂贵，要么不切实际。尽管基于深度（强化）学习的运动规划和控制方法可以帮助缓解这些问题，但它们也仍然受到分布变化和泛化能力降低的困扰。

在构建具有泛化能力的机器人系统所面临的挑战的同时，我们也注意到自然语言处理（NLP）和计算机视觉（CV）领域的显著进步——引入了大型语言模型（LLMs）用于NLP，使用扩散模型进行高保真图像生成，以及使用大容量视觉模型和视觉语言模型（VLMs）实现CV任务的零次/少次学习泛化。这些被称为“基础模型”，或简称为大型预训练模型（LPTMS），这些大容量视觉和语言模型也已应用于机器人技术领域，有潜力赋予机器人系统开放世界的感知、任务规划甚至运动控制能力。

除了直接应用现有的视觉和/或语言基础模型于机器人任务之外，我们也看到了开发更多针对机器人的特定模型的相当潜力，例如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型在不同任务甚至不同实体上显示出了极大的泛化能力。视觉/语言基础模型也已直接应用于机器人任务，显示了将不同机器人模块融合为单一统一模型的可能性。尽管我们看到将视觉和语言基础模型应用于机器人任务以及开发新的机器人基础模型的有前景的应用，但许多机器人技术的挑战仍然难以企及。从实际部署的角度来看，模型通常无法复制，缺乏多实体泛化能力，或者无法准确捕捉环境中可行（或可接受）的情况。此外，大多数出版物利用基于Transformer的架构，专注于物体和场景的语义感知、任务级规划或控制；其他可能受益于跨领域泛化能力的机器人系统组成部分尚未被充分探索——例如，用于世界动力学的基础模型或可以进行符号推理的基础模型。最后，我们想强调需要更多大规模实际数据以及具有多样化机器人任务的高保真模拟器。

在本文中，我们调查了基础模型在机器人技术中的应用，并旨在理解基础模型如何帮助缓解核心机器人技术挑战。我们使用“机器人技术基础模型”一词来包括两个不同的方面：（1）将现有的（主要是）视觉和语言模型应用于机器人技术，主要通过零样本学习和情境学习；以及（2）使用机器人生成的数据开发和利用专门针对机器人任务的机器人基础模型。我们总结了机器人技术基础模型论文的方法论，并对我们调查的论文的实验结果进行了元分析。

本文的主要组成部分在图1中进行了总结。本文的整体结构如图2所述。在第2节中，我们简要介绍了基础模型时代之前的机器人研究，并讨论了基础模型的基础知识。在第3节中，我们列举了机器人研究中的挑战，并讨论了基础模型可能如何缓解这些挑战。在第4节中，我们总结了机器人技术中基础模型的当前研究现状。最后，在第6节中，我们提出了可能对这一研究交叉领域产生重大影响的潜在研究方向。

机器人技术中的挑战

在本节中，我们总结了典型机器人系统中各种模块面临的五个核心挑战，每个挑战都在以下小节中详细介绍。尽管类似的挑战已在先前文献中讨论过（见第1.2节），但本节主要关注那些可能通过适当利用基础模型来解决的挑战，这一点从当前研究结果中得到了证据。我们还在本节中描述了分类法，以便在图3中更容易回顾。

用于机器人技术的基础模型

在本节中，我们重点讨论在机器人技术中零次学习应用视觉和语言基础模型。这主要包括用于机器人感知的VLMs的零样本学习部署，在任务级别和运动级别规划以及动作生成方面的LLMs的情境学习。我们在图6中展示了一些代表性的工作。

机器人基础模型（RFMs）

随着包含真实机器人的状态-动作对的机器人数据集数量的增加，机器人基础模型（RFMs）的类别也变得越来越可行。这些模型的特点是使用机器人数据来训练，以解决机器人任务。在本小节中，我们总结并讨论了不同类型的RFMs。我们首先介绍能够在第2.1节中的一个机器人模块内执行一组任务的RFMs，这被定义为单一目的的机器人基础模型。例如，一个能够生成用于控制机器人的低级动作的RFM，或一个能够生成更高级别运动规划的模型。之后，我们介绍能够在多个机器人模块中执行任务的RFMs，因此它们是能够执行感知、控制甚至非机器人任务的通用模型。

如何利用基础模型解决机器人技术挑战

在第3节中，我们列出了机器人技术中的五个主要挑战。在本节中，我们总结了基础模型——无论是视觉和语言模型还是机器人基础模型——如何以更有组织的方式帮助解决这些挑战。

所有与视觉信息相关的基础模型，如VFMs、VLMs和VGMs，都用于机器人技术中的感知模块。而LLMs则更加多功能，可以应用于规划和控制领域。我们还在这里列出了RFMs，这些机器人基础模型通常用于规划和动作生成模块。我们在表1中总结了基础模型如何解决前述的机器人技术挑战。从这个表中我们可以看出，所有基础模型都擅长于各种机器人模块任务的泛化。此外，LLMs尤其擅长于任务规范化。另一方面，RFMs擅长处理动力学模型的挑战，因为大多数RFMs是无模型方法。

对于机器人感知，泛化能力和模型的挑战是相互联系的，因为，如果感知模型已经具有非常好的泛化能力，那么就没有必要为了领域适应或额外的微调而获取更多数据。此外，解决安全挑战的呼声在很大程度上缺失，我们将在第6节中讨论这个特殊问题。用于泛化的基础模型零次泛化是当前基础模型的最显著特征之一。机器人技术几乎在所有方面和模块都受益于基础模型的泛化能力。首先，VLM和VFM作为默认的机器人感知模型在感知方面的泛化能力是一个很好的选择。第二方面是任务级规划的泛化能力，由LLMs生成任务计划的细节。第三个方面是运动规划和控制方面的泛化能力，通过利用RFMs的力量。

用于数据稀缺的基础模型 基础模型在解决机器人技术中的数据稀缺问题上至关重要。它们为使用最少的特定数据学习和适应新任务提供了坚实的基础。例如，最近的方法利用基础模型生成数据来帮助训练机器人，如机器人轨迹和仿真。这些模型擅长从少量示例中学习，使机器人能够使用有限的数据快速适应新任务。从这个角度来看，解决数据稀缺问题相当于解决机器人技术中的泛化能力问题。除此之外，基础模型——尤其是LLMs和VGMs——可以生成用于训练感知模块（见上面的4.1.5节）和任务规范化的机器人技术数据集。

用于减轻模型要求的基础模型 正如第3.3节所讨论的，建立或学习一个模型——无论是环境地图、世界模型还是环境动力学模型——对于解决机器人技术问题至关重要，尤其是在运动规划和控制方面。然而，基础模型展现的强大的少/零次泛化能力可能会打破这一要求。这包括使用LLMs生成任务计划，使用RFMs学习无模型的端到端控制策略等。

用于任务规范化的基础模型 任务规范化作为语言提示，目标图像，展示任务的人类视频，奖励，轨迹粗略草图，政策草图和手绘图像，使目标规范化以一种更自然、类人的格式实现。多模态基础模型允许用户不仅指定目标，还可以通过对话解决歧义。最近在理解人机交互领域中的信任和意图识别方面的工作开辟了我们理解人类如何使用显式和隐式线索传达任务规范化的新范式。虽然取得了显著进展，但最近在LLMs提示工程方面的工作表明，即使只有一个模态，也很难生成相关输出。视觉-语言模型被证明在任务规范化方面尤其擅长，显示出解决机器人技术问题的潜力。扩展基于视觉-语言的任务规范化的理念，探索了使用更自然的输入，如从互联网获取的图像，实现多模态任务规范化的方法。Brohan等人进一步探索了从任务无关数据进行零次转移的这一理念，提出了一个具有扩展模型属性的新型模型类。该模型将高维输入和输出，包括摄像头图像、指令和马达命令编码成紧凑的令牌表示，以实现移动操纵器的实时控制。

用于不确定性和安全的基础模型 尽管不确定性和安全是机器人技术中的关键问题，但使用机器人技术基础模型解决这些问题仍然未被充分探索。现有的工作，如KNOWNO，提出了一种测量和对齐基于LLM的任务规划器不确定性的框架。最近在链式思考提示、开放词汇学习和LLMs中幻觉识别方面的进展可能为解决这些挑战开辟新途径。

文章来源：专知

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247498740&idx=5&sn=e235cb356b99c92ca4bcdb0fc642f96b

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

电子皮肤作为人机接口在家庭护理机器人中的抓取识别

Science Robotics 把Arduino开发板做成柔性版，为软体机器人集成高性能计算能力

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

触感灵巧手抓取操作视频集锦

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Advances 具有高灵敏度远程感知功能的多感受器皮肤

剑桥&ETH研究综述：NeRF在机器人技术中的应用

Nat. Commun.：飞秒激光书写受蚂蚁启发的可重构微型机器人集体

CoRL 2024 麻省理工学院提出T3触觉Transformer，打破触觉感知的壁垒，重塑未来机器人

斯坦福团队用模仿学习赋予机器人新技能：系鞋带

谷歌 DeepMind 联合斯坦福推出了主从式遥操作双臂机器人系统增强版ALOHA 2

IEEE TRO 人形机器人遥操作的综述

机器人遥操作视频集锦

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

Science Robotics 康奈尔大学用杏鲍菇控制机器人运动！

视触觉传感研究集锦

触感灵巧手抓取操作视频集锦

JBE 人体皮肤在机器人滑动按摩操作中的摩擦和变形行为

《中国科学：信息科学》综述文章：大模型驱动的具身智能：发展与挑战

RobotGPT：利用ChatGPT的机器人操作学习框架，三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

AM：具有多模态触觉感知和人工智能的零偏差仿生指尖电子皮肤，可增强触觉感知

IROS 2024 “动态环境的重要性：具身导航至可移动目标物”论坛征稿

AFM 基于超材料的保形性和多感官整合的电子皮肤

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

普渡大学和麻省理工学院合作开发集成视触觉指尖传感器的5自由度抓手

Science Robotics 麻省理工学院最新研究，从仿真中学习的精确选择、定位和抓放物体的视触觉方法

RAL论文：基于弹性体形变仿真的视触觉传感器仿真器Tacchi

OpenAI加持，1X消费级人形机器人亮相

IEEE TRO 人形机器人遥操作的综述

采访Figure Robotics CEO Brett Adcock：预测世界将有100亿个人形机器人，每个人都会拥有人形机器人

人形机器人Figure 02问世，进宝马工厂开整

OpenAI大模型赋能 Figure 01人形机器人的智能操作

Science 弹性模量提高3.5倍！新型3D打印技术

Science和Nature正刊2023年发表了9篇3D打印的相关文章

Nature封面论文：多无人机协同3D打印盖房子

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉