具身智能的数据采集主流路径

科技   2024-12-04 21:13   广东  

SmartFlowAI


点击上方蓝字关注我们

作者:周善斌

全文约 4300 字,预计阅读时间 11 分钟。

具身智能(Embodied AI)是指具有物理身体并能通过感知和交互与环境进行实时互动的智能系统。它依赖于大量的数据来支持其感知、决策和控制过程。具身智能系统需要海量数据来支持其运作,这些数据不仅包括静态信息,还需要反映智能体与环境在时间和空间维度上的动态变化。数据在具身智能中扮演着至关重要的角色,因为它是智能体进行学习和进化的基础。

具身智能也是作为数据驱动型的智能形式之一,其数据数据具有多模态、时空相关、高维度等特点,这些数据的采集、处理、标注和利用都面临诸多挑战。

以下我们将介绍三种具身智能常见的数据途径:

主流的具身智能数据采集方法主要包括遥控操作动捕大模型等。其中,单一的遥控操作或动捕需由人类操作员直接控制,无法实现机器替人。大模型和智能体深度融合,具备较强泛化型。在数据选择上,可采用仿真数据或真实数据。仿真通过构建虚拟环境生成大量数据,成本较低,适合在新的环境中大范围学习技能;利用真实数据能够形成细分场景的数据壁垒,但成本及获取难度相对较高。

一、遥控操作

遥控操作(Teleoperation)能够直接有效解决工业、极端危险等应用场景的刚需,但无法实现机器替人。遥控操作主要是通过专用设备将人类的动作直接迁移到机器人身上,再由机器人通过传感器收集数据,以达到双向反馈的目的。在该种控制方式下,机器人由人类操作员直接控制,人类用户负责高级规划或认知决策,而机器人负责下层的控制和执行,并通过触觉传感器来感知即将抓取的物体。通过遥控操作系统,可以实现机器人的远程控制。遥控操作的优势在于能够精准、高效地模仿人类动作,并且实时捕捉传输关节角度、速度等关键状态信息,相比其他训练路径更为直接有效,且能够解决工业、极端危险等应用场景的刚需。但遥控操作由人类操作员直接控制,数据采集成本较高;并且单纯依靠遥控操作无法实现机器代替人。

最简单的例子则为MIT开源的 Mobile ALOHA[1] 机器人以及相关的实验工作。由于遥控操作过于成熟,请读者可以自行参考案例。

Mobile ALOHA,这是一个低成本的全身远程操作系统,用于数据收集。它通过移动基座和全身远程操作界面增强了 ALOHA 系统。使用 Mobile ALOHA 收集的数据,我们然后执行监督行为克隆,并发现与现有的静态 ALOHA 数据集共同训练可以提高移动操作任务的性能。通过每项任务50次演示,共同训练可以将成功率提高到90%,使 Mobile ALOHA 能够自主完成复杂的移动操作任务,例如煎炒并上菜一片虾、 打开双门墙橱存放重型烹饪锅具、呼叫并进入电梯、 以及使用厨房水龙头轻轻冲洗使用过的平底锅。

二、动作捕捉

动捕能够将人类动作直接迁移到机器人身上,但同样无法真正实现机器替人。动捕一般是由演示人员穿好动作捕捉套装,衣服上的电位器通过数据线和电脑相连接,因此演示人员的的全身运动数据会被记录下来,供机器人学习。特斯拉在2023 年股东大会上展示 Optimus 的进展时,视频中工作人员穿戴动捕服进行演示,人类的动作能够直接迁移到机器人身上,机器人再通过传感器收集数据,以达到输入的目的。动捕的优势在于人类的动作能够直接迁移到机器人身上,在实际训练中,动捕往往与遥控操作结合使用,因此尤其适合人形机器人训练。但与遥控操作类似,单一动捕无法真正实现机器替人。

案例介绍:

诺亦腾[2]借助 NVIDIA Isaac Sim & Isaac Lab[3] 平台开放度极高的系统架构以提供的丰富资产与数据生态,携手机器人领域的多家企业和研究机构一起打通动作捕捉/运动测量系统与机器人虚拟本体/真实本体之间的工作回路,打造出一个真正意义上的 Human-in-the-loop

基于真实本体的数据集生产

手部动作捕捉,遥操作智元远征 A2 机器人灵巧手

基于人体的数据集生产

动作捕捉,记录真人任务执行的过程

基于虚拟本体的数据集生产

动作捕捉,遥操作基于 Isaac Sim 的虚拟本体

具身智能机器人的数据采集与算法训练,可通过“基于真实本体”,“基于虚拟本体”或“完全基于人体动作捕捉”等方式实现。其中基于真实本体方式能够最大程度反映真实世界的物理特性,其余方式虽然成本可控,但均存在一定程度上的 Domain Gap。

Domain Gap(域差距) 是机器学习和深度学习中的一个概念,指的是模型在训练数据(源领域)和实际应用数据(目标领域)之间由于分布差异导致的性能下降问题。简单来说,源领域和目标领域的数据特性(如分布、样本特征、标签关系等)不同,模型在源领域表现良好,但在目标领域表现不佳。

三、训练仿真数据

大模型具备较强泛化性,仿真数据有望大范围应用。

谷歌RT采用该种技术路径。谷歌在 RT-1[4]RT-2[5] 的框架上使用X-Embodiment数据集进行训练,该数据集包含在22个机器人上采集的能够完成16万个任务的上百万条数据。其中,RT-1充当小脑层级的控制器,由大模型负责顶层理解和指令分解,例如打开抽屉、将物体从抽屉里拿出来等。RT-2采取端到端路径,将语言、动作tokens进行对齐,微调后得到VLA模型,使得模型能够通过视觉输入和语言指令生成正确的动作标记序列。

大模型使机器人从Model-Based 向Learning-Based转变,在解决复杂和高维度的运动控制问题上具备更高的上限。但是大模型的训练需要海量数据,按数据来源分类,可分为真实数据和仿真数据。真实数据效果最好,但需要耗费大量人力和硬件成本。仿真数据成本低,可以大规模获取,但通常存在sim-to-real gap。

案例介绍:上海人工智能实验室具身智能仿真平台 **浦源·桃源**[6]

作为大模型与机器人的连接层,桃源仿真平台涵盖89种功能性场景、10万级别高质量可交互数据,构建起“软硬虚实”一体的机器人训练场。

具身自主探索是实现通专融合的有效手段,也是理解物理世界的AGI的必经之路。通过构建具有社会属性的真实交互环境,桃源仿真平台支持通用机器人从底层控制到高级任务执行的全方位研究,有望解决领域内数据匮乏、评测困难的问题,为同时攻关机器人的“大脑”与“小脑”提供强有力的基础设施支持。

此外,借鉴人类运动员的训练场景,桃源仿真平台还为具身智能体构建了训练场、陪练员及评分表。

作为训练场的GRScenes场景数据集包含10万级别高质量、可交互场景数据,首次覆盖超市、医院等 89 种功能性场景,提供语言描述、物体类别、部件、材质等全方位标注。

在视觉真实性和物理真实性的打造过程中,研究团队与专业场景设计师团队合作,实现场景布局、物体纹理等方面的真实,最大限度使虚拟场景与现实环境接轨。

同时,GRScenes中的物体具备真实的部件设计、物理属性及内部建模,并基于Isaac Sim算法进行物理仿真,为具身智能训练提供了真实的场景交互反馈。通过人工标注和多模态大模型的应用,场景中的所有区域、物体具有类别、材质等标注,为具身智能训练提供了可参考的物理场景指标。

多种功能类型场景

GRResidents角色交互系统相当于陪练员,;LLM驱动智能虚拟角色进行具身任务生成与分发,为平台提供交互社交属性。

构建“以人为中心”的通用机器人系统对具身智能研究尤为重要。在真实应用中,机器人通常需要与用户进行多轮交互,以明确指令目标,提升执行效率。由大模型智能体框架构成的GRResidents,利用多模态大模型和系统API,从场景中提取物体描述、空间关系和区域描述等高层语义信息,并通过全局信息管理器(World Knowledge Manger)将这些信息组织成智能体可调用的环境感知 API。

由大模型驱动的NPC(非玩家角色)相当于仿真平台中的“居民”,他们可依据对话及环境感知 API 进行信息提取和推理,从而进行开放形式对话。在此基础之上,这些 NPC 能够通过采样将场景信息进行智能组合,进而生成多种形式的具身任务,供具身智能体训练。

大模型驱动的NPC系统
GRResidents: 智能虚拟角色系统

评分表由GRBench评测体系完成,支持对多类机器人及任意任务进行客观评测。

目前,桃源仿真平台支持多种类型机器人的训练评测,包括对机械臂、轮式机器人、四足机器人、人形机器人的运动控制算法及训练。

用户通过即插即用式 API 调用,即可在任意任务中模拟真实的控制过程,并还原规划过程中的各类场景。未来,桃源仿真平台还将通过持续迭代,拓展对更多类型具身智能体的支持。

桃源仿真平台支持各类型机器人及任务评测,并提供控制算法及生态工具链。

基于桃源仿真平台,上海AI实验室为具身智能研究构建起生态工具链,为打通各平台壁垒,充分利用各类具身智能控制开源算法,提供了首个跨平台控制算法的迁移工具包。使用工具包,用户可一键将Isaac Gym、Isaac Lab等具身智能开源社区的控制算法迁移至桃源仿真平台。在人机交互方面,研究团队还打造了支持多模态交互与机器人控制的全新交互界面,便于研究者进行算法演示和调试,进一步提升研究效率。

四、总结

训练方法训练过程优势缺点
遥控操作专用设备将人类动作迁移到机器人身上,机器人通过传感器收集数据,以达到双向反馈的目的精准、高效地模仿人类动作实时捕捉传输关节角度、这度等关键状态信息解决工业、极端危险等应用场景的刚需由人类操作员直接控制,数据采集成本较高
动捕动捕人员穿好动作捕捉套装,衣服电位器和电脑相连接,全身运动数据记录后供机器人学习人类的动作能够直接迁移到机器人无法实现机器替人
大模型利用大量真实数据或仿真数据训练大模型大模型具备较强泛化性仿真数据成本低,可以大规模获取真实数据效采最好仿真数据存在 sim-to-real gap真实数据耗费大量人力和硬件成本
参考资料
[1]

Mobile ALOHA: https://mobile-aloha.github.io/

[2]

诺亦腾: https://www.noitom.com.cn/

[3]

NVIDIA Isaac Sim & Isaac Lab: https://developer.nvidia.com/isaac/sim

[4]

RT-1: https://robotics-transformer.github.io/assets/rt1.pdf

[5]

RT-2: https://robotics-transformer2.github.io/

[6]

浦源·桃源: https://github.com/OpenRobotLab/GRUtopia


往期 · 推荐

使用大语言模型进行自动且多功能的评估

上海AI实验室版o1已上线!数学竞赛题、Leetcode赛题全拿下,还会玩24点

LiveBench: 一个具有挑战性且无污染的 LLM 评测基准

o1圈的新王!阿里QwQ-32B开源

🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!

一起“点赞”三连👇

机智流
共赴 AI 时代浪潮~
 最新文章