具身智能的数据采集主流路径

科技 2024-12-04 21:13 广东

SmartFlowAI

点击上方蓝字关注我们

作者：周善斌
全文约 4300 字，预计阅读时间 11 分钟。

具身智能（Embodied AI）是指具有物理身体并能通过感知和交互与环境进行实时互动的智能系统。它依赖于大量的数据来支持其感知、决策和控制过程。具身智能系统需要海量数据来支持其运作，这些数据不仅包括静态信息，还需要反映智能体与环境在时间和空间维度上的动态变化。数据在具身智能中扮演着至关重要的角色，因为它是智能体进行学习和进化的基础。

具身智能也是作为数据驱动型的智能形式之一，其数据数据具有多模态、时空相关、高维度等特点，这些数据的采集、处理、标注和利用都面临诸多挑战。

以下我们将介绍三种具身智能常见的数据途径：

主流的具身智能数据采集方法主要包括遥控操作、动捕、大模型等。其中，单一的遥控操作或动捕需由人类操作员直接控制，无法实现机器替人。大模型和智能体深度融合，具备较强泛化型。在数据选择上，可采用仿真数据或真实数据。仿真通过构建虚拟环境生成大量数据，成本较低，适合在新的环境中大范围学习技能；利用真实数据能够形成细分场景的数据壁垒，但成本及获取难度相对较高。

一、遥控操作

遥控操作（Teleoperation）能够直接有效解决工业、极端危险等应用场景的刚需，但无法实现机器替人。遥控操作主要是通过专用设备将人类的动作直接迁移到机器人身上，再由机器人通过传感器收集数据，以达到双向反馈的目的。在该种控制方式下，机器人由人类操作员直接控制，人类用户负责高级规划或认知决策，而机器人负责下层的控制和执行，并通过触觉传感器来感知即将抓取的物体。通过遥控操作系统，可以实现机器人的远程控制。遥控操作的优势在于能够精准、高效地模仿人类动作，并且实时捕捉传输关节角度、速度等关键状态信息，相比其他训练路径更为直接有效，且能够解决工业、极端危险等应用场景的刚需。但遥控操作由人类操作员直接控制，数据采集成本较高；并且单纯依靠遥控操作无法实现机器代替人。

最简单的例子则为MIT开源的 Mobile ALOHA^[1] 机器人以及相关的实验工作。由于遥控操作过于成熟，请读者可以自行参考案例。

Mobile ALOHA，这是一个低成本的全身远程操作系统，用于数据收集。它通过移动基座和全身远程操作界面增强了 ALOHA 系统。使用 Mobile ALOHA 收集的数据，我们然后执行监督行为克隆，并发现与现有的静态 ALOHA 数据集共同训练可以提高移动操作任务的性能。通过每项任务50次演示，共同训练可以将成功率提高到90%，使 Mobile ALOHA 能够自主完成复杂的移动操作任务，例如煎炒并上菜一片虾、打开双门墙橱存放重型烹饪锅具、呼叫并进入电梯、以及使用厨房水龙头轻轻冲洗使用过的平底锅。

二、动作捕捉

动捕能够将人类动作直接迁移到机器人身上，但同样无法真正实现机器替人。动捕一般是由演示人员穿好动作捕捉套装，衣服上的电位器通过数据线和电脑相连接，因此演示人员的的全身运动数据会被记录下来，供机器人学习。特斯拉在2023 年股东大会上展示 Optimus 的进展时，视频中工作人员穿戴动捕服进行演示，人类的动作能够直接迁移到机器人身上，机器人再通过传感器收集数据，以达到输入的目的。动捕的优势在于人类的动作能够直接迁移到机器人身上，在实际训练中，动捕往往与遥控操作结合使用，因此尤其适合人形机器人训练。但与遥控操作类似，单一动捕无法真正实现机器替人。

案例介绍：

诺亦腾^[2]借助 NVIDIA Isaac Sim & Isaac Lab^[3] 平台开放度极高的系统架构以提供的丰富资产与数据生态，携手机器人领域的多家企业和研究机构一起打通动作捕捉/运动测量系统与机器人虚拟本体/真实本体之间的工作回路，打造出一个真正意义上的 Human-in-the-loop

基于真实本体的数据集生产

手部动作捕捉，遥操作智元远征 A2 机器人灵巧手

基于人体的数据集生产

动作捕捉，记录真人任务执行的过程

基于虚拟本体的数据集生产

动作捕捉，遥操作基于 Isaac Sim 的虚拟本体

具身智能机器人的数据采集与算法训练，可通过“基于真实本体”，“基于虚拟本体”或“完全基于人体动作捕捉”等方式实现。其中基于真实本体方式能够最大程度反映真实世界的物理特性，其余方式虽然成本可控，但均存在一定程度上的 Domain Gap。

Domain Gap（域差距）是机器学习和深度学习中的一个概念，指的是模型在训练数据（源领域）和实际应用数据（目标领域）之间由于分布差异导致的性能下降问题。简单来说，源领域和目标领域的数据特性（如分布、样本特征、标签关系等）不同，模型在源领域表现良好，但在目标领域表现不佳。

三、训练仿真数据

大模型具备较强泛化性，仿真数据有望大范围应用。

谷歌RT采用该种技术路径。谷歌在 RT-1^[4] 和 RT-2^[5] 的框架上使用X-Embodiment数据集进行训练，该数据集包含在22个机器人上采集的能够完成16万个任务的上百万条数据。其中，RT-1充当小脑层级的控制器，由大模型负责顶层理解和指令分解，例如打开抽屉、将物体从抽屉里拿出来等。RT-2采取端到端路径，将语言、动作tokens进行对齐，微调后得到VLA模型，使得模型能够通过视觉输入和语言指令生成正确的动作标记序列。

大模型使机器人从Model-Based 向Learning-Based转变，在解决复杂和高维度的运动控制问题上具备更高的上限。但是大模型的训练需要海量数据，按数据来源分类，可分为真实数据和仿真数据。真实数据效果最好，但需要耗费大量人力和硬件成本。仿真数据成本低，可以大规模获取，但通常存在sim-to-real gap。

案例介绍：上海人工智能实验室具身智能仿真平台 **浦源·桃源**^[6]

作为大模型与机器人的连接层，桃源仿真平台涵盖89种功能性场景、10万级别高质量可交互数据，构建起“软硬虚实”一体的机器人训练场。

具身自主探索是实现通专融合的有效手段，也是理解物理世界的AGI的必经之路。通过构建具有社会属性的真实交互环境，桃源仿真平台支持通用机器人从底层控制到高级任务执行的全方位研究，有望解决领域内数据匮乏、评测困难的问题，为同时攻关机器人的“大脑”与“小脑”提供强有力的基础设施支持。

此外，借鉴人类运动员的训练场景，桃源仿真平台还为具身智能体构建了训练场、陪练员及评分表。

作为训练场的GRScenes场景数据集包含10万级别高质量、可交互场景数据，首次覆盖超市、医院等 89 种功能性场景，提供语言描述、物体类别、部件、材质等全方位标注。

在视觉真实性和物理真实性的打造过程中，研究团队与专业场景设计师团队合作，实现场景布局、物体纹理等方面的真实，最大限度使虚拟场景与现实环境接轨。

同时，GRScenes中的物体具备真实的部件设计、物理属性及内部建模，并基于Isaac Sim算法进行物理仿真，为具身智能训练提供了真实的场景交互反馈。通过人工标注和多模态大模型的应用，场景中的所有区域、物体具有类别、材质等标注，为具身智能训练提供了可参考的物理场景指标。

GRResidents角色交互系统相当于陪练员，;LLM驱动智能虚拟角色进行具身任务生成与分发，为平台提供交互社交属性。

构建“以人为中心”的通用机器人系统对具身智能研究尤为重要。在真实应用中，机器人通常需要与用户进行多轮交互，以明确指令目标，提升执行效率。由大模型智能体框架构成的GRResidents，利用多模态大模型和系统API，从场景中提取物体描述、空间关系和区域描述等高层语义信息，并通过全局信息管理器（World Knowledge Manger）将这些信息组织成智能体可调用的环境感知 API。

由大模型驱动的NPC（非玩家角色）相当于仿真平台中的“居民”，他们可依据对话及环境感知 API 进行信息提取和推理，从而进行开放形式对话。在此基础之上，这些 NPC 能够通过采样将场景信息进行智能组合，进而生成多种形式的具身任务，供具身智能体训练。

评分表由GRBench评测体系完成，支持对多类机器人及任意任务进行客观评测。

目前，桃源仿真平台支持多种类型机器人的训练评测，包括对机械臂、轮式机器人、四足机器人、人形机器人的运动控制算法及训练。

用户通过即插即用式 API 调用，即可在任意任务中模拟真实的控制过程，并还原规划过程中的各类场景。未来，桃源仿真平台还将通过持续迭代，拓展对更多类型具身智能体的支持。

桃源仿真平台支持各类型机器人及任务评测，并提供控制算法及生态工具链。

基于桃源仿真平台，上海AI实验室为具身智能研究构建起生态工具链，为打通各平台壁垒，充分利用各类具身智能控制开源算法，提供了首个跨平台控制算法的迁移工具包。使用工具包，用户可一键将Isaac Gym、Isaac Lab等具身智能开源社区的控制算法迁移至桃源仿真平台。在人机交互方面，研究团队还打造了支持多模态交互与机器人控制的全新交互界面，便于研究者进行算法演示和调试，进一步提升研究效率。

四、总结

训练方法	训练过程	优势	缺点
遥控操作	专用设备将人类动作迁移到机器人身上，机器人通过传感器收集数据，以达到双向反馈的目的	精准、高效地模仿人类动作实时捕捉传输关节角度、这度等关键状态信息解决工业、极端危险等应用场景的刚需	由人类操作员直接控制，数据采集成本较高
动捕	动捕人员穿好动作捕捉套装，衣服电位器和电脑相连接，全身运动数据记录后供机器人学习	人类的动作能够直接迁移到机器人	无法实现机器替人
大模型	利用大量真实数据或仿真数据训练大模型	大模型具备较强泛化性仿真数据成本低，可以大规模获取真实数据效采最好	仿真数据存在 sim-to-real gap真实数据耗费大量人力和硬件成本

参考资料

[1]

Mobile ALOHA: https://mobile-aloha.github.io/

[2]

诺亦腾: https://www.noitom.com.cn/

[3]

NVIDIA Isaac Sim & Isaac Lab: https://developer.nvidia.com/isaac/sim

[4]

RT-1: https://robotics-transformer.github.io/assets/rt1.pdf

[5]

RT-2: https://robotics-transformer2.github.io/

[6]

浦源·桃源: https://github.com/OpenRobotLab/GRUtopia

往期 · 推荐

使用大语言模型进行自动且多功能的评估

上海AI实验室版o1已上线！数学竞赛题、Leetcode赛题全拿下，还会玩24点

LiveBench: 一个具有挑战性且无污染的 LLM 评测基准

o1圈的新王！阿里QwQ-32B开源

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉