导读
Nvidia 正在使用 Apple 的 Vision Pro 耳机记录人类手部动作以实现实时机器人控制,从而提供真实的训练数据来源,可用于提高日常机器人应用程序的性能。 为了解决单纯依赖人类生成的远程操作数据的局限性,Nvidia 的 Project Gr00t 将这些数据与其 RoboCasa 模拟框架和 MimicGen 系统生成的合成数据相结合,使可用的训练数据量增加了 1,000 倍。 通过结合人工生成数据和合成数据来扩展训练数据,Nvidia 旨在缩小人形机器人的模拟差距,并弥合将模拟训练的机器人转移到现实世界复杂环境中的现实差距,最终实现更先进、更可靠的机器人应用。
Nvidia 正在利用 Apple 的 Vision Pro 耳机收集更真实的训练数据,从而努力缩小人形机器人的“模拟差距”。
该公司最近推出了用于开发人形机器人的 AI 平台 Project Gr00t。制造适合日常任务的机器人面临的一个关键挑战是缺乏高质量的训练数据。Nvidia 认为,通过结合人工数据和合成数据,它找到了解决方案。
Nvidia 高级研究经理兼 Embodied AI 主管 Jim Fan在 LinkedIn 上解释说,该公司正在使用 Apple Vision Pro 记录机器人的样本动作。佩戴耳机的人类以第一人称视角控制机器人,执行烤面包或从橱柜中取出玻璃杯等任务。
“Vision Pro 可以实时解析人类手部姿势并将动作重新定位到机器人手上。从人类的角度来看,他们就像阿凡达一样沉浸在另一个身体中。远程操作速度慢且耗时,但我们可以收集少量数据,”范写道。
然后,Nvidia 使用其RoboCasa 模拟框架将这些数据乘以 1,000 或更多。该公司的 MimicGen 系统通过基于原始人类数据生成新动作并过滤掉不成功的尝试,进一步扩展了数据集。
RoboCasa 现已完全开源,可在robocasa.ai官网上获取。MimicGen的机械臂版本也是开源的,人形机器人和五指手版本也正在开发中。
“这是通过 GPU 加速模拟以计算换取昂贵的人类数据的方式。不久前,该公司提到远程操作从根本上来说不可扩展,因为在原子世界中,我们总是受到 24 小时/机器人/天的限制。我们的新 GR00T 合成数据管道在比特世界中打破了这一障碍。”