NVIDIA如何使用Vision Pro 训练机器人

文摘   科技   2024-08-05 23:05   广东  

导读

  • Nvidia 正在使用 Apple 的 Vision Pro 耳机记录人类手部动作以实现实时机器人控制,从而提供真实的训练数据来源,可用于提高日常机器人应用程序的性能。
  • 为了解决单纯依赖人类生成的远程操作数据的局限性,Nvidia 的 Project Gr00t 将这些数据与其 RoboCasa 模拟框架和 MimicGen 系统生成的合成数据相结合,使可用的训练数据量增加了 1,000 倍。
  • 通过结合人工生成数据和合成数据来扩展训练数据,Nvidia 旨在缩小人形机器人的模拟差距,并弥合将模拟训练的机器人转移到现实世界复杂环境中的现实差距,最终实现更先进、更可靠的机器人应用。

Nvidia 正在利用 Apple 的 Vision Pro 耳机收集更真实的训练数据,从而努力缩小人形机器人的“模拟差距”。

该公司最近推出了用于开发人形机器人的 AI 平台 Project Gr00t。制造适合日常任务的机器人面临的一个关键挑战是缺乏高质量的训练数据。Nvidia 认为,通过结合人工数据和合成数据,它找到了解决方案。

Nvidia 高级研究经理兼 Embodied AI 主管 Jim Fan在 LinkedIn 上解释说,该公司正在使用 Apple Vision Pro 记录机器人的样本动作。佩戴耳机的人类以第一人称视角控制机器人,执行烤面包或从橱柜中取出玻璃杯等任务。

“Vision Pro 可以实时解析人类手部姿势并将动作重新定位到机器人手上。从人类的角度来看,他们就像阿凡达一样沉浸在另一个身体中。远程操作速度慢且耗时,但我们可以收集少量数据,”范写道。

然后,Nvidia 使用其RoboCasa 模拟框架将这些数据乘以 1,000 或更多。该公司的 MimicGen 系统通过基于原始人类数据生成新动作并过滤掉不成功的尝试,进一步扩展了数据集。

RoboCasa 现已完全开源,可在robocasa.ai官网上获取。MimicGen的机械臂版本也是开源的,人形机器人和五指手版本也正在开发中。

“这是通过 GPU 加速模拟以计算换取昂贵的人类数据的方式。不久前,该公司提到远程操作从根本上来说不可扩展,因为在原子世界中,我们总是受到 24 小时/机器人/天的限制。我们的新 GR00T 合成数据管道在比特世界中打破了这一障碍

使用真实世界的数据并将其扩大规模有助于缩小所谓的现实或模拟与现实之间的差距。这个术语描述了将仅在模拟中训练的机器人系统转移到通常更为复杂的现实中的难度。
NVIDIA将面临的问题

在今年的 Siggraph 大会上,Nvidia 首席执行官黄仁勋向《连线》记者 Lauren Goode 解释了机器人开发中的“三台计算机问题”。黄仁勋概述了该过程需要单独的计算机来创建 AI、对其进行模拟并在实际机器人中运行它。他强调,这种多阶段方法可确保在实际部署之前对 AI 模型进行彻底的设计、测试和优化。


  <SDI原创,欢迎转载、投稿联系>  
往期精彩推荐:





麻省理工:教你如何成为AI工程师


AI工程师--下一个重大技术角色!


麻省理工预测:2024年十大突破性技术揭晓


麻省理工:如何用生成式AI来培养学生?


麻省理工:大型语言模型帮助机器人导航


AI结合游戏NPC会发生什么?


看更多精彩内容记得点击关注哟!

SDI数字创新
专注AI、XR、元宇宙前沿洞察和商业服务
 最新文章