NVIDIA如何使用Vision Pro 训练机器人

文摘科技 2024-08-05 23:05 广东

导读

Nvidia 正在使用 Apple 的 Vision Pro 耳机记录人类手部动作以实现实时机器人控制，从而提供真实的训练数据来源，可用于提高日常机器人应用程序的性能。
为了解决单纯依赖人类生成的远程操作数据的局限性，Nvidia 的 Project Gr00t 将这些数据与其 RoboCasa 模拟框架和 MimicGen 系统生成的合成数据相结合，使可用的训练数据量增加了 1,000 倍。
通过结合人工生成数据和合成数据来扩展训练数据，Nvidia 旨在缩小人形机器人的模拟差距，并弥合将模拟训练的机器人转移到现实世界复杂环境中的现实差距，最终实现更先进、更可靠的机器人应用。

Nvidia 正在利用 Apple 的 Vision Pro 耳机收集更真实的训练数据，从而努力缩小人形机器人的“模拟差距”。

该公司最近推出了用于开发人形机器人的 AI 平台 Project Gr00t。制造适合日常任务的机器人面临的一个关键挑战是缺乏高质量的训练数据。Nvidia 认为，通过结合人工数据和合成数据，它找到了解决方案。

Nvidia 高级研究经理兼 Embodied AI 主管 Jim Fan在 LinkedIn 上解释说，该公司正在使用 Apple Vision Pro 记录机器人的样本动作。佩戴耳机的人类以第一人称视角控制机器人，执行烤面包或从橱柜中取出玻璃杯等任务。

“Vision Pro 可以实时解析人类手部姿势并将动作重新定位到机器人手上。从人类的角度来看，他们就像阿凡达一样沉浸在另一个身体中。远程操作速度慢且耗时，但我们可以收集少量数据，”范写道。

然后，Nvidia 使用其RoboCasa 模拟框架将这些数据乘以 1,000 或更多。该公司的 MimicGen 系统通过基于原始人类数据生成新动作并过滤掉不成功的尝试，进一步扩展了数据集。

RoboCasa 现已完全开源，可在robocasa.ai官网上获取。MimicGen的机械臂版本也是开源的，人形机器人和五指手版本也正在开发中。

“这是通过 GPU 加速模拟以计算换取昂贵的人类数据的方式。不久前，该公司提到远程操作从根本上来说不可扩展，因为在原子世界中，我们总是受到 24 小时/机器人/天的限制。我们的新 GR00T 合成数据管道在比特世界中打破了这一障碍。”

使用真实世界的数据并将其扩大规模有助于缩小所谓的现实或模拟与现实之间的差距。这个术语描述了将仅在模拟中训练的机器人系统转移到通常更为复杂的现实中的难度。

NVIDIA将面临的问题

在今年的 Siggraph 大会上，Nvidia 首席执行官黄仁勋向《连线》记者 Lauren Goode 解释了机器人开发中的“三台计算机问题”。黄仁勋概述了该过程需要单独的计算机来创建 AI、对其进行模拟并在实际机器人中运行它。他强调，这种多阶段方法可确保在实际部署之前对 AI 模型进行彻底的设计、测试和优化。

<SDI原创，欢迎转载、投稿联系>

往期精彩推荐:

麻省理工：教你如何成为AI工程师

AI工程师--下一个重大技术角色！

麻省理工预测：2024年十大突破性技术揭晓

专注AI、XR、元宇宙前沿洞察和商业服务

最新文章

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

GPT 10 月份访问量达 37 亿次，同比增长 115%

假如 AI 欺骗了你

23000 名阿联酋航空机组人员将接受空客和波音 VR 培训

MIT：重新审视生成式人工智能的神秘山谷

国际电信联盟就 AI 和元宇宙做出承诺

Nature：元宇宙技术有助于促进更包容的社会

AI走向人性化：未来我们将如何与其共存？

麻省理工研究：AI聊天机器人可减少信仰阴谋论

沉浸感的诱惑：从爆火的JellyCat到《I Am Cat》VR游戏

福布斯：人工智能革命如何重塑世界？

扎克伯格推出带有神经接口的“Orion” AR 智能眼镜--黄仁勋开箱亲测

Gartner：2027 年，80% 软件开发人员将要接受 AI 培训

特斯拉推出Cybercab出租车，但Optimus机器人确更引人注目

诺贝尔奖的AI时代：为什么物理学奖和化学奖都颁给了人工智能？

Apple Vision Pro 2 传闻及最新消息

为什么女性使用 AI 的频率低于男性？

科隆数字展邀您亲身体验元宇宙与人工智能前沿技术

Roblox 重磅推出文字生成 3D 模型 AI工具

今年最值得关注的沉浸式协作趋势

生成式人工智能是如何忽悠你被解雇的？

AR 智能隐形眼镜将于 2026 年问世

牛津大学：AI科学家写论文，每篇仅需15美元

【深度】黑悟空爆火，再审视元宇宙第一股Roblox

阿迪达斯如何在元宇宙中全速前进

在Vision Pro发布六个月后的9个想法

联想如何使用 GenAI&XR 技术赋能培训？

AI机器人或将多年后参加奥运会？

七夕福利：10 款最佳 AI 约会应用，请查收！

微软AI语音技术：因功能太强，不敢公开！

西雅图腾讯的10亿人工智能大军，是干什么的？

欧洲议会刚刚批准了《人工智能法案》

美国在联合国推动全球人工智能治理

NVIDIA如何使用Vision Pro 训练机器人

这是微软 Co-pilot AR 智能眼镜的首次亮相吗？

AI初学者必看：第 8 篇 - 生成式人工智能的挑战和局限性

AI初学者必看：第 7 篇 - 生成式人工智能中的伦理考量

AI初学者必看：第 6 篇 - 与人工智能沟通的艺术

AI初学者必看：第 5 篇 - 什么是大型语言模型 (LLM)？

AI初学者必看：第 4 篇 - 生成式人工智能简介

AI初学者必看：第 3 篇 - 深度学习基础

AI初学者必看：第 2 篇 - 理解机器学习

MCM的品牌元宇宙创想新体验

Vision Pro里看欧洲杯是种什么快乐？超乎你想象

AI初学者：第 1 篇 - 人工智能简介

麻省理工：一只企鹅引发的AI革命性进展

麻省理工：大型语言模型帮助机器人导航

元宇宙前沿速递：全球趋势、企业动态与行业深度剖析

麻省理工：如何用生成式AI来培养学生？

麻省理工：教你如何成为AI工程师

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉