世界模型在机器人技术革新中的关键作用 | 附1X公司超100小时训练矢量视频

文摘   2024-09-18 19:27   美国  

点击⬇️图标关注   抓住你的灵感💡瞬间

本文由1X今日发布,深入探讨了世界模型如何成为机器人技术发展的转折点,介绍了其在虚拟模拟器中的应用,以及如何通过模拟复杂的物体交互和环境变化来评估通用机器人的能力。1X还宣布了一个新的数据集和公开竞赛,旨在鼓励更多的研究和创新,推动机器人技术向前发展。无疑,这是非常好的了解前沿机器人的数据收集和训练过程。AILin师傅将其转译为中文,供学习参考。



在机器学习中,世界模型是一种能够根据智能体的行为想象世界如何演变的计算机程序。基于视频生成技术和用于自动驾驶车辆的世界模型的进展,我们训练了一个世界模型,作为我们机器人虚拟模拟器。从相同的起始图像序列开始,我们的世界模型可以根据不同的机器人行为提案预测多个未来。

它还可以预测复杂的物体交互,例如刚体的运动、物体掉落的效果、部分可见性、可变形物体(如窗帘、衣物)以及关节物体(如门、抽屉、窗帘、椅子)。

在这篇文章中,我们将分享为什么世界模型对机器人非常重要,介绍我们当前模型的能力与局限性,并宣布一个新数据集和公开竞赛,以鼓励在这一领域的更多研究。

机器人问题

世界模型解决了在构建通用机器人时一个实际但常常被忽视的挑战:评估。如果你训练一个机器人执行1000项独特任务,要判断新模型是否在这1000项任务上都让机器人表现得更好,这其实非常困难。甚至相同的模型参数在几天内由于环境背景或光照细微变化,性能也可能快速下降。

我们训练的一个T恤折叠模型,其性能在50天内出现下降。

如果环境随着时间推移不断变化,那么之前在该环境中进行的实验将无法重复,因为原来的环境不复存在!如果你在家中或办公室等不断变化的环境中评估多任务系统,这个问题将更加严重,这使得在现实世界中进行严谨的机器人科学研究非常困难。

对能力的精确测量可以帮助预测随着数据量、计算能力和模型规模的增加,能力如何扩展——这些扩展定律为像ChatGPT这样的通用AI系统的巨大投资提供了支持。如果机器人领域想要迎来“ChatGPT时刻,我们必须首先确立其扩展定律

其他评估方法

基于物理的仿真(如BulletMujocoIsaac SimDrake)是快速测试机器人策略的一种合理方式。它们可以重置且具有可重复性,使研究人员能够仔细比较不同的控制算法。然而,这些模拟器大多是为刚体动力学设计的,并且需要大量的手动资产创建。如何模拟机器人手打开咖啡滤纸的纸箱、用刀切水果、拧开冰冻的果酱罐,或与其他智能体(如人类)互动?家庭环境中的日常物品和动物是非常难以模拟的,因此用于机器人技术的仿真环境往往在视觉上过于单调,缺乏真实世界应用场景的多样性。小规模的评估无论是在真实世界还是仿真中,通常无法预测大规模现实世界中的表现。

世界模型

我们正在采取一种全新的评估通用机器人的方法:直接从原始传感器数据中学习模拟器,并使用它在数百万个场景中评估我们的策略。通过直接从真实数据中学习模拟器,你可以捕捉现实世界的全部复杂性,而无需手动创建资产。

在过去的一年中,我们收集了数千小时EVE人形机器人在家中和办公室中执行各种移动操作任务并与人互动的数据。我们将视频和动作数据结合起来,训练了一个世界模型,它可以根据观察和动作预测未来的视频。


动作可控性

我们的世界模型能够根据不同的动作命令生成多样化的结果。下面展示了将世界模型基于四种不同轨迹进行条件生成的过程,每条轨迹都从相同的初始帧开始。与之前一样,这些示例并未包含在训练中。

左门轨迹

右门轨迹




模拟弹空气吉他

世界模型的主要价值在于模拟物体的交互。在以下生成示例中,我们为模型提供了相同的初始帧和三组不同的动作来抓取箱子。在每种情况下,所抓取的箱子随着夹爪的运动被抬起和移动,而其他箱子保持不动。

即使没有提供动作,世界模型也能生成合理的视频,比如学习到在驾驶时应避开人和障碍物:

长期任务

我们还可以生成长期视频。下面的示例模拟了一次完整的T恤折叠演示。T恤和可变形物体在刚体模拟器中往往很难实现。

当前的失败模式

物体连贯性

我们的模型在交互过程中有时无法保持物体的形状和颜色,甚至可能导致物体完全消失。此外,当物体被遮挡或以不利角度显示时,它们的外观在生成过程中可能发生变形。

物理定律

左侧的生成展示了我们的模型对物理属性的某种自然理解,例如当夹爪松开时,勺子掉到桌子上。然而,很多情况下,生成未能遵守物理定律,比如右侧的生成中盘子悬浮在空中。

自我识别

我们将EVE放在镜子前,试图观察生成是否会表现出镜像动作,但我们没有看到成功的识别或自我理解



世界模型挑战

正如上面的示例所示,仍然有大量工作需要完成。世界模型有潜力解决通用模拟和评估问题,使机器人在各种场景中变得更加安全、可靠和智能。因此,我们将这一工作视为机器人领域的重大挑战,希望整个社区能共同努力解决。为了加速世界模型在机器人领域的进展,我们发布了超过100小时的矢量量化视频(Apache 2.0 许可)、预训练的基线模型,并推出了“1X 世界模型挑战”——一个包含三个阶段的挑战赛,提供现金奖励。



参考:https://www.1x.tech/discover/1x-world-model



以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。



 点击关注转发公众号     保持你对AI优质内容的敏感





AI趋势全天候
以AI之名,探索未知。 🧠观察行业,关照本心,时常好奇,时常喜欢猫。随缘私信交流
 最新文章