自动驾驶之星社区大模型线下活动报名开始啦!(10月26号 上海)我们回来啦!
作者:Fei Xia等
文章链接:https://arxiv.org/pdf/2409.16283
项目链接:https://homangab.github.io/gen2act/
亮点直击
人类视频生成引导机器人操作:通过生成零样本的人类视频并翻译成机器人执行策略,避免了直接生成机器人视频的复杂性,利用丰富的网络视频数据来提升泛化能力。 现成模型与闭环策略结合:不需微调视频生成模型,直接使用现成模型生成视频,并通过结合机器人观察历史与点轨迹优化,确保策略能够动态调整,提升操作准确性。 强大的泛化能力:在面对新物体类型和新动作时,Gen2Act表现出显著的泛化能力,相较于其他基线方法,成功率平均提升30%。 支持复杂任务的长时执行:Gen2Act能够连续完成多个中间任务,如“制作咖啡”等复杂操作任务,展示了其处理长时任务的潜力。
总结速览
解决的问题
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。
提出的方案
提出Gen2Act方法,通过从网络数据中预测运动信息,生成人类视频,并将机器人策略与生成的视频结合。通过零样本的人类视频生成引导机器人策略执行新任务,避免大量的机器人数据采集。
应用的技术
语言条件下的零样本人类视频生成。 使用预训练的视频生成模型,直接生成人类视频,不需微调模型。 利用少量的机器人交互数据训练策略模型,并结合生成的视频执行任务。
达到的效果
Gen2Act能够让机器人操作未见过的物体,并完成机器人数据中未包含的新动作任务,在真实场景中展现出多样化的泛化能力。
方法
本文开发了一种基于语言条件的机器人操作系统Gen2Act,能够在未知场景中泛化到新任务。为实现这一目标,采用了分解方法:
给定一个场景和任务描述,使用现有的视频预测模型生成一个人类解决任务的视频; 基于生成的人类视频,通过一个学习到的人类到机器人的翻译模型推断机器人动作,该模型可以利用生成视频中的运动线索。我们表明,这种分解策略在利用大规模视频模型中固有的网络规模运动理解方面具有可扩展性,用数量级更少的机器人交互数据完成从生成的人类视频到机器人应执行的动作的简单翻译任务。
概述与设置
给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。为了隐式地在策略中编码来自的运动信息,分别从和中提取点轨迹和,并在训练期间将轨迹预测作为辅助损失进行合并。下图2展示了该设置的概览。
人类视频生成
使用现有的文本+图像条件下的视频生成模型进行任务的视频生成。我们发现当前的视频生成模型能够在零样本情况下很好地生成人类视频,而无需任何微调或适配(如下图3中的示例)。相比于一些之前的工作[57, 58]尝试生成机器人视频,专注于人类视频生成,因为当前的视频生成模型无法在零样本情况下生成机器人视频,并且需要特定的机器人微调数据才能实现。这种微调往往会削弱那些基于网络大规模数据训练的生成模型在新场景中的泛化优势。
在训练过程中,给定一个包含机器人轨迹数据集以及语言任务指令的离线数据集,我们通过根据机器人轨迹的第一帧和语言指令生成视频,创建对应的人类视频数据集。生成成对数据集的过程是全自动的,不需要像之前的工作[46, 59]那样手动收集人类视频。我们不要求生成的人类视频具有特定结构,只需在视觉上逼真,合理地操作相关物体,并且相机运动最少。如上图3中的定性结果所示,这些目标通过预训练视频模型的零样本生成都已实现。
在评估过程中,将机器人移动到一个新场景,用语言指定要执行的任务,然后生成一个人类视频,并将其输入到人类到机器人翻译策略中,如C节所述。我们的方法不依赖于特定的视频生成模型,随着视频模型的进步,这个阶段的效果将可能进一步提升。我们预计整体方法的泛化能力也会随之增强,因为翻译模型的任务更简单,即从生成的人类视频中推断运动线索,并隐式地将其转换为机器人动作。正如在下面C中所展示的那样,仅使用少量多样化的机器人轨迹数据(约400条)结合现有的离线数据集,足以训练出一个健壮的翻译模型。
从生成的人类视频到机器人动作翻译
将从生成的人类视频到机器人动作的翻译实现为一个闭环策略。给定一个新的场景和任务描述,生成的人类视频提供了任务在场景中应如何操作的运动线索,而策略的作用是结合生成的视频信息和机器人框架中的观察,进行场景交互。我们并没有尝试通过启发式方法从生成的视频中显式提取航路点,而是采用了一种端到端的方法,依赖于视频的一般视觉特征和从视频中提取的点轨迹。这种对生成视频的隐式条件处理有助于缓解生成过程中的潜在伪影,并使该方法在视频与机器人的外形不匹配的情况下更加稳健。需要注意的是,我们在训练期间完全离线进行人类视频生成和真实轨迹提取。
视觉特征提取对于生成的人类视频和机器人视频的每一帧,我们首先通过一个ViT编码器提取特征,分别得到和。通过这种方式提取的视频tokens数量非常大,并且它们在时间上不相关,因此使用基于Perceiver-Resampler架构的门控交叉注意力层的Transformer编码器和处理各自的视频tokens,并输出固定数量的tokens。最终得到的标记分别是和。
除了生成视频中的视觉特征外,还通过点轨迹预测在策略中编码显式的运动信息。
点轨迹预测在生成的视频上运行一个现成的跟踪模型[21, 61],以获得第一帧中随机点的轨迹。为了确保生成的视频中的潜在嵌入能够提取视频中的运动信息,设置了一个基于视频tokens的轨迹预测任务。为此,定义了一个轨迹预测Transformer 来预测轨迹,并定义一个辅助损失来更新标记。
同样,对于当前的机器人视频,也设置了一个类似的轨迹预测辅助损失。在整个机器人观察序列上运行一次真实轨迹预测(同样随机选择第一帧中的点),但在训练过程中,策略一次输入一个长度为的片段。因此,轨迹预测Transformer 以片段开始时的点、该时间步的图像特征和片段的观察标记为条件进行预测。
BC 损失为了便于预测,我们离散化动作空间,使每个维度有256个分箱。我们通过最小化预测动作与真实动作之间的误差,通过交叉熵损失优化行为克隆(BC)目标。
在Gen2Act中,将轨迹预测作为训练期间的辅助损失,并与BC损失相结合,而在测试时不使用轨迹预测Transformer。这有助于减少测试时的计算量,提高部署效率。
部署
为了部署 Gen2Act 来解决操作任务,首先根据任务的语言描述和场景的图像生成一个人类视频。接着,使用生成的视频作为条件展开闭环策略。
对于执行包含多个任务的长时活动链,我们首先使用现成的大型语言模型(如 Gemini)来获取不同任务的语言描述。我们通过使用前一个策略执行后的最后一帧图像作为生成后续任务人类视频的第一帧,来为任务序列链接 Gen2Act。我们选择按顺序生成视频,而不是从最初的图像生成所有视频,因为在机器人执行了中间任务后,场景中的物体最终状态可能会不同。
实验
在厨房、办公室和实验室等多样化场景中进行实验,涵盖了大量操作任务。这些实验旨在回答以下问题:
Gen2Act 是否能够在多样化的日常场景中生成合理的操作类人类视频? Gen2Act 在应对新的场景、物体和动作的泛化能力上表现如何? Gen2Act 能否通过视频生成和视频条件策略执行的链接,实现长时操作? 通过加入少量额外的多样化人类遥操作示范共同训练,能否提升 Gen2Act 在新任务上的表现?
评估设置的详细信息
按照以往的语言/目标条件策略学习工作,用执行的机器人轨迹是否解决了指令中规定的任务来量化成功,并定义基于同一任务描述的多次展开的成功率。我们根据不同泛化水平进行分类,采用之前工作中的术语:
轻度泛化(MG):在已知场景中,已见物体实例的未见配置;例如照明和背景变化等场景自然变异。 标准泛化(G):在已知/未知场景中,未见物体实例。 物体类型泛化(OTG):在未知场景中,完全未见的物体类型。 动作类型泛化(MTG):在未知场景中,完全未见的动作类型。
这里,已见和未见是相对于机器人交互数据定义的,并假设视频生成模型已经看过包括机器人数据未见内容在内的丰富网络数据。
数据集和硬件细节
对于视频生成,使用现有的 VideoPoet 模型,并调整其条件以适应方形图像和任务的语言描述。在我们的实验中,没有对该模型进行任何微调,发现它可以直接泛化到所有机器人实验场景中的人类视频生成任务。
对于机器人实验,使用了一台带有柔顺双指夹具的移动操作机器人,机器人通过末端执行器控制进行策略部署。机械臂安装在机器人右侧的机身上。手动在办公室、厨房和实验室场景中移动机器人,并让它操作这些场景中的不同物体。机器人操作频率为 3Hz,每次任务开始前,将机器人的手臂重置到一个预定义的位置,以确保机器人的摄像头不会遮挡场景。
为了训练视频条件策略,使用了由先前工作收集的现有离线机器人示范数据集,并通过另一先前工作收集的一些人类视频示范配对进行增强。此外,我们通过使用视频生成模型,基于各自机器人示范的首帧,生成对应的人类视频,创建了一对一的形式(生成的人类视频,机器人示范)的配对。对于生成的人类视频和机器人示范中的点轨迹,使用了现成的跟踪方法。人类视频生成和点轨迹生成都完全在离线一次性完成,并不会增加策略训练时的成本。
基线与对比
与基线方法和 Gen2Act 的不同变体进行了对比。特别是,与一个基于语言条件的策略基线(RT1)进行了对比,该策略在与 Gen2Act 相同的机器人数据上训练。此外,我们还与基于视频条件的策略基线(Vid2Robot)进行了对比,该策略使用配对的真人和机器人视频进行训练。另一个基线是基于目标图像条件的策略(RT1-GC),该策略仅依赖 Gen2Act 的真实和生成视频的最后一帧(即目标图像)进行条件训练。最后,考虑了不带轨迹预测损失的 Gen2Act 变体。
人类视频生成分析
前面图 3 显示了在多样化场景中生成的人类视频的定性结果。我们可以看到,生成的视频合理地操作了文本指令中描述的场景。场景中的相应物体得到了操作,同时保持了背景的完整性,并且没有引入摄像头移动或生成中的伪影。这些结果令人兴奋,因为这些生成在新场景中是零样本的,并且可以直接用于机器人任务中,以想象如何操作未见的物体和场景。
Gen2Act 在场景、物体和动作中的泛化能力
本节比较了 Gen2Act 与基线方法和不同消融变体在不同泛化水平下的表现。下表 I 显示了任务在不同泛化水平上的成功率均值。我们观察到,在更高的泛化水平下,Gen2Act 的成功率明显更高,表明结合了运动信息的提取(通过轨迹预测)的人类视频生成在未见任务中非常有帮助。
Gen2Act 的长时操作任务链接
接下来,分析了 Gen2Act 在通过任务链接解决一系列操作任务中的可行性。下表 II 显示了如“制作咖啡”这类长时活动的结果,这些活动由多个按顺序执行的任务组成。我们通过 Gemini获得这些任务的序列,并对每个任务,使用前一个任务执行后场景的最后一帧作为视频生成的条件,并在生成的人类视频的条件下执行当前任务的策略。依次重复此过程,并报告每个阶段的成功率(5 次试验中的成功次数)。下图 5 直观地展示了来自四个长时活动的单次执行展开。
使用额外的遥操作示范进行共同训练
之前实验中使用的离线数据集在场景和任务类型上覆盖有限,导致在更高的泛化水平(前面表 I 中的 OTG 和 MTG)上 Gen2Act 的成功率不到 60%。在本节中,我们通过实验研究了增加少量额外的多样化遥操作轨迹,结合现有的离线数据集共同训练,是否可以帮助提升泛化能力。视频生成模型保持不变。下表 III 的结果显示,通过共同训练,Gen2Act 的表现有所提升。这令人振奋,因为这表明仅通过少量多样化的示范,Gen2Act 的翻译模型就可以更好地根据生成的视频在机器人数据有限的更高泛化水平下提升表现。
失败分析
本节讨论了 Gen2Act 的失败类型。发现,对于 MG 和一定程度上的 G,视频生成中的不准确与策略失败的相关性较小。而在更高泛化水平(物体类型 OTG 和动作类型 MTG)下,如果视频生成的结果不合理,策略往往无法成功执行任务。这也证明了 Gen2Act 的策略在执行任务时利用了生成的人类视频来推断运动线索,因此当视频生成在机器人数据支持有限的场景中出现错误时(例如在 OTG 和 MTG 中),策略将失败。
讨论与结论
总结。 本研究提出了一个结合零样本人类视频生成与有限机器人演示的框架,用于学习具有泛化能力的机器人操作任务。总体而言,工作表明,基于非机器人数据集(如网络视频)训练的运动预测模型可以帮助操作策略在未见场景中实现泛化,而不需要为每个任务收集机器人数据。
局限性。 本工作主要依赖于零样本人类视频生成,并通过视频中的点轨迹预测为机器人操作系统提供运动线索,帮助其与未见物体交互并执行新任务。因此,系统的能力受限于当前视频生成模型的限制,如无法生成逼真的手部动作,因而在执行非常精细的任务时能力有限。
未来工作。 探索从生成的视频中恢复更多密集的运动信息(例如对象网格)以解决当前的限制,可能是未来研究的一个有趣方向。另一个重要的方向是,通过学习恢复策略来处理中间失败,进一步增强任务链的可靠性,以支持长时操作任务。
参考文献
[1] Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
自动驾驶之星社区将在10月26号在上海举办大模型线下交流活动。欢迎大家报名参加,我们邀请行业专家和大家一起来分享大模型在具身智能和自动驾驶场景中的应用!
自动驾驶之星社区大模型线下活动报名开始啦!(10月26号 上海)我们回来啦!
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧