视觉语言模型与多模态学习:视觉-时间上下文prompt,开放世界层次化智能体,空间信息,Minecraft实验
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
2024-10-23|PKU, UCLA, BIGAI|🔺34
http://arxiv.org/abs/2410.17856v1
https://huggingface.co/papers/2410.17856
https://craftjarvis.github.io/ROCKET-1
研究背景与意义
在多模态任务中,视觉-语言模型(VLMs)展现了出色的表现,但将其适应于开放世界环境中的具身决策过程仍面临诸多挑战。当前的主要问题在于如何有效地将低级观察中的个体实体与规划所需的抽象概念顺畅连接。常见的解决方案是采用层次化智能体,其中VLMs作为高层推理者,将任务分解为可执行的子任务。然而,语言通常无法有效传达空间信息,而生成未来图像的准确性仍然是一个难题。
为了解决这些局限性,本文提出了一种新的通信协议——视觉-时间上下文提示(visual-temporal context prompting),它利用从过去和现在观察中获得的对象分割信息来指导政策与环境的交互。通过这种方法,我们训练了ROCKET-1,一个基于视觉观察和分割掩膜的低级策略,能够在Minecraft等复杂环境中执行任务。
研究方法与创新
本文的创新之处在于提出了视觉-时间上下文提示这一新协议,它有效地在层次化智能体架构中传递空间和交互线索。具体而言,ROCKET-1作为一个分割条件策略,利用从高层推理者(如GPT-4o)生成的对象分割信息和交互类型来预测行动。
该策略的核心在于结合了视觉观察和分割信息,通过一个改进的TransformerXL模型来捕捉观察之间的时间依赖性。此外,我们还引入了一种反向轨迹重标定方法,以自动检测和分割收集轨迹中的目标对象。这种方法显著降低了数据标注的复杂性,并提升了模型的训练效率。
实验设计与结果分析
在Minecraft环境中进行的实验表明,ROCKET-1在多种任务上表现优异,尤其是在需要空间理解的复杂任务中。通过与现有基线(如STEVE-1和GROOT-1)的比较,ROCKET-1在多个任务中实现了显著的成功率,尤其是在“将橡木门放置在钻石方块上”这一任务中,ROCKET-1展示了其强大的零-shot泛化能力。此外,实验结果还显示,ROCKET-1的分割性能在不同的SAM-2模型配置下有显著提升,证实了视觉-时间上下文提示的有效性。
结论与展望
本文提出的ROCKET-1及其视觉-时间上下文提示协议为开放世界交互提供了一种新的解决方案,展示了VLMs在具身决策中的潜力。
未来的研究可以进一步探索如何提升模型在未见对象上的交互能力,并优化其在复杂环境中的表现。此外,随着技术的进步,结合更强大的语言模型和视觉模型,ROCKET-1有望在更多实际应用中发挥作用。