又一种新的通用世界模型!WorldDreamer:通过预测屏蔽token带来新颖的视频生成方法!

文摘   2024-08-25 18:07   英国  

点击上方蓝字关注我们




WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

作者列表:

Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu

作者单位:

GigaAI, 清华大学

论文链接:

http://arxiv.org/abs/2401.09985

代码链接:

https://world-dreamer.github.io

简介

现有的世界模型仅限于游戏或驾驶等特定场景,限制了它们捕捉一般世界动态环境复杂性的能力。针对这一挑战,WorldDreamer 从大语言模型的成功中汲取灵感,把视觉输入映射到离散标记并预测被屏蔽的标记,从而将世界建模视为无监督的视觉序列。在此过程中,结合了多模态提示来促进世界模型内的交互。实验表明,WorldDreamer 擅长生成不同场景的视频,包括自然场景和驾驶环境。

研究动机

Dreamer系列的后续研究进一步验证了世界模型在不同游戏场景中的有效性。考虑到其结构化性质和至关重要性,自动驾驶已成为世界模型实际应用的前沿领域。DayDreamer将世界模型的应用扩展到了现实世界的机器人环境。然而,当前的世界模型仍然存在以下挑战:

(1)当前世界模型主要局限于游戏、机器人和自动驾驶,缺乏捕捉一般物体运动和物理世界的能力。

(2)世界模型的相关研究主要依靠RNN和基于扩散的方法来建模视觉动态。虽然这些方法在视频生成方面取得了一些成功,但它们在有效捕捉一般世界场景中的运动和物理方面遇到了挑战。

论文贡献

(1) 提出了第一个用于视频生成的通用世界模型 WorldDreamer,来学习通用世界运动和物理。

(2)提出了时空补丁Transformer(Spatial Temporal Patchwise Transformer,STPT),增强了对时空窗口内局部补丁的关注。这有助于更轻松地学习视觉信号动态并加快训练过程。

(3)实验验证了WorldDreamer在不同场景(包括自然场景和驾驶环境)生成视频方面表现出色。WorldDreamer 展示了执行文本到视频转换、图像到视频合成、视频编辑和动作到视频生成等任务的多功能性(见图 1)。

WorldDreamer

WorldDreamer 的总体框架如图 2 所示。初始阶段涉及使用视觉标记器将视觉信号(即图像和视频)编码为离散标记。这些tokens在被 STPT 处理之前会经过精心设计的屏蔽策略。同时,文本和动作信号被分别编码到嵌入中,作为多模态提示。STPT 参与预测屏蔽视觉标记的关键任务,然后由视觉解码器对其进行解码,从而促进多个上下文中的视频生成和编辑。

为了训练 WorldDreamer,文中构建了 VisualText-Action 数据的三元组,其中训练监督仅涉及预测屏蔽的视觉标记,而无需任何额外的监督信号。WorldDreamer还支持无文本或动作数据的训练,这不仅降低了数据收集的难度,而且使WorldDreamer能够学习无条件或单条件视频生成。在推理时,WorldDreamer可以完成各种视频生成和视频编辑任务:

(1) 对于图像到视频,仅需要单个图像输入,并将剩余帧视为被屏蔽。WorldDreamer 还可以根据单个图像条件和文本条件预测未来帧。

(2)对于视频风格化,可以输入视频片段,并随机屏蔽某些像素。WorldDreamer 可以根据两种输入语言改变视频风格,例如创建秋季主题效果。

(3) 对于文本到视频,提供语言输入允许 WorldDreamer 预测相应的视频,假设所有视觉标记都被屏蔽。

(4) 对于视频修复,可以输入视频片段,并手动屏蔽感兴趣区域。WorldDreamer 可以根据输入语言和未屏蔽的视觉信号填充屏蔽部分。

(5) 对于动作到视频,输入驾驶场景的初始帧以及未来的驾驶命令可以让 WorldDreamer 预测未来的帧。

实验结果

文中进行了全面的视觉实验,展示了 Worlddreamer 在不同场景下实现视频生成和视频编辑的能力,以证明 WorldDreamer 对一般世界的一般视觉动态有了深刻的理解。

(1)图像到视频 WorldDreamer 擅长在各种场景中生成高保真图像到视频。如图 5 所示,根据初始图像输入,Worlddreamer 能够生成高质量的电影景观视频。

(2)文本到视频 图 6 展示了 WorldDreamer 在从跨各种风格范式的文本生成视频方面的出色熟练程度。

(3)视频修复 如图 7 所示,WorldDreamer 展现出卓越的高质量视频修复能力。

(4)视频风格化 图 8 展示了 WorldDreamer 在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉令牌蒙版和指示所需修改的风格提示,WorldDreamer 令人信服地转换原始视频,在风格化过程中实现真正逼真的结果。

(5)从动作到视频 WorldDreamer 展示了根据自动驾驶背景下的动作生成视频的能力。如图9所示,给定相同的初始帧和不同的驾驶动作,WorldDreamer可以根据不同的驾驶动作(例如控制汽车左转或右转)生成不同的未来视频。


关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

   喜欢的话,请别忘记点赞👍➕关注哦 



点个「在看」你最好看


STUDY






推荐阅读

AAAI 2024|Structure-CLIP—利用场景图知识增强多模态结构化表示

ACL 2024 |南京大学与上海AI Lab提出多模态GUI智能体,像人一样操作手机电脑

中山大学、鹏城实验室等首发!CVPR 2024| DMR:分解多模态表示——视觉强化学习中帧和事件融合

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF!高效感知多传感器融合,解决3D语义分割问题

CVPR2024—重磅来袭!西工大团队提出通用多模态医学数据表示学习方法!持续自监督学习!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章