又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

文摘 2024-08-25 18:07 英国

点击上方蓝字关注我们

WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

作者列表：

Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu

作者单位：

GigaAI, 清华大学

论文链接：

http://arxiv.org/abs/2401.09985

代码链接：

https://world-dreamer.github.io

简介

现有的世界模型仅限于游戏或驾驶等特定场景，限制了它们捕捉一般世界动态环境复杂性的能力。针对这一挑战，WorldDreamer 从大语言模型的成功中汲取灵感，把视觉输入映射到离散标记并预测被屏蔽的标记，从而将世界建模视为无监督的视觉序列。在此过程中，结合了多模态提示来促进世界模型内的交互。实验表明，WorldDreamer 擅长生成不同场景的视频，包括自然场景和驾驶环境。

研究动机

Dreamer系列的后续研究进一步验证了世界模型在不同游戏场景中的有效性。考虑到其结构化性质和至关重要性，自动驾驶已成为世界模型实际应用的前沿领域。DayDreamer将世界模型的应用扩展到了现实世界的机器人环境。然而，当前的世界模型仍然存在以下挑战：

（1）当前世界模型主要局限于游戏、机器人和自动驾驶，缺乏捕捉一般物体运动和物理世界的能力。

（2）世界模型的相关研究主要依靠RNN和基于扩散的方法来建模视觉动态。虽然这些方法在视频生成方面取得了一些成功，但它们在有效捕捉一般世界场景中的运动和物理方面遇到了挑战。

论文贡献

(1) 提出了第一个用于视频生成的通用世界模型 WorldDreamer，来学习通用世界运动和物理。

（2）提出了时空补丁Transformer（Spatial Temporal Patchwise Transformer，STPT），增强了对时空窗口内局部补丁的关注。这有助于更轻松地学习视觉信号动态并加快训练过程。

（3）实验验证了WorldDreamer在不同场景（包括自然场景和驾驶环境）生成视频方面表现出色。WorldDreamer 展示了执行文本到视频转换、图像到视频合成、视频编辑和动作到视频生成等任务的多功能性（见图 1）。

WorldDreamer

WorldDreamer 的总体框架如图 2 所示。初始阶段涉及使用视觉标记器将视觉信号（即图像和视频）编码为离散标记。这些tokens在被 STPT 处理之前会经过精心设计的屏蔽策略。同时，文本和动作信号被分别编码到嵌入中，作为多模态提示。STPT 参与预测屏蔽视觉标记的关键任务，然后由视觉解码器对其进行解码，从而促进多个上下文中的视频生成和编辑。

为了训练 WorldDreamer，文中构建了 VisualText-Action 数据的三元组，其中训练监督仅涉及预测屏蔽的视觉标记，而无需任何额外的监督信号。WorldDreamer还支持无文本或动作数据的训练，这不仅降低了数据收集的难度，而且使WorldDreamer能够学习无条件或单条件视频生成。在推理时，WorldDreamer可以完成各种视频生成和视频编辑任务：

(1) 对于图像到视频，仅需要单个图像输入，并将剩余帧视为被屏蔽。WorldDreamer 还可以根据单个图像条件和文本条件预测未来帧。

(2)对于视频风格化，可以输入视频片段，并随机屏蔽某些像素。WorldDreamer 可以根据两种输入语言改变视频风格，例如创建秋季主题效果。

(3) 对于文本到视频，提供语言输入允许 WorldDreamer 预测相应的视频，假设所有视觉标记都被屏蔽。

(4) 对于视频修复，可以输入视频片段，并手动屏蔽感兴趣区域。WorldDreamer 可以根据输入语言和未屏蔽的视觉信号填充屏蔽部分。

(5) 对于动作到视频，输入驾驶场景的初始帧以及未来的驾驶命令可以让 WorldDreamer 预测未来的帧。

实验结果

文中进行了全面的视觉实验，展示了 Worlddreamer 在不同场景下实现视频生成和视频编辑的能力，以证明 WorldDreamer 对一般世界的一般视觉动态有了深刻的理解。

（1）图像到视频 WorldDreamer 擅长在各种场景中生成高保真图像到视频。如图 5 所示，根据初始图像输入，Worlddreamer 能够生成高质量的电影景观视频。

（2）文本到视频 图 6 展示了 WorldDreamer 在从跨各种风格范式的文本生成视频方面的出色熟练程度。

（3）视频修复 如图 7 所示，WorldDreamer 展现出卓越的高质量视频修复能力。

（4）视频风格化 图 8 展示了 WorldDreamer 在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉令牌蒙版和指示所需修改的风格提示，WorldDreamer 令人信服地转换原始视频，在风格化过程中实现真正逼真的结果。

（5）从动作到视频 WorldDreamer 展示了根据自动驾驶背景下的动作生成视频的能力。如图9所示，给定相同的初始帧和不同的驾驶动作，WorldDreamer可以根据不同的驾驶动作（例如控制汽车左转或右转）生成不同的未来视频。

关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

点个「在看」你最好看

STUDY

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

牛津大学发布Nature新作！教你如何使用语义熵检测大语言模型中的幻觉

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

大模型顶级瘦身术！知识蒸馏联合提示学习！

ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

ECCV 2024｜奥秘揭晓：小样本学习突破，跨领域多模态知识蒸馏动作识别

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

ACL 2024｜抢先知！多模态大语言模型最新综述！

火遍科研圈！中国科学院「紫东太初」如何打破机器幻觉之谜？

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（下）

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

2024年了，Diffusion模型还有哪些能做的？

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递｜追踪多模态机器学习领域最新研究动态！

北航、小米EV创新MV2DFusion多模态3D检测框架，自动驾驶技术新飞跃！

文末赠书｜作者硬核，内容透彻接地气的多模态大模型通识读本！国家队大模型紫东太初负责人王金桥力作

ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

投稿必读

又一篇多模态顶会！这个idea简直“ 杀疯了 ” ....

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

多模态再次爆发！

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中科院深圳研究院发布多模态医学图像分割新进展！MICFormer：多模态信息交互!

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术，弥补多模态差距

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

CVPR2024-多模态MLM新SOTA，因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合！模态级分类！融合级语义分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉