MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。使用 MinT 生成时间控制的多事件视频。给定一系列事件文本提示及其所需的开始和结束时间戳,MinT 可以合成具有一致主题和背景的平滑连接事件。此外,它可以灵活地控制每个事件的时间跨度。下图展示了连续手势、日常活动、面部表情和猫咪动作的结果
相关链接
论文:http://arxiv.org/abs/2412.05263v1 项目:https://mint-video.github.io/
摘要
现实世界的视频由一系列事件组成。使用现有的视频生成器生成具有精确时间控制的此类序列是不可行的,因为这些生成器依赖于一段文本作为输入。当使用单个提示生成多个事件时,这些方法通常会忽略某些事件或无法按正确的顺序排列它们。为了解决这一限制,我们提出了 MinT,这是一个具有时间控制的多事件视频生成器。我们的主要见解是将每个事件绑定到生成的视频中的特定时间段,这使模型可以一次关注一个事件。为了实现事件字幕和视频标记之间的时间感知交互,我们设计了一种基于时间的位置编码方法,称为 ReRoPE。这种编码有助于指导交叉注意操作。通过在时间基础数据上微调预先训练的视频扩散变换器,我们的方法可以生成具有平滑连接事件的连贯视频。在文献中,我们的模型首次提供了对生成视频中事件时间的控制。大量实验表明,MinT 的表现远远优于现有的开源模型。
方法
模型采用了全局字幕、时间字幕列表和场景切换条件(可选)。每个时间字幕和场景切换都与视频中的时间跨度绑定。 为了对基于时间的事件字幕进行条件化,我们在 DiT 块中引入了一个新的时间交叉注意层。 论文设计了一种新颖的重新缩放旋转位置嵌入 (ReRoPE) 来指示视频标记与事件字幕和场景切换标记之间的时间对应关系(可选)。这使 MinT 能够控制事件的开始和结束时间以及镜头过渡时间。
结果
定性结果
这里我们展示了一些高分辨率视频(1024x576)。我们使用彩色边框和字幕来指示每个事件的时间段。我们首先在每个事件之前暂停播放视频,然后再次连续播放。您可以在此处找到更多 512x288 视频。
与 SOTA 模型的比较
现有的视频生成器难以生成连续事件。将其与 SOTA 开源模型 CogVideoX-5B 和 Mochi 1以及商业模型 Kling 1.5和 Gen3-Alpha 进行了比较。 将所有时间字幕连接到一个长提示,并运行它们的在线 API 来生成视频。 我们用于 SOTA 模型的提示可以在提示中找到。
现有模型经常会在结果中遗漏一些事件,或者合并多个事件并混淆它们的顺序。相比之下,MinT 可以按照所需的时间跨度无缝合成所有事件。有关 SOTA 模型行为的更多分析,请参阅论文附录 C.6。在此处 查看更多比较。
MinT 关于 OOD 提示的结果
MinT 针对主要描述以人为中心的事件的时间字幕视频进行了微调。然而,我们表明我们的模型仍然具有基础模型生成新概念的能力。在这里,我们展示了 MinT 以分布外提示为条件生成的视频
VBench 上的快速增强
我们利用 LLM 将简短提示扩展为详细的全局字幕和时间字幕,从而可以生成具有更丰富动作的更有趣视频。我们用于 LLM 的指令可以在提示中找到。在这里,我们使用原始简短提示(称为Short)和详细的全局字幕(称为Global)与我们的基础模型生成的视频进行比较。这允许普通用户使用我们的模型,而无需繁琐地指定事件和时间戳。
场景切换调节
长视频往往包含丰富的事件,但也伴随着许多场景切换。直接用它们训练视频生成器将导致生成结果中出现不想要的突然镜头转换。相反,我们建议在训练期间明确地根据场景切换时间戳来条件化模型。一旦模型学会了这种条件作用,我们就可以将它们设置为零,以在推理时生成无剪切的视频。 在这里,我们比较了用不同的场景切换条件生成的视频。我们在输入场景切换时间暂停视频(用青色边框突出显示)。我们的模型引入了所需的镜头转换,并且仍然可以保留主体身份和场景背景
事件时间跨度控制
我们展示了 MinT 对事件时间的细粒度控制。在每个示例中,我们将所有事件的开始和结束时间偏移特定值。因此,每行都显示了事件发生的顺利进展
结论
论文提出的MinT是一个具有事件时间控制的多事件视频生成框架。方法采用独特的位置编码方法来指导视频的时间动态,从而产生流畅连接的事件和一致的主题。借助 LLM论文进一步设计了一个提示增强器,可以从简单的提示中生成运动丰富的视频。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~