Still-Moving文生视频模型定制框架,引领AI创作新潮流!

文摘   2024-12-11 00:00   江苏  

近年来,定制化文生图(T2I)模型取得了巨大的进展,特别是在个性化、风格化和条件生成等领域。然而,将这一进展扩展到视频生成仍处于起步阶段,主要是由于缺乏定制化视频数据。

Google DeepMind 推出文生视频模型定制通用框架 Still-Moving,给定一个基于文本到图像 (T2I) 模型构建的文本到视频 (T2V) 模型,Still-Moving 可以调整任何自定义的 T2I 权重以与 T2V 模型保持一致。这是通过在静止图像上训练轻量级适配器来实现的。

相关链接

项目地址:https://still-moving.github.io/

论文地址:https://arxiv.org/pdf/2407.08674

论文阅读

Still-Moving:无需定制视频数据的定制视频生成

介绍

定制文本转图像 (T2I) 模型最近取得了巨大进展,特别是在个性化、风格化和条件生成等领域。然而,将这一进展扩展到视频生成仍处于起步阶段,主要是由于缺乏定制的视频数据。在这项工作中,我们引入了 Still-Moving,这是一种用于定制文本转视频 (T2V) 模型的新型通用框架,无需任何定制的视频数据。该框架适用于著名的 T2V 设计,其中视频模型建立在文本转图像 (T2I) 模型上(例如,通过膨胀)。我们假设可以访问定制版本的 T2I 模型,该模型仅在静态图像数据上进行训练(例如,使用 DreamBooth 或 StyleDrop)。天真地将定制的 T2I 模型的权重插入 T2V 模型通常会导致严重的伪影或对定制数据的遵守不足。

为了解决这个问题,我们训练了轻量级空间适配器来调整注入的 T2I 层产生的特征。重要的是,我们的适配器是在冻结视频(即重复图像)上进行训练的,这些视频由定制的 T2I 模型生成的图像样本构建而成。这种训练由新颖的运动适配器模块促进,该模块使我们能够在这种静态视频上进行训练,同时保留视频模型的运动先验。在测试时,我们删除运动适配器模块,只保留经过训练的空间适配器。这可以恢复 T2V 模型的运动先验,同时遵循定制的 T2I 模型的空间先验。我们展示了我们的方法在各种任务上的有效性,包括个性化、风格化和条件生成。在所有评估场景中,我们的方法都将定制的 T2I 模型的空间先验与 T2V 模型提供的运动先验无缝集成。

方法

Still-Moving 管道。给定一个从 T2I 模型扩展而来的 T2V 模型,以及 T2I 模型的定制版本(例如,使用 DreamBooth、StyleDrop 等进行微调),我们分两步将定制的 T2I 权重注入并调整到 T2V 模型中。

  • (a) 我们引入了运动适配器,用于控制模型生成的视频中的运动/动态级别。运动适配器作为时间注意块之上的 LoRA 层实现,并支持对“冻结”定制视频进行训练。

  • (b) 我们注入定制的 T2I 权重并在定制图像(α=1)和自然视频(α=0)的组合上训练空间适配器。

评估数据集。我们考虑了10 (a)种风格和 (b)个性化对象。

实验

定性的结果。应用静止移动的例子(a)个性化视频生成和(b)程式化视频生成over Lumiere。我们的方法保留了定制T2I模型的空间先验性,同时结合了相应的运动派生。

静止移动条件生成。我们给出了将我们的方法与ControlNet相结合的结果,用于(a) 条件个性化生成和(b)条件程式化生成。女人和猫的参考图像是生成图像,而狗和花的参考图像是真实的。

定性比较。我们对领先的基线、插值和交错训练进行了定性比较。插值往往不能减轻所有的伪影,并导致降低字符保真度。交错训练缺乏捕捉 自定义数据中的所有特征。

消融实验。我们将这三个关键组成部分拆开 我们的方法,即(a)运动适配器,(b)空间 适配器,以及(c)先前保存的损失。当移除 运动适配器,模型会先失去它的运动。没有 空间适配器我们观察到过拟合和先验保存 移除会损害多样性和活动量定量评价图和用户研究。我们使用两种自动方法将我们的方法与每个基线进行比较度量(CLIP相似度)和用户研究。子图(a)和(b)分别对应于表1的个性化和风格化结果。子图(c)和(d)显示了百分比用户投票支持我们和那些支持基线。我们的 该方法在所有测量类别中都受到用户的青睐。

结论

文本转视频模型正变得越来越强大,现在可以生成高分辨率的复杂电影镜头。然而,只有当生成的内容能够融入包含特定角色、风格和场景的更大叙事中时,才能充分实现此类模型在现实世界应用中的潜在用途。因此,视频定制的任务变得至关重要,但实现这一目标的方法仍未得到充分探索。在这项工作中,我们克服了实现这一目标的重大挑战,即缺乏定制的视频数据。我们开发了一个新颖的框架,将图像领域的巨大进步直接转化为视频领域。

重要的是,我们的方法是通用的,可以应用于任何基于预训练的 T2I 模型构建的视频模型。我们的框架揭示了 T2V 模型学到的强大先验知识,这一点可以从成功为特定主体生成运动而无需观察这些主体的运动中可以看出。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章