Google的Still-Moving:通过少量的静态参考图像生成个性化的视频内容

文摘   2024-07-18 00:01   中国香港  

感觉这周看的都是 Google 的产品😓。Google 的这些产品大多数只有论文和演示,代码也没有开源,模型也没有地方下载。不过,我们可以看看它们的大概效果。以下是上周Google发布的一篇论文 - Still-Moving,通过少量的静态参考图像,Still-Moving 模型能够生成个性化的视频内容。

视频示例

个性化视频生成

基于文本到视频(T2V)模型和文本到图像(T2I)模型,Still-Moving 可以调整任何定制的 T2I 权重,以与 T2V 模型对齐。这种适配只需要少量的静态参考图像,同时保留了 T2V 模型的运动先验。下面展示了通过适配个性化 T2I 模型(例如 DreamBooth, [Ruiz et al. 2022])实现的个性化视频生成示例。

风格化视频生成

Still-Moving 还可以用于基于预训练的风格化 T2I 模型(例如,StyleDrop,[Sohn et al. 2023])生成具有一致风格的视频。每行包含一组多样化的视频,这些视频既遵循左侧参考图像的风格,又展现了 T2V 模型的自然运动。

ControlNet + 个性化视频生成

下方视频通过结合 ControlNet 的细粒度控制和结构保留能力与 Still-Moving 的个性化能力生成。

ControlNet + 风格化视频生成

Still-Moving 定制模型可以与 ControlNet [Zhang et al. 2023] 结合使用,以允许定制现有模型生成符合给定 T2I 模型风格但结构和动态由给定参考视频决定的视频。

研究方法

该框架适用于在文本到图像(T2I)模型之上构建的视频模型(例如,通过扩展实现)。假设可以访问仅基于静态图像数据训练的定制版 T2I 模型(例如,使用 DreamBooth 或 StyleDrop 进行训练)。将定制 T2I 模型的权重直接应用到 T2V 模型中,通常会导致显著的伪影或不足以体现定制数据。为了解决这个问题,团队训练了轻量级的空间适配器,以调整注入的 T2I 层生成的特征。重要的是,Still-Moving的适配器是在冻结的视频(即重复图像)上进行训练的,这些视频由定制 T2I 模型生成的图像样本构建而成。这种训练得益于一个新颖的运动适配器模块,它使Still-Moving能够在保持视频模型的运动先验的同时,在静态视频上进行训练。在测试时,移除运动适配器模块,只保留训练好的空间适配器。这种方法恢复了 T2V 模型的运动先验,同时遵循定制 T2I 模型的空间先验。展示了该方法在个性化、风格化和条件生成等多种任务中的有效性。在所有评估场景中,Still-Moving的方法无缝地将定制 T2I 模型的空间先验与 T2V 模型提供的运动先验集成在一起。

对比

和AnimateDiff 对比

展示了将 Still-Moving 应用于 AnimateDiff T2V (这个之前介绍过AnimateDiff 制作动漫小助手)模型的结果,使用相同的种子和提示,以证明Still-Moving 方法的稳健性。Naive Injection 通常无法很好地遵循定制数据,或者导致显著的伪影。例如,“熔化的金色”风格(顶部行)显示了扭曲的背景,并且缺少该风格特有的熔化滴落效果。花栗鼠的特征(底部行)未能准确捕捉(例如,脸颊和额头的颜色)。此外,花栗鼠的身份在帧间发生变化。相比之下,使用 Still-Moving 方法时,“熔化的金色”背景与参考图像匹配,并且模型产生了滴落的运动。同样,花栗鼠保持了一致的身份,符合参考图像。

和基准方法的定性对比

Still-Moving 与基准方法的定性对比

Renee 创业随笔
絮絮叨叨