点击下方卡片,关注「魔方AI空间」公众号
简介
SG-I2V(Self-Guided Image-to-Video),一种无需微调或外部知识即可实现图像到视频生成中对象和相机运动控制的框架。
SG-I2V,一种自引导的可控图像到视频生成框架,仅依靠预先训练的图像到视频扩散模型中存在的知识来提供零样本控制无需微调或外部知识。该方法优于无监督基线,同时在视觉质量和运动保真度方面与监督模型具有竞争力。
项目主页:https://kmcode1.github.io/Projects/SG-I2V/
引言
图像到视频生成的方法已经取得了令人印象深刻、逼真的效果。然而,调整生成视频中的特定元素,如物体运动或相机移动,通常是一个繁琐的试错过程,例如,涉及用不同的随机种子重新生成视频。
最近的技术通过微调预训练模型以遵循条件信号来解决这个问题,如边界框或点轨迹。然而,这种微调过程可能计算成本高昂,并且需要标注有物体运动的训练数据集,这可能难以获得。
视频扩散模型的最新进展在视觉和运动质量上取得了显著提升。可控视频生成的方法旨在通过直接操纵生成的视频元素来消除这种反复试验的过程,例如物体运动和相机移动。
该工作要解决的问题是如何在图像到视频生成中实现自引导的轨迹控制。具体来说,给定一组带有相关轨迹的边界框,研究人员希望通过利用预训练的图像到视频扩散模型中的知识,实现对象和相机运动的控制。
在这项工作中,提出一种新的可控图像到视频生成方法SG-I2V。本方法是自引导的,它通过仅依赖预训练的视频扩散模型中存在的知识来实现零样本控制。具体来说,给定一个输入图像,用户指定一组边界框和相关轨迹。
方法概述
在这项工作中,通过指定边界框及其相关轨迹来控制生成视频中的运动。该框架建立在Stable Video Diffusion之上,这是一种公开可用的图像到视频扩散模型。
首先,从预训练的视频扩散模型Stable Video Diffusion (SVD) 的早期步骤中提取并语义对齐特征图。SVD模型通过逐步去噪一个被高斯噪声污染的视频来学习数据分布。具体来说,SVD将原始视频映射到一个潜在空间,并在潜在空间中进行扩散过程。
其次,为了在去噪过程中控制场景元素的轨迹,优化潜在的 zt 在特定的时间步长 t 如下:
从去噪 U-Net 中提取语义对齐的特征图,其中跨帧属于相同对象的区域具有相似的特征向量。 优化噪声潜在变量以强制边界框轨迹内的特征相似性。
其中,Gb 是一个高斯热图,用于加权特征差异,SG(⋅) 是一个停止梯度操作,用于稳定优化过程。
高频保留后处理:为了保持生成视频的视觉质量,采用基于频率的后处理方法,丢弃优化后的潜在变量中的高频成分,并用原始潜在变量的高频成分替换。具体公式如下:
其中,FFT2D 和 IFFT2D 分别是快速傅里叶变换和逆变换,Hγ 是一个低通滤波器的频率响应。
实验细节
数据集:实验在VIPSeg数据集的验证集上进行,测试与DragAnything相同控制区域和目标轨迹。 评估指标:使用Frechet Inception Distance (FID)、Frechet Video Distance (FVD) 和 ObjMC 来衡量生成视频的视觉质量和运动真实性。 实现细节:利用SVD的图像到视频变体生成14帧、分辨率为576×1024的视频。默认离散欧拉调度器,采样步数为50。从去噪U-Net的倒数第二层自注意力层提取特征图,在早期去噪时间步长[45,44,...,30]进行优化,每次迭代5次。使用AdamW优化器,学习率为0.21。
实验结果分析
定性结果:SG-I2V能够控制前景对象执行刚性和非刚性运动,如火车移动和人类头发的运动。此外,还可以控制非物理实体如烟和火。移动的场景元素自然地适应新位置,同时保持其原始身份。相机运动控制也得到了支持。
定量结果:与监督基线方法相比,SG-I2V在视觉质量和运动真实性方面具有竞争力。尽管监督基线方法在高分辨率下生成视频,但SG-I2V无需微调即可保持原始分辨率。SG-I2V在所有指标上均优于其他零样本基线方法。
项目部署
1、克隆仓库
# clone the github repo
git clone https://github.com/Kmcode1/SG-I2V.git
cd SG-I2V
2、安装依赖包
conda create -n sgi2v python=3.12.4
conda activate sgi2v
conda install pytorch=2.3.1 torchvision=0.18.1 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
3、运行
python inference.py --input_dir <input_path> --output_dir <output_path>
提炼关键问题
问题1:SG-I2V方法如何在预训练的视频扩散模型中实现特征的对齐?
SG-I2V方法通过对自注意力层进行修改来实现特征的对齐。具体来说,原始的SVD模型在每个帧上独立应用空间自注意力,这导致跨帧的特征对应关系较弱。
为了解决这个问题,SG-I2V将每个帧的自注意力层的键和值替换为第一帧的键和值,从而使得所有帧的特征在语义上对齐。这种修改后的自注意力层能够更好地捕捉跨帧的语义信息,使得优化过程能够更有效地控制视频元素的轨迹。
问题2:在SG-I2V的潜在优化过程中,如何确保优化后的潜在变量不会偏离扩散过程的分布?
为了确保优化后的潜在变量不会偏离扩散过程的分布,SG-I2V采用了一种基于频率的后处理方法。具体来说,使用快速傅里叶变换(FFT)和逆快速傅里叶变换(IFFT)来分离原始潜在变量zt∗的低频和高频分量。然后,保留低频分量,并将高频分量替换为原始潜在变量的对应分量。
这种方法有效地保留了原始潜在的低频信号,同时消除了可能引入的不必要的高频干扰,从而保持了生成视频的视觉质量。
问题3:SG-I2V在实验中如何验证其有效性,使用了哪些评估指标?
SG-I2V在VIPSeg数据集的验证集上进行了评估。实验中使用了多种评估指标来验证其有效性,包括Frechet Inception Distance(FID)、Frechet Video Distance(FVD)和ObjMC。FID和FVD用于衡量生成视频的视觉质量,而ObjMC用于衡量运动保真度。具体来说,FID和FVD越低,表示生成视频的质量越高;ObjMC越低,表示生成视频的运动越接近目标轨迹。实验结果表明,SG-I2V在视觉质量和运动保真度上都优于所有零样本基线方法,并且在某些指标上甚至与监督基线方法竞争。
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC****内容!!
从零走向AGI
https://github.com/AI-mzq/From-Zero-to-AGI.git
AIGCmagic社区飞书知识库:
https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd
面试面经
https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git
推荐阅读
• 开源实操 | DiffIR2VR-Zero:模糊视频8K高清修复技术
• 太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作
• 商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会
• FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了
• AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音
• 变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!
• UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员
• MOFA-Video:图像到视频的可控生成框架,可本地一键部署
• AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践
• 「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)