图像编辑多任务一网打尽!PromptFix,新型扩散模型&大规模视觉指令数据集(罗切斯特大学&微软)

文摘   2024-10-26 00:01   上海  
    点击下方卡片,关注“AI生成未来

后台回复“GAI”,免费获取最新AI相关行业报告和资料!

作者:Yongsheng Yu、Ziyun Zeng、Jiebo Luo

解读:AI生成未来 

文章链接:https://arxiv.org/pdf/2405.16785
项目链接:https://www.yongshengyu.com/PromptFix-Page

亮点直击

  • 提出了一个为七个图像处理任务量身定制的综合数据集。该数据集包含约101万对多样化的输入-输出图像及其相应的图像编辑指令。
  • 提出了一种全新的指令引导扩散模型——PromptFix,用于低级图像处理任务。大量实验结果表明,PromptFix在各种图像处理任务中表现优于现有方法,并在零样本盲修复和组合任务中展现出更强的能力。
  • 为扩散模型引入了两种方法——高频引导采样和辅助提示模块,能够有效解决指令引导扩散模型在低级任务中高频信息丢失以及处理严重图像退化问题的不足。

总结速览

解决的问题:现有扩散模型在处理自定义用户指令时缺乏多样化数据,尤其是在低级任务中表现不足。此外,扩散过程的随机性导致难以保留生成图像的细节。

提出的方案 提出了PromptFix框架,通过构建大规模指令跟随数据集、引入高频引导采样方法以及设计辅助提示适配器来增强模型的指令执行能力。

应用的技术:使用高频引导采样控制去噪过程,保持未处理区域的高频细节;利用视觉-语言模型(VLMs)加强文本提示,提高任务泛化能力。

达到的效果:PromptFix在多种图像处理任务中表现优于现有方法,并在零样本盲修复和组合任务中展现出更强的能力,同时保持了与基准模型相当的推理效率。

数据整理

现有的带有指令标注的图像数据集主要用于促进图像编辑研究,涵盖了颜色迁移、对象替换、对象移除、背景更改和风格迁移等任务。然而,它们与低级应用的重叠有限。此外,现有模型在图像修复任务中的表现难以令人满意。本文的目标是构建一个专门针对低级任务的综合视觉指令跟随数据集。获得了约101万训练三元组实例。

配对图像收集。最初从多个现有数据集中收集源图像,随后生成退化和修复后的图像,以创建大量的配对图像数据集。共收集了大约两百万个原始数据点,涵盖八个任务:图像修复、对象创建、图像去雾、图像上色、超分辨率、低光增强、雪去除和水印去除。对于测试集,为每个任务随机选择了300对图像。

指令提示生成。对于每个低级任务,使用 GPT-4 生成了多样化的训练指令提示 。这些提示包括任务特定的和通用的指令。任务特定提示超过250条,明确定义了任务目标。例如,去雾任务的提示为:“通过减少雾霾提高图像的可见性”。通用指令包括五条模糊命令,保留为“负面”提示,以促进自适应任务。对于水印去除、超分辨率、去雾、雪去除、低光增强和上色任务,我们还为每个实例生成了“辅助提示”。这些辅助提示描述了输入图像的质量问题并提供了语义描述。

方法

表示退化的输入图像。PromptFix 模型旨在通过提示 和扩散模型 来增强图像

扩散模型

扩散模型通过前向过程中的逐步高斯扰动将数据转换为噪声,随后在逆向过程中从噪声中重建样本。在前向阶段,原始数据点 被逐步改变,趋向于高斯噪声分布 ,其过程遵循以下公式:

其中 是在每个插值点 管理信噪比的系数。该过程旨在保持方差,采用的系数策略如文献 [31] 所述。前向过程在连续时间中建模为随机微分方程(SDE),可以表示为:

其中 是向量值的漂移系数, 是扩散系数, 表示在时间 的布朗运动。

由于 SDE 的显著特性,后向扩散过程通过 Fokker-Planck 动力学重新表述,以产生具有一致概率密度的确定性转移,从而形成概率流常微分方程(ODE):

该方程概述了一种可通过最大似然技术学习的传输机制,应用于扩散数据样本的扰动核 ,如文献 [30, 64] 所示。接下来,对 进行采样,以初始化概率流常微分方程(ODE),并通过 估计评分函数。在数值 ODE 解算器中采用欧拉方法来获得解决轨迹:

其中 表示扩散模型, 表示采样的神经函数评估(NFEs)。

在训练阶段,采用简单的扩散损失,其中神经网络仍然使用前向推理来预测噪声。可以通过使用当前噪声数据和预测的噪声来获得任一步骤 的样本数据估计 ,其推导为:

为了降低计算成本,上述扩散过程从潜在空间中的各向同性高斯噪声样本开始,而不是从像素空间开始。此空间转换通过变分自编码器(VAE)压缩实现。VAE 自编码器由编码器 和左逆解码器 组成。例如,一幅图像 可以被编码为潜在代码 ,然后可以近似重构回像素空间,即

基于 VLM 的辅助提示模块

考虑到低级图像处理专注于处理退化图像而非真实世界图像,采用集成 VLM 来为低级图像 估计辅助提示。该辅助提示包含语义标题和缺陷描述,以增强目标图像的语义清晰度,从而解决低级图像处理任务中固有的指令差距。

基于通过参数化 的文本对话,在一个视觉语言模型VLM 中,采用一个冻结的 VLM,特别是 LLaVA 模型,该模型将视觉和语言模态作为输入。我们使该模型能够接收配对的退化图像 和文本查询 。为了处理视觉输入,LLaVA 首先采用预训练的编码模型将每种模态映射到共享的表示空间。视觉编码模型 嵌入到文本空间中,生成 ,然后与标记化的语言嵌入 结合。这些组合的嵌入被输入到大型语言模型中,从而产生文本响应

LLaVA 的视觉编码模型在退化领域没有经过广泛的微调。为了从语义和低级缺陷的角度获取明确的理解,我们仔细整理了查询 来分别指导 LLaVA。具体的查询实例在附录中提供。如下图 4 所示,并由方程 5 描述,将与语义和退化相关的响应进行文本拼接,形成 ,作为辅助提示。这作为指令提示 的补充。

条件文本提示通过将嵌入注入交叉注意力层来指导扩散模型。在获得辅助提示后,一种简单的方法是将其与用户输入的指令提示进行拼接,然后将文本嵌入送入扩散模型。然而,这种拼接可能会使整个提示变得过长,导致在token化过程中被强制截断。因此,在利用预训练的 CLIP 视觉编码器 ViT-L/14 提取语言特征后,分别处理 的文本嵌入。引入额外的交叉注意力层,和原始层相同,如下图 2 所示。 的嵌入分别输入到连续注意力网络的 Key 和 Value 头中,从而实现增强的交叉适应。

高频引导采样

在图像恢复和生成任务中有一个基本要求:处理后的图像必须在语义上保持高准确性。观察到,普通的 VAE 重构往往会丢失图像细节,例如文本渲染,这包含高频信息,如下图 5 所示。因此,提出高频引导采样,以平衡生成的质量和保真度。

去噪采样基于 EDM 公式。为了保持空间信息,利用修改过的 VAE 解码器 从潜在空间映射到像素空间。通过将来自 VAE 编码器的跳跃连接特征传递通过额外的 LoRA 卷积来修改 VAE 解码器,以合并特征图。LoRA 网络随机初始化,其可训练参数表示为 θ。由于 LoRA 卷积的参数较轻,仅需多步反向传播即可在不需要 extensive 微调的情况下保持高频一致性。

本文提出了一种保真约束,用于建模图像与真实值之间的空间差异。实施两种高通算子来提取退化图像中的高频信号。对于傅里叶滤波算子 ,使用离散傅里叶变换将生成图像从空间域转换到频率域。然后,通过高通滤波将高频分量隔离,并通过逆傅里叶变换重组为图像。同时,应用 Sobel 边缘检测算子 作为补充。保真约束评估真实值与处理图像之间的高频分量的偏差,确保在采样过程中保留空间信息。此外,为了在时间步 获得图像,利用扩散模型 中的预测噪声 来计算任意时间步的 估计。保真约束计算如下:

由于 表示噪声潜在变量,为每个时间步的潜在变量分配相等的权重是不切实际的。为减轻这种做法所导致的累积误差,我们引入了时间尺度权重 。整体采样算法在算法 1 中详细描述。

实验

实验设置

实现细节。在 32 台 NVIDIA V100 GPU 上训练 PromptFix,训练周期为 46 个,使用 Adam 优化器,学习率设置为 。训练输入分辨率设置为 512×512,以匹配基础模型 LLaVA1.5-7B 和 Stable Diffusion 1.5 的能力。为了促进无分类器指导,在训练期间以 0.075 的概率随机丢弃输入图像潜在变量、指令和辅助提示。前面算法 1 中的时间尺度权重超参数 λ 的经验值设置为 0.001。

基准和指标。采用基于指令的一般模型,例如 InstructP2P、MGIE 和 InstructDiffusion 作为主要比较。MGIE 使用 VLM 引导的技术进行图像编辑,而 InstructDiffusion 处理与训练目标重叠的任务,包括水印去除和修补。此外,还评估了不支持指令输入的全能图像修复方法,如 AirNet 和 PromptIR,以及专门为特定子任务微调的图像修复专家模型。使用 PSNR、SSIM 和 LPIPS 等指标评估生成图像与真实图像的相似性。对于无参考图像质量评估,利用 ManIQA 指标。

定量和定性结果

下表 1 展示了通过 LPIPS 和 ManIQA 指标评估的图像修复和编辑技术的比较分析。专家模型 Diff-Plugin 在低光增强 (LPIPS/ManIQA: 0.227/0.453) 和去雪 (0.133/0.508) 中表现有限但显著。一般方法中,AirNet 在去雪和去雾等任务中展现出平衡能力,LPIPS/ManIQA 得分分别为 0.245/0.589 和 0.039/0.780。然而,基于指令的扩散方法揭示了更细致的图景,PromptFix 显得特别有希望。在着色任务中,它表现优异 (LPIPS/ManIQA: 0.233/0.489),在对象去除 (0.054/0.810) 和水印去除 (0.071/0.811) 中持续超越其他方法。InstructP2P 和 InstructDiff 在低光增强和去雾等特定任务中表现良好,但在整体多功能性上无法与 PromptFix 匹敌。尽管 MGIE 在某些领域有效,但缺乏 "PromptFix (Ours)" 所展现的一致性。这突显了 PromptFix 在多种图像处理任务中的鲁棒性和卓越表现,并表明 PromptFix 具有在该领域设定新基准的潜力,得益于先进的基于指令的扩散方法。

下图 3 展示了所有选择的基线模型之间的视觉比较。在着色任务中,PromptFix 生成的结果最具视觉准确性和生动性,与真实图像非常接近。在水印去除任务中,它有效地恢复了原始图像,而未引入伪影,超越了 MGIE 和其他方法。在去雪和低光增强中,PromptFix 实现了更清晰、更自然的输出,显著减少了噪声并增强了可见性。此外,在超分辨率方面,PromptFix 展现出卓越的清晰度和准确性,保留了细节,超越了所有比较方法。在去雾方面,尽管 PromptFix 的性能在视觉上与图像修复专家 PromptIR 和 AirNet 相当,但 PromptFix 超越了最近的基于Stable Diffusion的方法 Diff-Plugin,呈现出干净、清晰的外观,且与真实图像高度匹配。

消融研究

高频引导采样的有效性。引入高频引导采样(HGS)方法以平衡保真度和质量。为了验证 HGS 的有效性,我们进行了定性和定量实验。如下图 5 所示,在低光场景中,模型旨在增强输入图像的可见性(质量),同时保留其原始文本细节(保真度)。对于利用Stable Diffusion作为生成先验的基线方法,变分自编码器(VAE)强大的压缩能力也带来了空间信息损失的问题,如图 5 中的 InstructDiff、MGIE 和 Diff-Plugin 所示。这个问题与模型有效遵循指令的能力无关。通过变体 “Ours w/o HGS” 可以看出,我们的方法在增强低光图像方面显著优于三种基线,但仍然无法保留小规模的文本结构。通过引入 HGS,如 “Ours” 所示,所提出的框架提供了一个高保真度的解决方案,同时满足低光增强的指令。F(·) 和 S(·) 的使用提高了生成图像的质量,这在下表 4 中的定量结果得到了验证。

VLM 指导的盲修复。利用 LLaVA 生成辅助提示,并将指令提示留空。这种方法使得用户可以输入图像,而无需提供修复指令。评估了模型在这种盲修复任务上的表现,包括低光增强、去雪和去雾。如下表 3 所示,我们的模型在性能上与四个基线模型相当,与真实图像的感知差异最小,且具有更优越的zero-shot 能力。

多任务处理

尽管PromptFix并未经过专门训练以同时处理同一图像中的多个低级任务,但它展现出了多任务处理的能力。我们构建了一个包含200张图像的验证数据集,每张图像包含3个恢复任务,如上色、水印去除、低光增强、去雪、去雾和超分辨率。我们将PromptFix与AirNet和PromptIR这两种通用图像恢复方法,以及以指令驱动的扩散方法InstructP2P和InstructDiff进行了基准测试。如下表2所示,PromptFix的表现超越了这些基线,达到了更优的图像质量、结构相似性,并且与真实图像的感知差异最小,体现在竞争力的PSNR、SSIM和LPIPS得分上,同时更高的ManIQA得分也表明其结果在视觉上令人愉悦且质量高。相反,虽然像InstructP2P和InstructDiff的方法在特定指标上表现良好,但它们未能匹配PromptFix的整体平衡性能。这些结果表明了PromptFix的鲁棒性和多样性。

不同类型的指令提示

通过与三种类型的提示进行消融比较来验证PromptFix对各种人类指令的泛化能力,如下表5所示:训练期间使用的指令,以及少于20个单词和40-70个单词的训练外人类指令。PromptFix在训练外指令下的性能略有下降,但变化可以忽略不计。这表明PromptFix对少于20个单词的指令具有鲁棒性,这通常对于低级处理任务来说是足够的。我们观察到在较长指令下的性能下降,可能是由于训练数据中指令长度的长尾效应。尽管低级处理任务通常不需要长指令,但通过用更长的指令增强数据集来解决这一问题可能是未来工作的一个方向。

结论

PromptFix是一种新型的基于扩散的模型,以及一个大规模的视觉指令训练数据集,旨在促进基于指令的低级图像处理。PromptFix通过高频引导采样和基于视觉语言模型(VLM)的辅助提示模块,有效解决了空间信息丢失和退化适应相关的挑战。这些机制提高了模型在基于指令的图像处理范式中的性能。大量实验结果证明了PromptFix在生成准确且高质量图像方面的先进能力。除了在传统指标上的改进,还观察到PromptFix在多任务处理和低光增强、去雪和去雾等盲恢复任务中的有效性。

参考文献

[1] PromptFix: You Prompt and We Fix the Photo

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!


往期推荐

2024年了,Diffusion模型还有什么可做的?
文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务

大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)

绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]

AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
 最新文章