图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

文摘 2024-10-26 00:01 上海

点击下方卡片，关注“AI生成未来”

后台回复“GAI”，免费获取最新AI相关行业报告和资料！

作者：Yongsheng Yu、Ziyun Zeng、Jiebo Luo等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2405.16785
项目链接：https://www.yongshengyu.com/PromptFix-Page

亮点直击
提出了一个为七个图像处理任务量身定制的综合数据集。该数据集包含约101万对多样化的输入-输出图像及其相应的图像编辑指令。
提出了一种全新的指令引导扩散模型——PromptFix，用于低级图像处理任务。大量实验结果表明，PromptFix在各种图像处理任务中表现优于现有方法，并在零样本盲修复和组合任务中展现出更强的能力。
为扩散模型引入了两种方法——高频引导采样和辅助提示模块，能够有效解决指令引导扩散模型在低级任务中高频信息丢失以及处理严重图像退化问题的不足。

总结速览

解决的问题：现有扩散模型在处理自定义用户指令时缺乏多样化数据，尤其是在低级任务中表现不足。此外，扩散过程的随机性导致难以保留生成图像的细节。

提出的方案 提出了PromptFix框架，通过构建大规模指令跟随数据集、引入高频引导采样方法以及设计辅助提示适配器来增强模型的指令执行能力。

应用的技术：使用高频引导采样控制去噪过程，保持未处理区域的高频细节；利用视觉-语言模型（VLMs）加强文本提示，提高任务泛化能力。

达到的效果：PromptFix在多种图像处理任务中表现优于现有方法，并在零样本盲修复和组合任务中展现出更强的能力，同时保持了与基准模型相当的推理效率。

数据整理

现有的带有指令标注的图像数据集主要用于促进图像编辑研究，涵盖了颜色迁移、对象替换、对象移除、背景更改和风格迁移等任务。然而，它们与低级应用的重叠有限。此外，现有模型在图像修复任务中的表现难以令人满意。本文的目标是构建一个专门针对低级任务的综合视觉指令跟随数据集。获得了约101万训练三元组实例。

配对图像收集。最初从多个现有数据集中收集源图像，随后生成退化和修复后的图像，以创建大量的配对图像数据集。共收集了大约两百万个原始数据点，涵盖八个任务：图像修复、对象创建、图像去雾、图像上色、超分辨率、低光增强、雪去除和水印去除。对于测试集，为每个任务随机选择了300对图像。

指令提示生成。对于每个低级任务，使用 GPT-4 生成了多样化的训练指令提示。这些提示包括任务特定的和通用的指令。任务特定提示超过250条，明确定义了任务目标。例如，去雾任务的提示为：“通过减少雾霾提高图像的可见性”。通用指令包括五条模糊命令，保留为“负面”提示，以促进自适应任务。对于水印去除、超分辨率、去雾、雪去除、低光增强和上色任务，我们还为每个实例生成了“辅助提示”。这些辅助提示描述了输入图像的质量问题并提供了语义描述。

方法

设表示退化的输入图像。PromptFix 模型旨在通过提示和扩散模型来增强图像。

扩散模型

扩散模型通过前向过程中的逐步高斯扰动将数据转换为噪声，随后在逆向过程中从噪声中重建样本。在前向阶段，原始数据点被逐步改变，趋向于高斯噪声分布，其过程遵循以下公式：

其中和是在每个插值点管理信噪比的系数。该过程旨在保持方差，采用的系数策略如文献 [31] 所述。前向过程在连续时间中建模为随机微分方程（SDE），可以表示为：

其中是向量值的漂移系数，是扩散系数，表示在时间的布朗运动。

由于 SDE 的显著特性，后向扩散过程通过 Fokker-Planck 动力学重新表述，以产生具有一致概率密度的确定性转移，从而形成概率流常微分方程（ODE）：

该方程概述了一种可通过最大似然技术学习的传输机制，应用于扩散数据样本的扰动核，如文献 [30, 64] 所示。接下来，对进行采样，以初始化概率流常微分方程（ODE），并通过估计评分函数。在数值 ODE 解算器中采用欧拉方法来获得解决轨迹：

其中表示扩散模型，表示采样的神经函数评估（NFEs）。

在训练阶段，采用简单的扩散损失，其中神经网络仍然使用前向推理来预测噪声。可以通过使用当前噪声数据和预测的噪声来获得任一步骤的样本数据估计，其推导为：

为了降低计算成本，上述扩散过程从潜在空间中的各向同性高斯噪声样本开始，而不是从像素空间开始。此空间转换通过变分自编码器（VAE）压缩实现。VAE 自编码器由编码器和左逆解码器组成。例如，一幅图像可以被编码为潜在代码，然后可以近似重构回像素空间，即。

基于 VLM 的辅助提示模块

考虑到低级图像处理专注于处理退化图像而非真实世界图像，采用集成 VLM 来为低级图像估计辅助提示。该辅助提示包含语义标题和缺陷描述，以增强目标图像的语义清晰度，从而解决低级图像处理任务中固有的指令差距。

基于通过参数化的文本对话，在一个视觉语言模型VLM 中，采用一个冻结的 VLM，特别是 LLaVA 模型，该模型将视觉和语言模态作为输入。我们使该模型能够接收配对的退化图像和文本查询。为了处理视觉输入，LLaVA 首先采用预训练的编码模型将每种模态映射到共享的表示空间。视觉编码模型将嵌入到文本空间中，生成，然后与标记化的语言嵌入结合。这些组合的嵌入被输入到大型语言模型中，从而产生文本响应。

LLaVA 的视觉编码模型在退化领域没有经过广泛的微调。为了从语义和低级缺陷的角度获取明确的理解，我们仔细整理了查询和来分别指导 LLaVA。具体的查询实例在附录中提供。如下图 4 所示，并由方程 5 描述，将与语义和退化相关的响应进行文本拼接，形成，作为辅助提示。这作为指令提示的补充。

条件文本提示通过将嵌入注入交叉注意力层来指导扩散模型。在获得辅助提示后，一种简单的方法是将其与用户输入的指令提示进行拼接，然后将文本嵌入送入扩散模型。然而，这种拼接可能会使整个提示变得过长，导致在token化过程中被强制截断。因此，在利用预训练的 CLIP 视觉编码器 ViT-L/14 提取语言特征后，分别处理和的文本嵌入。引入额外的交叉注意力层，和原始层相同，如下图 2 所示。和的嵌入分别输入到连续注意力网络的 Key 和 Value 头中，从而实现增强的交叉适应。

高频引导采样

在图像恢复和生成任务中有一个基本要求：处理后的图像必须在语义上保持高准确性。观察到，普通的 VAE 重构往往会丢失图像细节，例如文本渲染，这包含高频信息，如下图 5 所示。因此，提出高频引导采样，以平衡生成的质量和保真度。

去噪采样基于 EDM 公式。为了保持空间信息，利用修改过的 VAE 解码器从潜在空间映射到像素空间。通过将来自 VAE 编码器的跳跃连接特征传递通过额外的 LoRA 卷积来修改 VAE 解码器，以合并特征图。LoRA 网络随机初始化，其可训练参数表示为 θ。由于 LoRA 卷积的参数较轻，仅需多步反向传播即可在不需要 extensive 微调的情况下保持高频一致性。

本文提出了一种保真约束，用于建模图像与真实值之间的空间差异。实施两种高通算子来提取退化图像中的高频信号。对于傅里叶滤波算子，使用离散傅里叶变换将生成图像从空间域转换到频率域。然后，通过高通滤波将高频分量隔离，并通过逆傅里叶变换重组为图像。同时，应用 Sobel 边缘检测算子作为补充。保真约束评估真实值与处理图像之间的高频分量的偏差，确保在采样过程中保留空间信息。此外，为了在时间步获得图像，利用扩散模型中的预测噪声来计算任意时间步的估计。保真约束计算如下：

由于表示噪声潜在变量，为每个时间步的潜在变量分配相等的权重是不切实际的。为减轻这种做法所导致的累积误差，我们引入了时间尺度权重。整体采样算法在算法 1 中详细描述。

实验

实验设置

实现细节。在 32 台 NVIDIA V100 GPU 上训练 PromptFix，训练周期为 46 个，使用 Adam 优化器，学习率设置为。训练输入分辨率设置为 512×512，以匹配基础模型 LLaVA1.5-7B 和 Stable Diffusion 1.5 的能力。为了促进无分类器指导，在训练期间以 0.075 的概率随机丢弃输入图像潜在变量、指令和辅助提示。前面算法 1 中的时间尺度权重超参数 λ 的经验值设置为 0.001。

基准和指标。采用基于指令的一般模型，例如 InstructP2P、MGIE 和 InstructDiffusion 作为主要比较。MGIE 使用 VLM 引导的技术进行图像编辑，而 InstructDiffusion 处理与训练目标重叠的任务，包括水印去除和修补。此外，还评估了不支持指令输入的全能图像修复方法，如 AirNet 和 PromptIR，以及专门为特定子任务微调的图像修复专家模型。使用 PSNR、SSIM 和 LPIPS 等指标评估生成图像与真实图像的相似性。对于无参考图像质量评估，利用 ManIQA 指标。

定量和定性结果

下表 1 展示了通过 LPIPS 和 ManIQA 指标评估的图像修复和编辑技术的比较分析。专家模型 Diff-Plugin 在低光增强 (LPIPS/ManIQA: 0.227/0.453) 和去雪 (0.133/0.508) 中表现有限但显著。一般方法中，AirNet 在去雪和去雾等任务中展现出平衡能力，LPIPS/ManIQA 得分分别为 0.245/0.589 和 0.039/0.780。然而，基于指令的扩散方法揭示了更细致的图景，PromptFix 显得特别有希望。在着色任务中，它表现优异 (LPIPS/ManIQA: 0.233/0.489)，在对象去除 (0.054/0.810) 和水印去除 (0.071/0.811) 中持续超越其他方法。InstructP2P 和 InstructDiff 在低光增强和去雾等特定任务中表现良好，但在整体多功能性上无法与 PromptFix 匹敌。尽管 MGIE 在某些领域有效，但缺乏 "PromptFix (Ours)" 所展现的一致性。这突显了 PromptFix 在多种图像处理任务中的鲁棒性和卓越表现，并表明 PromptFix 具有在该领域设定新基准的潜力，得益于先进的基于指令的扩散方法。

下图 3 展示了所有选择的基线模型之间的视觉比较。在着色任务中，PromptFix 生成的结果最具视觉准确性和生动性，与真实图像非常接近。在水印去除任务中，它有效地恢复了原始图像，而未引入伪影，超越了 MGIE 和其他方法。在去雪和低光增强中，PromptFix 实现了更清晰、更自然的输出，显著减少了噪声并增强了可见性。此外，在超分辨率方面，PromptFix 展现出卓越的清晰度和准确性，保留了细节，超越了所有比较方法。在去雾方面，尽管 PromptFix 的性能在视觉上与图像修复专家 PromptIR 和 AirNet 相当，但 PromptFix 超越了最近的基于Stable Diffusion的方法 Diff-Plugin，呈现出干净、清晰的外观，且与真实图像高度匹配。

消融研究

高频引导采样的有效性。引入高频引导采样（HGS）方法以平衡保真度和质量。为了验证 HGS 的有效性，我们进行了定性和定量实验。如下图 5 所示，在低光场景中，模型旨在增强输入图像的可见性（质量），同时保留其原始文本细节（保真度）。对于利用Stable Diffusion作为生成先验的基线方法，变分自编码器（VAE）强大的压缩能力也带来了空间信息损失的问题，如图 5 中的 InstructDiff、MGIE 和 Diff-Plugin 所示。这个问题与模型有效遵循指令的能力无关。通过变体 “Ours w/o HGS” 可以看出，我们的方法在增强低光图像方面显著优于三种基线，但仍然无法保留小规模的文本结构。通过引入 HGS，如 “Ours” 所示，所提出的框架提供了一个高保真度的解决方案，同时满足低光增强的指令。F(·) 和 S(·) 的使用提高了生成图像的质量，这在下表 4 中的定量结果得到了验证。

VLM 指导的盲修复。利用 LLaVA 生成辅助提示，并将指令提示留空。这种方法使得用户可以输入图像，而无需提供修复指令。评估了模型在这种盲修复任务上的表现，包括低光增强、去雪和去雾。如下表 3 所示，我们的模型在性能上与四个基线模型相当，与真实图像的感知差异最小，且具有更优越的zero-shot 能力。

多任务处理

尽管PromptFix并未经过专门训练以同时处理同一图像中的多个低级任务，但它展现出了多任务处理的能力。我们构建了一个包含200张图像的验证数据集，每张图像包含3个恢复任务，如上色、水印去除、低光增强、去雪、去雾和超分辨率。我们将PromptFix与AirNet和PromptIR这两种通用图像恢复方法，以及以指令驱动的扩散方法InstructP2P和InstructDiff进行了基准测试。如下表2所示，PromptFix的表现超越了这些基线，达到了更优的图像质量、结构相似性，并且与真实图像的感知差异最小，体现在竞争力的PSNR、SSIM和LPIPS得分上，同时更高的ManIQA得分也表明其结果在视觉上令人愉悦且质量高。相反，虽然像InstructP2P和InstructDiff的方法在特定指标上表现良好，但它们未能匹配PromptFix的整体平衡性能。这些结果表明了PromptFix的鲁棒性和多样性。

不同类型的指令提示

通过与三种类型的提示进行消融比较来验证PromptFix对各种人类指令的泛化能力，如下表5所示：训练期间使用的指令，以及少于20个单词和40-70个单词的训练外人类指令。PromptFix在训练外指令下的性能略有下降，但变化可以忽略不计。这表明PromptFix对少于20个单词的指令具有鲁棒性，这通常对于低级处理任务来说是足够的。我们观察到在较长指令下的性能下降，可能是由于训练数据中指令长度的长尾效应。尽管低级处理任务通常不需要长指令，但通过用更长的指令增强数据集来解决这一问题可能是未来工作的一个方向。

结论

PromptFix是一种新型的基于扩散的模型，以及一个大规模的视觉指令训练数据集，旨在促进基于指令的低级图像处理。PromptFix通过高频引导采样和基于视觉语言模型（VLM）的辅助提示模块，有效解决了空间信息丢失和退化适应相关的挑战。这些机制提高了模型在基于指令的图像处理范式中的性能。大量实验结果证明了PromptFix在生成准确且高质量图像方面的先进能力。除了在传统指标上的改进，还观察到PromptFix在多任务处理和低光增强、去雪和去雾等盲恢复任务中的有效性。

参考文献

[1] PromptFix: You Prompt and We Fix the Photo

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

往期推荐

2024年了,Diffusion模型还有什么可做的？

文本引导I2I迈向统一！北大王选所提出FCDiffusion：端到端适用于各种图像转换任务

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

绝地归来！英伟达等提出JeDi：无需微调,个性化图像生成新SOTA！[CVPR 2024]

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510079&idx=1&sn=6c43e2a010f031646fe60b531812a847

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉