TPAMI 2024 | 结构引导的图像补全:图像级和对象级语义判别器

文摘   2024-11-14 19:00   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群


论文信息

题目:Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators

结构引导的图像补全:图像级和对象级语义判别器

作者:Haitian Zheng; Zhe Lin; Jingwan Lu; Scott Cohen; Eli Shechtman; Connelly Barnes; Jianming Zhang; Qing Liu; Sohrab Amirghodsi; Yuqian Zhou; Jiebo Luo

论文创新点

  1. 提出结合语义判别器和对象级判别器的新学习范式,增强复杂场景中对象和语义布局的生成质量。
  2. 语义判别器利用预训练视觉特征提升语义一致性,对象级判别器确保局部对象的真实性。
  3. 模型支持多样编辑用例,并结合自动图像补全流程,在标准修复任务上达到新的最佳性能。

摘要

结构引导的图像补全旨在根据用户提供的输入引导图来修复图像的局部区域。尽管这样的任务为交互式编辑提供了许多实际应用,但现有方法在复杂自然场景中生成逼真的对象实例时常常遇到困难。这种局限性部分是由于缺乏对洞区域内语义级约束以及缺乏强制生成逼真对象的机制。在本工作中,我们提出了一个包含语义判别器和对象级判别器的学习范式,以改进复杂语义和对象的生成。具体来说,语义判别器利用预训练的视觉特征来提高生成视觉概念的真实性。此外,对象级判别器以对齐的实例为输入,以强制执行单个对象的真实性。我们提出的方案显著提高了生成质量和在各种任务上实现了最先进的结果,包括在Places2数据集上的分割引导补全、边缘引导操作和全景引导操作。此外,我们训练的模型具有灵活性,可以支持多种编辑用例,如对象插入、替换、移除和标准修复。特别是,我们与新的自动图像补全流程相结合的训练模型在标准修复任务上实现了最先进的结果。

关键字

  • 结构引导修复
  • 图像修复
  • 图像操作和编辑
  • 图像合成

1 引言

最近,对于引导图像补全[1-9]的关注度和需求不断增加,用于照片编辑和创意表达。引导图像补全的目标是根据可选的引导图,如语义标签图[5, 6]、边缘图[1, 2, 7, 10]或彩色像素[8, 9],来完成图像的缺失区域。这些任务被证明能够实现多种图像编辑操作,如完成大缺失区域[1, 2, 10, 11]、移除对象[6, 12, 13]、插入[5, 6, 14]、替换[5, 6, 15]和操纵图像布局[1, 4, 6, 7]。
通过将引导图像补全作为条件修复问题[1, 6, 7, 10, 16]提出,图像操作在过去取得了显著进展。然而,由于缺乏确保生成对象和语义结构质量的机制,当前的引导补全模型在合成复杂自然场景和随机放置对象的大缺失区域时常常受限,导致明显的结构伪影,如扭曲的对象和退化的语义布局,如图1所示。因此,如何在保持合理的语义布局和逼真的对象实例的同时修复大缺失区域,对于引导图像补全来说是一个开放且重要的问题。

我们解决了具有挑战性的大型洞引导补全任务,目标是完成可能任意位于自然场景中的整个对象或对象的大部分。与将引导补全视为修复[2, 10, 11, 13, 17-19]的直接扩展的方法[1, 6, 7, 10, 16]不同,我们认为对生成图像适当施加语义和对象级约束对于提高复杂语义布局和对象细节的真实性至关重要。沿着这一思路,我们在GANs[20]框架下提出了一个新的学习范式,因为与包括最近的基于扩散的方法[21-23]在内的方法相比,GANs在添加显式约束和推理效率方面提供了灵活性。
更具体地说,我们提出了语义判别器和对象级判别器来强制执行生成的语义布局和对象细节的真实性:我们的语义判别器利用预训练视觉模型[24]的语义理解能力来增强模型在语义级判别上的容量,促进更语义上合理的生成结果;对象级判别器以对齐和裁剪的对象为输入,以更好地确定局部尺度上细粒度对象实例的质量,对局部对象的外观施加更强的约束。
为了促进实例编辑和标准修复,在没有引导图的情况下,我们进一步提出了一个新的实例引导补全任务。与边缘[1, 7, 10]或分割[6]引导补全不同,全景标记[25]提供了细粒度和实例级语义信息,并实现了实例级图像编辑。此外,我们提出了一个完全自动的图像补全流程,以实现标准图像修复。具体来说,我们的流程基于预测缺失区域内的全景分割,以解决修复过程中洞内引导信息的缺失。
随着新引入的语义和对象级判别器以及新的标准修复流程,我们的方法显著提高了完成对象的真实性,并在各种修复任务上取得了显著的增益,包括分割引导图像修复、边缘引导图像修复、实例引导图像修复和无引导的标准图像修复,为大洞图像补全和对象补全提供了非常有希望的结果。总之,我们的贡献是三方面的:
  • 一个新的语义判别器设计,利用预训练的视觉特征来鼓励生成内容的语义一致性,以及一个新的对象级判别器框架,用于强制生成局部对象的真实性,用于引导图像补全。
  • 在Places2数据集上的各种任务上取得了最先进的结果,包括分割引导修复、边缘引导修复和实例引导修复,与其他方法相比。
  • 我们训练的模型在多种图像编辑用例上的灵活性,如对象操作、替换、移除和标准修复。结合自动图像补全流程,我们训练的模型在标准修复任务上取得了最先进的结果。

3 方法

3.1 网络架构

如图2所示,我们的引导补全模型基于条件生成对抗网络[66]来完成由二进制掩码M注释的图像X的缺失区域,根据引导图条件C,其中引导输入图可以是边缘图[1, 3, 10]或分割图[6, 16]或全景实例标记图[25]。有关引导图格式的更多详细信息,请参阅补充材料。

3.1.1 生成器

最近,Cascaded-Modulation GAN (CM-GAN)[13]在标准图像修复任务中显示出显著的改进,这得益于级联调制块的架构设计,以更好地进行全局上下文建模。因此,我们将CMGAN生成器用于我们的引导补全任务,以利用CM-GAN生成器强大的修复能力。然而,我们将引导输入C与我们的生成器G进行连接,以便生成器可以从额外的引导中受益。

3.1.2 语义和对象判别器

继最近的修复工作[13, 19]利用StyleGAN判别器[26]进行对抗性学习之后,我们采用了一个条件判别器D,它接受生成图像和条件M、C的连接作为输入,以输出判别器分数
我们发现这种对抗性学习方案确实比其他基线模型取得了领先的结果。然而,由于缺乏对对象的进一步实例级监督和约束,用条件StyleGAN判别器训练的生成器倾向于产生扭曲的对象或退化的语义布局,如图3所示,这严重影响了修复质量。因此,我们提出了一个新的语义判别器来提高补全的语义一致性,以及对象级判别器来增强生成对象的照片真实性。语义判别器。为了生成逼真的对象实例和复杂的语义布局,判别器应该能够区分生成的内容是否真实并符合给定的语义布局。然而,已经表明[65, 67]判别器可能会关注对人类不可见但对分类器明显的伪影,并且学习到的视觉特征可能只覆盖视觉概念的部分[68],而忽略了其他部分。因此,在G和D之间的常规对抗性学习中,生成器很难发现复杂的语义概念或产生逼真的对象。为了解决这个问题,我们提出了一个语义判别器Ds,它利用预训练的视觉模型[24]提取的视觉表示来区分实例级的真实性。得益于预训练视觉模型[69]捕获的全面语义概念,我们的语义判别器可以更好地捕获高级视觉概念,并提高生成的语义布局的真实性,参见图3。具体来说,我们的语义判别器Ds接受生成的图像和全景条件作为输入:
并输出实例级真实性预测。如图2(右)所示,语义判别器基于编码器的两个分支提取互补特征:一个预训练的ViT模型分支[24](在顶部)为完成的图像产生预训练的语义特征,一个基于步幅卷积的可训练编码器分支(在底部)从图像和条件的连接中提取判别特征。最后,预训练特征和最终尺度上的编码器特征被连接以产生最终的判别器预测。由于语义判别器旨在对实例级高级结构进行分类,我们发现将语义判别器Ds与StyleGAN判别器[65]D结合使用可以改善生成的局部纹理。对象级判别器。最近在图像生成[26, 57]方面的进展展示了在对齐设置中生成对象(如脸部、汽车、动物[70]或身体[71])的令人印象深刻的结果,其中对象被仔细放置或注册在图像中心。然而,在复杂自然场景中生成未对齐的对象对于各种任务来说都是具有挑战性的[72],包括修复[19, 73]和语义图像生成[73]。尽管语义判别器可以改善生成对象的质量,但生成逼真的实例仍然是具有挑战性的。为了提高完成对象的真实性,我们发现判别器的对象级对齐机制对提高修复质量有深远的影响。因此,我们提出了新的对象级判别器,专门用于建模对齐对象的层次组合,以预测对象级真实性。具体来说,如图2所示,给定一个对象实例及其边界框b = (x0, y0, x1, y1),一个对象级StyleGAN判别器Dobj接受裁剪和调整大小的图像和相应的裁剪和调整大小的条件图Mc、Cc作为输入,以预测对象的真实性:
其中Ic是一个额外的二进制图,指示裁剪实例的形状,表示对象实例是真实对象补丁的可能性。为了进一步增强判别器对对象建模的能力,我们还提出了语义判别器在对象级Dobj_s。具体来说,判别器Dobj_s接受作为输入并输出,即对象实例是真实对象补丁的可能性:
遵循全局判别器的架构设计,对象级判别器Dobj遵循StyleGAN判别器[26],而对象级语义判别器Dobj_s遵循图像级语义判别器Ds的实现。

3.1.3 训练目标

我们的训练目标是StyleGAN和语义判别器在图像级和对象级D = {D, Ds, Dobj, Dobj_s}的非饱和对抗性损失[20]的总和,以及生成器的感知损失[74]:
其中是生成的图像,是预训练网络在尺度l ∈ {1, ···, L}的特征表示,而L = 4。我们使用具有大感受野的预训练分割模型来计算大掩码修复的特征。为了生成训练对象级判别器的对象边界框,我们在训练过程中实时提取二进制实例图的最大和最小坐标。

3.2 标准修复的全自动流程

引导修复方法[6, 7, 10]通常假设有引导图的存在。这种依赖通常使引导修复方法直接应用于传统图像修复任务变得复杂。在本节中,我们介绍了一个新颖的全自动流程,该流程使我们预训练的引导修复模型适应标准修复场景。我们的流程预测给定不完整图像作为输入的整个图像的全景分割。更具体地说,我们的过程首先使用现成的修复方法,如CMGAN[13]来产生一个初始完成的图像。然后,我们将PanopticFCN[75]应用于此图像以生成完成的全景布局。随后,预测的全景布局和掩码图像都输入到我们的引导修复模型进行进一步修复。作为替代策略,我们展示了训练一个专门的PanopticFCN模型直接从不完整的全景分割预测整个图像的全景分割是可行的。有关更多详细信息,请参阅补充材料。

4 实验

4.1 实施细节

数据集和评估。我们从Places2数据集[77]中收集了两个以对象为中心的大规模数据集,分别名为Places2-person和Places2-object,用于评估各种设置下的各种对象修复任务。具体来说,Places2-person和Places2-object是Places2数据集的子集,其中至少包含一个人或一般对象实例。此外,我们的模型在COCOStuff数据集[78]上进行训练和评估,该数据集包含具有许多对象实例和语义注释的真实世界图像。我们利用预训练的PanopticFCN模型[75]为所有数据集生成实例和语义分割注释,并应用随机笔画掩码[19]和对象形状掩码[12]进行模型评估。请注意,尽管COCOStuff数据集包括准确的实例分割真值,我们选择使用PanopticFCN生成注释,以增强模型在真实世界图像编辑应用中的泛化能力。此外,边缘引导修复任务在两个设置中进行评估。在第一个设置中,边缘图是通过计算实例分割掩码的边界提取的。在第二个设置中,边缘图是通过应用预训练的边缘检测模型[79]然后进行Canny边缘检测步骤提取的。得到的两种边缘格式分别表示为实例边缘和Canny边缘。我们在测试集上使用CoModGAN[19]的掩码方案和[12]的对象掩码报告数值指标,并报告Frechet Inception Distance (FID)[80]和配对/非配对Inception鉴别分数(P-IDS/U-IDS)[19]进行评估。
修复任务和比较方法。我们在实例引导、分割引导和边缘引导修复任务上评估我们的模型。此外,第4.4节评估了我们的全自动流程在标准修复任务上的表现。对于实例引导任务,我们将我们的方法与最近的修复和引导修复方法进行比较,包括SESAME* [6]、LaMa* [11]、CoModGAN* [19]和CM-GAN* [13],其中*表示为实例引导任务重新训练的模型。所有重新训练的模型都在8个A100 GPU上训练至少三天,直到收敛,以确保公平比较。对于分割引导修复,我们的方法与SESAME [6]进行比较,对于边缘引导修复,我们的方法与EdgeConnect [1]和SketchEdit [7]进行比较。此外,我们将我们的方法与最近的ControlNet [54]引导修复和潜在扩散修复模型[LDM]进行比较。为了适应引导修复任务,我们在多个引导输入上重新训练ControlNet模型,例如实例分割、语义分割和边缘图,用于引导生成,然后使用RePaint [76]将已知区域粘贴回来,从而得到用于引导修复的ControlNet模型。对于ControlNet和Latent Diffusion,我们将文本提示设置为“一张干净、美丽、高分辨率的图像”,以避免潜在的性能下降。
网络细节。我们利用预训练的CLIP模型[24]作为语义判别器的特征提取器。有关网络结构和训练配置的更多详细信息,请参见附录。

4.2 定量和定性评估

表1和表2分别展示了在Places2-person和Coco-Stuff数据集上进行的实例引导、分割引导和边缘引导修复任务的评估结果。对于所有任务,我们的方法与现有方法相比取得了显著的提升。此外,我们观察到,由于全景引导提供的实例级语义信息,我们的实例引导模型比分割引导或边缘引导的对应模型获得了更好的FID分数。然而,我们的分割引导和边缘引导模型与现有方法相比仍然取得了令人印象深刻的FID分数,显示出我们方法的灵活性和鲁棒性。此外,表3展示了在Places2-object上进行的实例引导任务的评估,我们的模型改进了现有方法,并显示了对一般对象类别的泛化能力。此外,我们观察到,与实例边缘图引导的修复相比,使用Canny边缘图引导的修复表现更好,因为Canny边缘图提供了更多的结构细节。

为了理解我们方法的视觉效果,我们在引导任务上展示了我们的方法与最先进方法的比较。具体来说,图4展示了我们在Places2-person上的全景引导修复任务上与重新训练的SESAME [6]、LaMa [11]、CoModGAN [19]和CM-GAN [13]以及ControlNet的视觉比较,图5显示了在Places2-object上的视觉比较。图9展示了在Places2数据集上进行的分割引导和边缘引导任务的各种引导修复的视觉比较。此外,图6展示了在COCOStuff数据集上进行的各种引导修复的视觉比较。视觉比较展示了我们方法在生成逼真对象实例方面相比GAN方法的明显优势,包括最近的CM-GAN [13]、SESAME [6]和SketchEdit [7]。此外,我们的GAN方法在对象生成质量上可以与最近的基于扩散的方法ControlNet [54]相匹配。

此外,我们比较了我们模型的推理阶段速度和模型大小,与其基于扩散的对应物进行了比较。具体来说,表5详细说明了我们的方法和ControlNet的推理阶段分析。由于我们方法的单步推理过程,在推理阶段明显快于基于扩散的ControlNet,同时仍然实现相似或更优的视觉质量。此外,我们模型的较小尺寸为在资源受限的设备上部署提供了额外的好处,如手机。

4.3 消融研究

我们进行了一系列消融实验来展示我们模型的每个组成部分的重要性。定量结果如表4所示,视觉比较如图8所示。以下是我们模型以下组成部分的消融实验描述:感知损失我们以条件CM-GAN作为全景引导修复任务的基线。我们发现,仅用StyleGAN判别器损失(简称adv.)训练的模型收敛缓慢,有时会产生颜色斑点,而感知损失模型(perc.)提高了性能,并将FID从10.5587/9.3800降低到2.8470/2.2746,分别在两个掩码上。这一发现与CM-GAN [13]和LaMa [11]的观察结果一致。语义判别器基于感知损失模型,我们在模型训练中仅在图像级添加语义判别器(sem. D)。如表4所示,语义判别器提高了FID,这与对象生成的改善一致,例如脸部。然而,语义判别器模型仍然遭受对象扭曲的问题。对象级判别器我们还评估了对象级判别器(obj. D)的影响。我们观察到,将对象判别器仅集成到我们的基线模型中,FID分数的改善是边际的。然而,对象和语义判别器的结合产生了最佳性能。这表明额外的语义信息对于对象级判别器有效地识别对象结构可能是必不可少的。图3和图8中的视觉结果展示了对象级和语义判别器在图像质量上的显著改进。语义标签图引导我们将训练有素的模型用于实例引导任务与分割引导任务进行了比较。实例引导任务获得了更好的FID分数,并在实例重叠时(例如图8中的两个重叠人物)生成了更好的对象边界。我们的分割引导模型为不相交的实例产生了高质量的结果。

4.4 全自动图像修复

表6展示了我们全自动修复流程(第3.2节)与最近最先进的修复方法的评估,包括LaMa [11]、CoModGAN [19]、CMGAN [13]和最近的潜在扩散修复模型(Latent Diffusion)[23]。我们的方法在数值指标上显著提高了,FID分数降低,这与图7中生成对象的真实性提高是一致的。

5 结论

针对修复逼真对象的目标,我们研究了一种结构引导的图像修复任务,该任务利用语义或全景分割等结构信息来辅助图像修复。我们的方法基于一种新的语义判别器设计,利用预训练的视觉特征来改善生成内容的语义一致性。我们进一步提出了对象级判别器来增强生成内容的真实性。我们的方法在生成对象上取得了显著的改进,并在各种任务上实现了新的最先进性能,包括全景、语义分割或边缘图引导修复和标准修复。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章