CLIP-SR：用于超分辨率的协同语言和图像处理

科技 2024-12-23 15:05 浙江

摘要

卷积神经网络 (CNN) 已经推动了图像超分辨率 (SR) 的发展，但是大多数基于 CNN 的方法仅仅依赖于基于像素的变换，这常常会导致伪影和模糊，尤其是在严重下采样（例如，8× 或 16×）的情况下。最近的文本引导 SR 方法试图利用文本信息来增强细节，但是它们常常难以实现有效的对齐，导致语义一致性不佳。为了解决这些限制，我们提出了一种多模态语义增强方法，该方法将文本语义与视觉特征相结合，有效地解决了高度退化的 LR 图像中的语义错配和细节丢失问题。我们提出的多模态协作框架能够在显著的放大因子下生成逼真且高质量的 SR 图像。该框架集成了文本和图像输入，采用提示预测器、文本-图像融合块 (TIFBlock) 和迭代细化模块以及 CLIP（对比语言-图像预训练）特征来指导具有细粒度对齐的渐进式增强过程。这种对齐即使在较大的缩放因子下也能产生具有清晰细节和语义一致性的高分辨率输出。通过大量的对比实验和消融研究，我们验证了我们方法的有效性。此外，通过结合文本语义指导，我们的技术能够在保持语义一致性的同时实现一定程度的超分辨率可编辑性。

索引词：

图像超分辨率、CLIP、多模态融合、语言引导

I引言

卷积神经网络 (CNN) 的出现极大地推动了图像超分辨率 (SR) 领域的发展 [1, 2, 3, 4, 5, 6]。早期的基于 CNN 的 SR 方法仅依靠低分辨率 (LR) 图像来重建高分辨率 (HR) 图像，常常难以提高重建质量。为了克服这些限制，后续的研究 [7, 8, 9, 10, 11, 12, 13, 14, 15] 引入了先验信息来指导 SR 过程，旨在弥补 LR 图像中缺失的细节。基于先验的方法虽然已经证明有所改进，但它们往往局限于特定类型的图像，例如具有明确结构或属性的图像（例如，人脸图像）。此外，像SFTGAN[16]这样的方法，利用语义分割图来辅助超分辨率重建，往往会带来额外的计算成本，并且高度依赖于分割过程的准确性。

图1：我们方法从低分辨率输入 (LR) 中恢复的可视化结果。我们通过与高分辨率 (HR) 真实值对齐文本指导，突出显示语义一致性部分。

为了解决这些局限性，使用文本描述作为一种语义指导的形式已成为一种更灵活和全面的替代方案。文本提供了更丰富和更详细的语义信息，可以指导更广泛范围的图像的超分辨率过程。 TGSR[17]是最早探索这种方法的研究，使用文本增强超分辨率图像细节生成。然而，这种方法仍然存在挑战，尤其是在实现有效的文本图像特征匹配和语义对齐方面，导致输入LR图像和生成的SR结果之间存在不一致。在本文中，我们提出了一种新方法，该方法确保语义一致性，同时实现大规模超分辨率。我们的方法利用文本描述来指导超分辨率过程，确保重建的HR图像在语义上连贯且视觉上逼真。如图1所示，我们的方法解决了先前方法的局限性，为高保真超分辨率提供了一种稳健的解决方案。

图2：我们与两种SOTA超分辨率方法：DICGAN[18]和CRAFT[19]的图像超分辨率比较示例。16× 在这里，DICGAN和CRAFT使用与我们相同的数据库重新训练；LR是输入低分辨率图像，GT是高分辨率真实值（为了可视化目的进行了适当的放大）。

为了解决基于先验的方法的局限性和无效的文本图像特征匹配带来的挑战，尤其是在处理现实场景中大规模分辨率退化和高语义模糊的情况下，我们引入了一种新方法：用于超分辨率 (SR) 的多模态协作语义增强。我们并没有将相关文本仅仅视为先验指导，而是将文本信息与LR图像结合起来，作为超分辨率任务的两种模态输入。结合这些模态可以增强局部语义并实现高性能的大规模超分辨率。具体来说，我们引入了一个提示预测器，用于从文本中提取重要的语义元素。受VPT [20]和GALIP [21]的启发，提示预测器包含一个全连接层和一个自注意力机制，作为文本驱动的注意力模块。与直接将原始文本向量输入预训练的CLIP-ViT不同，提示预测器生成的细化文本向量使CLIP-ViT能够实现文本和图像之间语义特征的增强对齐，从而提高跨模态表示的质量。

为了进一步优化文本图像交互，我们引入了TIFBlock，这是一种新颖的对齐融合模块，专门用于增强跨模态集成。利用CLIP [22]等预训练模型进行初始特征提取，TIFBlock有效地合成和细化这些表示，从而显着提高文本到图像匹配性能。在TIFBlock的基础上，我们开发了一个迭代细化模块，这是一个专门用于迭代细节恢复和语义增强的结构。该模块逐步细化局部细节，解决模糊区域，同时保持迭代间的语义一致性。迭代细化模块的核心组成部分是包含一个针对我们框架定制的残差连接，这有助于平滑的特征传播，同时保持语义完整性。定制的残差连接无缝地集成到此模块中，以进一步优化像素转换和特征传播，确保强大的多模态融合。总之，这些组件与我们的设计目标相一致，实现了模态之间无缝且有效的协作。

通过以语言信息的方式有效地结合与给定LR图像相关的文本描述，所提出的方法生成了高度详细的超分辨率结果。如图 2所示，我们展示了将我们的方法应用于严重缩小的面部图像的典型示例，该图像具有16×的超分辨率因子。与两种最先进的超分辨率方法相比，我们的方法展示了具有竞争力的性能。此外，所提出的方法具有很强的可解释性和与提供的文本描述的语义一致性。

本文的主要贡献如下：

•
我们提出了一种用于大规模图像超分辨率的新型多模态语义一致性方法，该方法从严重退化的低分辨率输入中生成语义一致且逼真的高分辨率图像。
•
我们设计了一种新颖的文本图像融合块（TIFBlock），并将其与预训练的跨模态模型集成，以创建一个迭代协同融合结构，使我们的框架在增强局部语义的同时逐步恢复图像细节。
•
我们研究了不同的文本语义对图像超分辨率的影响。综合比较实验和消融研究验证了我们超分辨率方法的有效性，同时保持了语义一致性。

二相关工作

二-A 基于先验的图像超分辨率

单图像超分辨率 (SR) 已成为端到端深度学习领域中的一个动态研究方向 [23]。各种模型和机制的发展显著改进了超分辨率方法，尤其是在像素重建和细节逼近方面。早期的超分辨率方法 [4, 24, 25, 26, 27, 28] 通常假设低分辨率 (LR) 图像像素是通过对高分辨率 (HR) 图像进行双三次下采样获得的。这些方法采用各种深度映射网络直接从低分辨率输入重建超分辨率图像像素。虽然这些方法在具有小规模退化问题的合成数据上可以取得令人满意的结果，但在现实世界的大规模退化场景中，由于低分辨率语义的全部或部分丢失，它们的有效性会显著下降。

为了提高在现实世界超分辨率场景中的性能，人们提出了许多基于先验的方法，这些方法利用显式或隐式先验来丰富细节生成。一种具有代表性的显式方法是基于参考的超分辨率 [29, 30, 31, 32]，它利用一个或多个与输入低分辨率图像具有相似纹理的高分辨率参考图像来指导高分辨率输出的生成。然而，将参考的特征与低分辨率输入匹配可能具有挑战性，并且这些显式先验可能不可用。

最近的方法，包括FSRNet [7]、DeepSEE [11]、SFTGAN [8]、TGSR [17]，已经转向利用隐式先验，通过将先验信息直接整合到超分辨率过程中来取得更好的结果。例如，FSRNet [7] 利用几何先验来改善人脸图像超分辨率效果，而Zhang 等人[33]则利用多视角一致性。 DeepSEE [11] 利用语义图来探索极端图像超分辨率。SFTGAN [8] 引入图像分割掩码作为人脸图像超分辨率的先验特征，而TGSR [17] 则采用文本语义作为先验条件来引导图像超分辨率。尽管有效，但这些隐式先验通常针对特定情况进行定制，例如受限类别 [34, 35] 或人脸图像 [7, 8, 36, 37]，这限制了它们在更复杂、现实世界的超分辨率任务中的适用性。

II-B 多模态融合引导的图像生成

多模态融合在各种视觉任务中变得越来越普遍，例如图像生成、风格迁移和图像编辑。例如，关键点通常用于运动生成 [38] 和自动化妆应用 [39]。在基于文本的图像合成中，GAN-INT-CLS [40] 利用文本描述使用条件生成对抗网络 (cGANs) 生成图像。为了提高图像质量，Stack-GAN [41]、AttnGAN [42] 和 DM-GAN [43] 利用多个生成器和判别器。 DF-GAN [44] 通过更简化和有效的方法简化了文本到图像的合成。 LAFITE [45] 引入了一种基于 CLIP 模型 [22] 的对比损失，为生成精确的图像提供了更准确的指导。在艺术风格迁移中，CLIPstyler [46] 能够从文本描述到源图像进行领域无关的纹理迁移，而 CLVA [47] 则采用基于块的风格判别器从风格指令中提取视觉语义，实现详细和局部化的艺术风格迁移。对于文本引导的图像编辑，SISGAN [48] 开创了使用编码器-解码器架构进行基于文本的语义编辑的方法。 ManiGAN [49] 引入了一个两阶段的架构，其中包含 ACM（注意力裁剪模块）和 DCM（可变形裁剪模块），以促进基于文本的图像编辑的独立网络训练。轻量级 GAN [40] 通过应用词级判别器进一步提高了效率。 ManiTrans [50] 采用预训练的自回归Transformer，利用CLIP模型[22]进行语义损失计算。最近，Zeng 等人 [51] 开发了一个使用语言引导的多轮图像编辑框架。

大语言模型的出现进一步推动了文本到图像生成的进步。 DALL-E [52] 使用VQ-VAE [53] 将图像分解成离散的符元，将图像合成构建为一个翻译任务。 LDM [54] 将扩散模型应用于潜在图像向量，允许以高质量的结果进行高效训练。 GLIDE [55] 是一种基于扩散的文本到图像生成模型，它使用引导扩散来增强文本条件下的合成。 GALIP [21] 在对抗学习中整合了CLIP模型，用于文本到图像的合成。 Zhang 等人提出的ControlNet [56]，建立在预训练的Stable Diffusion [54]基础之上，加入了详细的控制来引导图像生成。

预训练扩散模型的最新进展[55, 54, 57]显著提高了图像生成能力。虽然一些研究[58, 59, 60, 61, 62]强调了这些模型的生成潜力，但它们在超分辨率中的应用仍然具有挑战性。超分辨率所需的高保真度要求速度和效率——而扩散模型由于其多步去噪过程通常缺乏这些特性，这导致生成时间较慢并使潜在空间操作复杂化。

与使用扩散模型相比，这项工作出于几个关键原因采用了基于GAN的模型。 GAN能够一次性生成高分辨率图像，与扩散模型的迭代性质相比，这大大提高了效率。此外，它们提供了一个平滑的潜在空间，可以对生成的特征进行直观的控制，使其特别适合超分辨率任务。此外，GAN所需的训练数据和计算资源较少，提高了研究人员的可及性。通过利用GAN，我们旨在实现高质量的图像生成，同时确保超分辨率的实际适用性。

III方法

本节首先概述我们提出的CLIP-SR模型，然后详细描述我们多模态协同图像超分辨率（SR）网络中的各个组件。最后，我们介绍了该方法中使用的总损失函数。

III-A 概述

传统的小尺度因子SR方法使用深度SR网络从LR图像生成HR图像。然而，大尺度因子下采样往往会导致LR图像出现明显的模糊，使得SR网络难以仅从像素空间信息中重建语义一致且精确的细节。为了解决这些挑战，我们引入了文本语义作为补充输入，使我们的网络能够利用像素和文本空间的信息来生成更准确的细节。显然，我们将输入低分辨率图像表示为LL⁢R，补充文本描述表示为T，高分辨率真值图像表示为IG⁢T，对应于输入低分辨率图像LL⁢R。 CLIP-SR ℋ 的目标是融合LL⁢R和T以生成语义一致且视觉逼真的超分辨率图像，表示为IS⁢R。

特别地，我们在多模态迭代细化模型中引入了一个文本-图像融合块（TIFBlock），该模型集成了CLIP [22]和TIFBlock以实现有效的放大倍数SR。为了有效地结合来自不同模态的信息，即文本和图像，我们设计了一种鲁棒的融合策略，该策略保留了重要的文本细节，同时避免了在更简单的方法[63, 48, 41]中观察到的信息丢失，这些方法直接将文本向量与图像特征合并。我们的TIFBlock采用仿射变换对齐策略来提高文本-图像融合精度并保留关键语义细节。鉴于文本和图像特征之间的内在差异，精确的对齐对于实现语义一致性至关重要。为了进一步减少跨模态不一致性，在对齐之前采用提示预测器来处理文本向量。此外，CLIP模型[22]作为补充对齐工具集成到我们的框架中，确保SR的上下文精确和语义一致的文本-图像融合。

图3：我们提出的用于大倍数图像超分辨率的多模态协同语义增强模型的架构（见子图 (a)）。给定一个低分辨率图像输入IL⁢R和文本指导T，特征FI和FT分别使用图像编码器EI和文本编码器ET进行提取。文本特征向量FT通过提示预测模块P进一步细化，然后由CLIP-ViT模型处理以增强文本指导。随后，使用文本图像融合块 (TIFBlock) 集成细化的文本和图像特征，该块对齐并组合两种模态（见子图 (b)）。在TIFBlock中，在其文本融合模块中应用仿射变换。此变换采用两个连续的多层感知器 (MLP) 来生成逐通道缩放参数 (γn^=M⁢L⁢P1⁢(S⁢o⁢f⁢t⁢m⁢a⁢x⁢(FT))) 和偏移参数 (βn^=M⁢L⁢P2⁢(S⁢o⁢f⁢t⁢m⁢a⁢x⁢(FT)))。这些参数自适应地调节视觉表示F^In的逐通道特征。最后，融合的多模态特征通过连续的Conv-TIFBlock结构（称为迭代细化模块R）进行迭代细化和语义增强。这个迭代过程确保逐步改进超分辨率输出，并增强细节和语义一致性。

为了进一步确保与生成的高分辨率 (SR) 图像中的低分辨率 (LR) 内容保持一致，我们设计了两种基于我们的融合策略的附加机制。具体来说，我们结合残差连接来保留重要的低分辨率细节，尤其是在可能出现语义冲突的情况下。此外，在多模态迭代细化模块的每一层都集成了文本语义，逐步指导超分辨率过程并进行细粒度调整。这些改进的语义融合策略确保生成的超分辨率图像在结构和语义上都与低分辨率输入保持一致。图3概述了整个网络架构和设计的TIFBlock的细节。

III-B 网络架构

在本节中，我们将介绍我们提出的多模态大倍数图像超分辨率模型的关键组件。该模型主要包含五个组件：文本和图像编码器、提示预测器、文本图像融合模块（TIFBlock）、迭代细化模块和基于CLIP的鉴别器。

本质上，文本和图像编码器提取文本向量和图像特征，为后续步骤提供基础表示。 TIFBlock 对齐并融合这些特征，实现文本和视觉信息的协调集成。 CLIP-ViT 和提示预测器有效地增强了整个生成过程中的文本指导。迭代细化模块通过多次迭代逐步恢复图像细节并增强局部语义，确保不同模态之间的对齐。最后，基于CLIP的鉴别器全面评估生成图像的保真度、语义质量和一致性。通过利用这五个组件的协同作用，我们的方法即使从严重退化的低分辨率输入（例如，8×或16×下采样）也能生成语义一致且逼真重建的高分辨率图像。

III-B1 文本和图像编码器

我们使用两个不同的编码器来处理输入模态。文本编码器，记为ET，遵循CLIP[22]的架构，并将文本输入T编码为特征向量FT，其中FT=ET⁢(T)，以有效捕获语义信息。对于输入的低分辨率图像IL⁢R，图像编码器EI采用一系列卷积层，将输入逐步转换为8×8特征图FI，其中FI=EI⁢(IL⁢R)。这些编码器允许我们的模型为文本和图像输入生成兼容的特征表示，为它们在网络中的后续融合做好准备。

III-B2 提示预测器

在利用预训练的CLIP-ViT将图像特征与相应的文本向量对齐之前，我们引入了一个受VPT[20]和GALIP[21]启发的提示预测器。提示预测器，记作P，包含一个全连接 (FC) 层和一个自注意力层，充当文本驱动的注意力机制。它预测文本条件提示FT′=P⁢(FT)，这些提示被附加到 CLIP-ViT 中的视觉块嵌入中。此设计使生成的图像能够更有效地捕捉输入文本的语义内容，同时保持与 CLIP-ViT 模型编码的视觉信息的一致性。

提示预测器利用文本编码器的输出选择性地关注显着的文本元素，然后将其与视觉特征融合。此集成使生成器能够更准确地解释文本并将其转换为详细、连贯的视觉表示，从而提高文本描述和生成图像在内容和质量上的匹配度。

III-B3 文本图像融合块 (TIFBlock)

为了进一步增强文本信息对图像的影响，我们引入了一个文本图像融合块 (TIFBlock)，它将文本语义作为补充特征源进行整合。如图3(b) 所示，TIFBlock在其文本融合模块中包含一个仿射变换。遵循 DF-GAN [44] 的设计原则，我们在每个仿射层之后引入一个 ReLU 层，通过引入非线性关系来增加文本融合图像的多样性。此外，为了提高模型对文本描述的理解能力，我们在将文本特征传递到仿射层之前，应用 Softmax 函数对其进行重新加权。这种重新加权策略允许更平滑、更可靠地整合文本和图像领域。

TIFBlock 的过程首先将 LR 图像IL⁢R馈送到图像编码器网络EI，提取图像特征FI。同时，文本通过预训练的 CLIP 编码器ET进行编码，生成文本向量FT。然后使用 Softmax 函数对文本特征进行重新加权，然后再将其传递到仿射变换层。在这一层中，重新加权的文本向量通过两个连续的多层感知器 (MLP) 进行处理，生成逐通道缩放参数γ^=M⁢L⁢P1⁢(S⁢o⁢f⁢t⁢m⁢a⁢x⁢(FT))和逐通道偏移参数β^=M⁢L⁢P2⁢(S⁢o⁢f⁢t⁢m⁢a⁢x⁢(FT))。仿射变换随后自适应地调整视觉特征F^In的通道特征。仿射变换定义如下：

其中A⁢F⁢F表示仿射变换，F^In表示视觉特征图F^I的第n个通道，FT表示文本向量，而γn和βn是可学习的缩放和偏移参数。此机制使模型能够动态调整对文本上下文的特征响应，从而实现更准确和更有意义的比对。

TIFBlock通过仿射变换融合模态，执行文本和图像特征的初始比对和整合，确保语义一致性和准确的特征组合。然后，这些融合的多模态特征被传递到迭代细化模块，该模块通过多次迭代逐步细化局部细节并增强语义一致性，从而逐步提高图像质量。迭代过程基于TIFBlock提供的融合特征，使模型能够生成具有更高分辨率和逼真纹理的输出。 TIFBlock共同建立了模态的基础比对，而迭代细化模块则逐步优化和恢复图像细节。

III-B4 迭代细化模块

为了确保生成的图像与给定文本紧密匹配，我们使用残差结构迭代细化从CLIP-ViT导出的图像特征，使用文本向量引导融合文本图像特征。最初，提示预测器利用文本编码器的输出弥合文本和图像模态之间的语义差距。随后，低分辨率图像特征FI与文本向量FT在TIFBlock中结合，以进一步比对图像和文本特征。然后，采用CLIP-ViT来协调图像和文本之间任何不一致之处，确保最终图像特征与两种模态中存在的知识相匹配。最后，提示预测器、TIFBlock和CLIP-ViT的输出通过残差结构迭代合并，以生成与提供的文本语义一致的高分辨率图像。

在整个流程中，我们在三个关键阶段利用文本信息。首先，我们采用一个简单的卷积神经网络从低分辨率图像中提取特征，并使用TIFBlock将其与文本信息整合。这种整合确保组合特征既包含详细的视觉线索，也包含语义信息，从而能够精确地引导CLIP-ViT网络中的信息流。接下来，文本注意力机制处理文本特征以解决文本和图像模态之间的固有差异，从而促进有效的跨模态对齐。此外，文本信息作为提示预测器的输入，馈入CLIP-ViT模型，进一步增强了视觉和语义特征的融合。最后，在从CLIP-ViT获得预备图像特征后，迭代细化模块通过迭代地将其与文本语义融合并通过额外的上采样模块G放大图像，逐步恢复详细的图像信息。

III-B5 基于CLIP的判别器

我们利用GALIP[21]提出的基于CLIP的判别器，它从复杂的图像中提取更多信息丰富的视觉特征，使判别器能够更有效地识别不真实的图像区域。这反过来又促使生成器生成更真实的图像。判别器的结构通过将额外的视觉信息整合到CLIP框架中，展现了对复杂场景的深刻理解，使其特别适合作为判别器的角色。特别是，基于CLIP的判别器旨在结合CLIP[22]的语言图像预训练，并进行了增强以提高其评估生成图像质量的有效性。

在训练期间，判别器的目标是区分生成的图像和真实图像。 CLIP模型在对齐不同模态的文本和图像方面具有优越的性能，这使得基于CLIP的判别器能够对图像内容获得全面而细致的理解，从而有助于在我们的方法中生成更高质量和语义一致的输出。

III-C 优化目标

重构损失。为确保重建图像内容的一致性，我们采用逐像素ℒ1范数，定义如下：

其中ℋ⁢(IL⁢R,T)表示本工作中提出的完整超分辨率网络ℋ生成的输出，FT表示文本描述，IG⁢T表示对应于输入低分辨率图像IL⁢R的高分辨率真值。

感知损失。此外，我们使用感知损失[64]来鼓励生成的超分辨率结果与真实高分辨率图像之间的视觉一致性。感知损失定义如下：

其中ϕi(.) 表示来自预训练感知网络ϕ第i层的特征图。我们采用预训练的VGG-19网络[65]作为我们的ϕ，并选择五个激活层来计算感知损失。超参数σi调节第i层对公式3中总损失项的贡献。

文本约束对抗损失。为了约束文本的语义信息，我们使用了文本约束对抗损失[21]。这里，IL⁢R表示给定的低分辨率图像，FT是从对应的文本输入中提取的文本向量。低分辨率图像IL⁢R和文本向量FT都被输入到超分辨率网络ℋ中，得到输出ℋ⁢(IL⁢R,T)。令C和𝒱分别表示基于CLIP的判别器中冻结的CLIP-ViT模型和图像特征提取器模型。 Sim(.,.) 表示生成的HR图像ℋ⁢(IL⁢R,FT)和文本向量FT之间的余弦相似度。

文本约束对抗损失定义如下：

其中α是一个控制文本-图像相似度权重的超参数，而ℙg表示合成数据分布。

总损失。考虑所有上述损失函数，总目标函数公式如下：

其中超参数λa⁢d⁢v控制对抗损失ℒa⁢d⁢v的权重。

IV实验

IV-A 实现细节

数据集。我们在COCO [66]、Birds200 (CUB) [67]和CelebA [68]数据集上评估我们的方法，每个数据集都包含成对的图像和文本描述，如表I所示。为了训练，所有图像都被裁剪到256×256分辨率，低分辨率图像通过对高分辨率图像进行双三次下采样生成。使用的CLIP-ViT主干网络是ViT-B/32模型。

表 I：数据集统计。 Text/Image表示对应于每张图像的单词数量。

Dataset	CUB		CelebA		COCO
Dataset	train	test	train	test	train	test
Images	8,855	2,933	24,000	6,000	82,783	40,470
Text/Image	10	10	10	10	5	5

设置。我们使用Adam优化器在NVIDIA RTX A5000上训练所提出的方法，参数β1=0.0和β2=0.9，训练迭代次数为220轮。超参数λa⁢d⁢v设置为0.01。同时，遵循GALIP[21]中的设置，我们将α设置为4。由于TGSR[17]的官方代码不可用，我们使用TGSR^#来表示基于TGSR论文中提供的视觉示例和定量指标复现的结果，以便与其他方法进行比较。

IV-B 定量评估

为了定量评估不同方法生成的超分辨率图像的质量，我们使用了两个主要的评价指标：NIQE（自然图像质量评估器）[69]和PI（感知指数）[70]。 NIQE评估超分辨率图像的整体质量，分数越低表示图像越自然逼真。另一方面，PI衡量图像的感知质量，PI值越低，视觉质量越好。在我们的实验中（表III除外），我们特别选择了NIQE和PI，而不是像PSNR和SSIM这样的传统指标，因为后者更关注图像失真，而忽略了客观质量和感知体验。在超分辨率的背景下，NIQE和PI更符合评估图像的真实性和自然性，使其更适合这项任务。

表II展示了我们在CUB和COCO数据集上的实验结果。对于较小的CUB数据集，我们将NIQE和PI分数与几种最先进的超分辨率方法进行了比较，包括EDSR [1]、ESRGAN [2]、SPSR [12]和TGSR^# [17]。我们的方法获得了第二好的NIQE分数，紧随ESRGAN之后，同时在PI方面优于Bicubic插值和EDSR。在更大的COCO数据集上，我们的方法在NIQE和PI方面都显著优于所有比较方法，展现了其优越的泛化能力。其他方法在COCO数据集上的性能下降进一步突显了我们方法的鲁棒性和多功能性。

表二：我们方法与对比方法在 CUB 和 COCO 数据集上的定量比较。符号↓表示度量值越低越好。

Dataset	Metrics	Bicubic	EDSR[1]	ESRGAN[2]	SPSR[12]	TGSR^#[17]	Ours
CUB	NIQE ↓	12.374	10.684	5.465	5.885	6.623	5.825
CUB	PI ↓	9.747	8.168	2.644	3.345	2.560	4.167
COCO	NIQE ↓	11.110	9.683	6.816	6.378	6.484	4.706
COCO	PI ↓	9.373	8.515	7.135	6.060	4.922	3.610

表三： CelebA 数据集上的定量比较。

Metrics	Bicubic	SuperFAN [9]	DICGAN [18]	TGSR^# [17]	Ours
PSNR ↑	25.81	28.908	33.61	23.48	28.974
SSIM ↑	0.844	0.815	0.895	0.766	0.808
NIQE ↓	14.514	6.459	5.755	8.846	5.172
PI ↓	9.676	5.345	5.5986	7.165	4.476

表III提供了 CelebA 数据集上 PSNR、SSIM、NIQE 和 PI 指标的定量比较。我们将我们的方法与几种基线方法进行了评估，包括双三次插值、SuperFAN [9]、DICGAN [18] 和 TGSR^# [17]。结果表明，该方法在所有指标上都取得了具有竞争力的性能。具体来说，与仅依赖单模态输入的双三次插值、SuperFAN 和 DICGAN 相比，我们的方法结合了补充的文本信息以实现跨模态语义对齐，从而实现了优越的超分辨率性能。此外，与同样利用文本指导的 TGSR^# 相比，我们的多模态协同语义增强机制生成的图像不仅具有语义一致性，而且视觉效果逼真。总之，我们的方法在三个数据集上始终提供具有竞争力的结果，突显了其在图像超分辨率任务中的有效性。

IV-C 定性评估

为了进一步验证该方法的有效性，我们进行了额外的定性实验。具体来说，我们将原始框架中预训练的 CLIP-ViT 模型替换为 BLIP-2 [71]，将 CLIP 的文本编码器替换为 BERT [72]。然后，我们在 CUB 数据集上重新训练网络，将重新训练后获得的视觉结果表示为O⁢u⁢r⁢s∗。如图4所示，实验结果表明，即使进行此修改，我们的方法也能获得令人满意的视觉效果。这些发现进一步证实，所提出的多模态协作框架能够持续生成具有清晰细节和强大语义一致性的高质量超分辨率图像。

图4：与TGSR[17]方法的视觉比较。值得注意的是，#表示原始论文报告的结果。 ∗表示我们使用语言图像预训练模型BLIP-2和文本编码器BERT的方法的结果。所提出的方法与各种预训练的多模态模型兼容。 (放大以获得最佳视图)

同时，我们进行了一个额外的超分辨率(SR)实验，将低分辨率图像从64×64上采样到256×256。如图5所示，我们的方法以及比较方法SuperFAN[9]和DICGAN[18]生成了具有良好视觉质量的超分辨率图像。然而，SuperFAN和DICGAN的输出显示出明显的伪影，而我们的方法产生的结果明显更平滑，视觉效果更好。这些发现表明，我们的方法通过利用补充文本信息实现有效的跨模态语义对齐，在超分辨率任务中优于单模态方法。

图5：在CelebA数据集上，4×超分辨率结果与两种最先进的人脸超分辨率方法i.e.，DICGAN[18]和SuperFAN[9]以及我们的方法的视觉比较。

此外，图6展示了CelebA数据集上16×超分辨率的定性结果。可视化结果显示，CRAFT[19]通常会产生过度平滑的图像，限制了其恢复精细细节的能力。相反，我们的方法在256×256实现了超分辨率，证明其能够满足两个主要目标：（1）恢复原始图像大部分语义信息；（2）保持超分辨率输出与原始低分辨率输入之间的高度一致性。

图6：在CelebA数据集上，16×超分辨率结果与CRAFT[19]及我们方法的视觉比较。

IV-D 消融研究及进一步讨论

为了评估我们提出的方法中每个组件的有效性，我们在CUB数据集上进行了消融研究。我们考虑了四个变体：（1）用于单图像超分辨率的基线U-Net，其中ℒt⁢o⁢t⁢a⁢l=ℒr⁢e⁢c+ℒp⁢e⁢r；（2）变体1，增加了文本监督，包含我们提出的多模态融合架构（TIFBlock和迭代细化模块），其中ℒt⁢o⁢t⁢a⁢l=ℒr⁢e⁢c+ℒp⁢e⁢r；（3）变体2，使用预训练的CLIP-ViT模型，其中ℒt⁢o⁢t⁢a⁢l=ℒr⁢e⁢c+ℒp⁢e⁢r；（4）变体2，使用基于CLIP的判别器，其中ℒt⁢o⁢t⁢a⁢l=ℒr⁢e⁢c+ℒp⁢e⁢r+λa⁢d⁢v⁢ℒa⁢d⁢v。

如表IV所示，我们的实验结果证明了结合文本信息提高模型性能的有效性。不同配置之间的比较揭示了图像细节恢复和语义一致性方面的显著改进。这些结果表明，我们提出的文本图像融合块（TIFBlock）和迭代增强模块有效地对齐了文本和视觉特征，为生成语义一致且逼真的高分辨率图像提供了重要的语义指导。

表IV：我们方法不同组件在CUB数据集上的定量结果比较。

Variants	U-Net	Text	CLIP-ViT	ℒa⁢d⁢v	NIQE ↓
1	✓	✗	✗	✗	7.920
2	✓	✓	✗	✗	7.905
3	✓	✓	✓	✗	7.831
4	✓	✓	✗	✓	6.336
Ours	✓	✓	✓	✓	5.825

IV-E 低分辨率到超分辨率能力分析

为了评估我们方法的文本到图像超分辨率能力，我们针对最先进的模型进行了比较实验。如图7所示，我们将我们的方法与两种领先的条件生成模型Stable Diffusion[54]和ControlNet[56]进行了比较，这两种模型都利用低分辨率32×32图像及其相应的文本描述。结果表明，这些模型在生成的图像中引入了一些不需要的修改，偏离了原始的视觉信息。相反，我们的方法始终生成更清晰、更详细的输出。这种优越的性能突显了我们的方法在保持语义完整性和细粒度像素精度方面的鲁棒性，强调了其在生成高质量、与文本对齐的图像方面优于竞争方法的优势。

图7：文本到图像超分辨率任务的视觉比较。我们使用尺寸为32×32的更低分辨率图像测试网络。从图像中可以看出，Stable Diffusion [54] 和 ControlNet [56] 已经无法保持与低分辨率图像的一致性。

IV-F 低分辨率到超分辨率转换的可编辑性分析

为了评估我们的模型在低分辨率到高分辨率转换中的可编辑性，我们选择了一个CUB测试图像子集进行处理，如图8所示。特别地，图8 (b) 说明了鸟类在后颈、头顶和腹部区域的颜色调整。鉴于低分辨率输入的局限性，网络强调像素级精度而非高级语义细节，这从鸟头周围略微模糊的黑色区域可以看出。尽管存在这些限制，我们的方法仍然成功地修改了腹部区域的翅膀颜色。当给出文本提示“黄色”时，如图8 (c)所示，网络有效地改变了翅膀的颜色， resulting hues varying across outputs. (resulting hues varying across outputs. 这一句翻译成中文略显冗余，可以根据上下文语境灵活处理，比如： resulting hues 产生的色调在不同输出中有所差异。)

图8：我们方法在不同文本提示下生成结果的可视化。我们的方法证明了生成多样化且语义一致的结果的能力。

IV-G 多模态融合有效性及迭代层数分析

为评估多模态融合模块的有效性和不同迭代融合层数的影响，我们分析了多模态融合模块内各层级的热图输出。如图9所示，每个文本输入都与相应的低分辨率图像配对。图9(a)展示了初始文本融合层的输出，其中网络首先生成与鸟类大致对齐的图像。在后续层中，注意力逐渐细化：如图9(b)所示，焦点转移到鸟的颈部和身体，而在图9(c)和(d)中的进一步迭代则逐步增强更精细的细节，包括鸟的脚和跗跖。这些发现经验证实了我们的迭代细化模块的有效性，表明四次迭代足以实现高质量、语义一致的文本到图像超分辨率结果。

图9：超分辨率过程中低分辨率图像热图的可视化。子图(a)、(b)、(c)和(d)分别对应于迭代细化模块中第一、第二、第三和第四层的文本融合结果。

图10：我们方法在不同文本提示下生成结果的可视化。给定一个低分辨率输入图像(a)，我们的方法会根据两个不同的文本描述生成超分辨率图像：(b)和(c)。虽然我们的方法展示了令人印象深刻的结果，但由于自然语言语义的固有模糊性，生成的图像中某些细节可能存在偏差。

IV-H局限性

尽管所提出的方法在文本到图像超分辨率任务中表现出优越性，但某些局限性值得未来研究考虑。 CLIP-ViT-B/32模型有效地利用文本信息来提高图像质量，尤其是在语义引导的超分辨率领域。它有效地弥合了文本数据和视觉数据之间的差距，能够精确控制高清图像的生成。然而，尽管具有这些优势，该模型有时可能会误解模糊的描述。例如，如图10(a)所示，当指令生成一张鸟类戴着“皇冠”的图像时，模型可能会错误地将“皇冠”解释为皇家王冠，而不是鸟类的羽冠。这种误解强调了提示中使用精确语言的必要性。如图10(b)所示，去除“皇冠”一词并提供更具体的上下文通常会产生所需的图像。未来的研究可以集中在增强模型消除同音词歧义和更深入地理解上下文语义的能力上。

V结论

在本文中，我们提出了一种用于大倍数图像超分辨率(SR)的新型多模态语义一致性方法。我们的方法能够从严重退化的低分辨率输入中生成语义一致且视觉逼真的高分辨率图像。我们方法的核心是文本-图像融合块(TIFBlock)，它与预训练的跨模态模型战略性地集成，形成一个迭代式多模态协同融合架构。该框架能够逐步恢复图像细节，同时增强局部语义信息。全面的对比实验和消融研究验证了我们SR方法的有效性，证明了在生成的高分辨率图像的质量和真实感方面都有显著改进。然而，尽管取得了这些进展，当处理模糊的文本描述时，我们的方法会遇到某些挑战，这可能会影响生成图像的精度。在未来的研究中，我们旨在通过识别并过滤掉歧义术语（在文本输入模型处理它们之前）来解决这一限制。这种改进将确保模型接收清晰明确的指令，从而提高生成输出的整体质量和一致性。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。