TPAMI 2024 | 一种任务引导、隐式搜索和元初始化的图像融合深度模型

文摘 2024-10-17 19:00 辽宁

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

A Task-Guided, Implicitly-Searched and Meta-Initialized Deep Model for Image Fusion

题目：一种任务引导、隐式搜索和元初始化的图像融合深度模型

作者：Risheng Liu; Zhu Liu; Jinyuan Liu; Xin Fan; Zhongxuan Luo

摘要

图像融合在多种基于多传感器的视觉系统中起着关键作用，特别是在增强视觉质量或提取感知的聚合特征方面。然而，大多数现有方法仅将图像融合视为一个独立任务，从而忽略了其与下游视觉问题的潜在关系。此外，设计合适的融合架构通常需要巨大的工程劳动，并且缺乏提高当前融合方法灵活性和泛化能力的机制。为了缓解这些问题，我们建立了一个任务引导的、隐式搜索的和元初始化的（TIM）深度模型，以解决现实世界场景中图像融合的挑战。具体来说，我们首先提出了一种受限策略，将下游任务的信息纳入以指导图像融合的无监督学习过程。在此框架内，我们随后设计了一种隐式搜索方案，以高效率自动发现我们的融合模型的紧凑架构。此外，引入了一种预文本元初始化技术，利用发散融合数据支持不同种类的图像融合任务的快速适应。在不同类别的图像融合问题和相关下游任务（例如，视觉增强和语义理解）上的定性和定量实验结果证实了我们TIM的灵活性和有效性。

关键词

图像融合
隐式架构搜索
预文本元初始化
任务引导
视觉感知

I. 引言

图像融合是视觉感知的基本技术，促进了广泛的视觉应用，例如，视觉增强[1]、[2]、[3]、[4]和语义理解[5]、[6]、[7]、[8]。在过去的几年中，深度学习技术不断激发图像融合方法，实现了最先进的性能。不幸的是，这些方法的三个方面可以改进。（i）它们中的大多数专注于提升融合图像的视觉效果，而不是考虑下游视觉任务，为场景理解应用设置了障碍。（ii）当前的融合方法设计手工架构，通过增加深度或宽度，依赖于冗长的专门调整；因此，它们不可避免地导致耗时的结构工程。（iii）这些方法使用特定训练数据进行学习，无法获得各种融合场景的泛化能力。在这部分中，我们首先简要讨论基于学习的融合方法的主要缺点，然后提出我们的核心贡献。

首先，现有方法大多单独关注图像融合，很少考虑与融合的下游视觉任务的潜在关系。基于学习的融合方法包括传统框架和端到端学习。具体来说，第一类融合首先使用可学习的自动编码器提取特征，并利用传统融合规则（例如，范数[9]、加权平均[10]和最大选择[11]）来融合不同模态的特征。融合图像由相应的解码器重建。这些手工制作的融合规则实际上实现了简单的信息聚合。这些方法受到手工制作策略的限制，无法实现自适应模态特征保留。另一方面，端到端学习方案已被提出，通过多功能架构[12]、[13]、[14]、[15]或生成对抗网络[1]、[16]、[17]直接融合不同的模态。现有的融合方案大多关注通过统计测量（例如，模态梯度[13]和图像质量评估[12]、[18]）监督的融合质量的改进，其中这些统计测量提供了融合图像包含的信息与模态图像一样接近的指导。值得一提的是，如果没有全面的建模，现有的融合方法很容易忽略对底层视觉任务有代表性特征的建模，并恶化它们的表现。

其次，当前的方法，无论是插入可学习模块还是端到端学习，都广泛依赖于手工设计的架构。然而，手工设计很容易引起特征冗余，导致生成边缘伪影，并且无法充分利用模态信息的不同特征。此外，设计高性能架构需要巨大的劳动和丰富的手工设计经验。例如，对于插入可学习模块，密集块[9]、多尺度模块[2]、空间注意力[19]和特征分解[11]被用来串行深度以提取模态特征。对于端到端学习，密集连接[1]、[12]、[14]、[20]和残差模块[13]、[21]被提出来共同聚合模态特征。与此同时，很少有工作利用可微架构搜索[22]来发现适合图像融合的合适架构[23]、[24]。尽管这些方法取得了显著的性能，但主流搜索策略总是针对大规模数据集，牺牲了准确的梯度估计。这将导致小规模融合数据下的不稳定架构搜索过程，部分损害了融合的最终性能。

第三，大多数融合方法都是针对特定训练数据进行训练的。不幸的是，由于不同融合任务的分布差异显著，这些方法无法获得快速适应能力和灵活地将这些解决方案转移到其他融合场景。具体来说，插入可学习模块的方案[9]、[25]、[26]是使用大型数据集（例如，MS-COCO[27]）进行训练的，以便充分学习编码和重建特征的能力。然而，由于数据分布的差异，这些方法无法有效地从多模态图像中提取显著和典型的信息。至于端到端学习，实际上存在一种有效的实践来研究不同融合任务中的内在特征代表性。尽管一些方法引入了多功能架构[13]、[14]，但特征学习仍然基于特定数据。

A. 我们的贡献

为了部分克服这些关键限制，我们提出了一个任务引导的、隐式搜索的和元初始化的（TIM）图像融合模型。具体来说，我们首先将任务引导的图像融合制定为一种受限策略，以聚合来自下游视觉任务的信息，以协助融合的无监督学习过程。然后，我们不是直接利用可微搜索，而是开发了隐式架构搜索（IAS）来研究具有高效率和稳定性的融合模型的结构。为了获得泛化能力，我们提出了预文本元初始化（PMI），以学习通用特征提取，赋予融合模型快速适应各种融合场景的能力。这项工作的主要内容可以总结为：

针对将与任务相关的指导纳入图像融合学习的目标，我们建立了一种受限策略，以模拟与下游任务结合的图像融合，以打破大多数融合方法忽略视觉任务信息的瓶颈。
就架构构建而言，我们提出了一种隐式搜索策略，以高效率自动发现具有高效率的融合模型，避免了主流设计方法的冗长调整和巨大的结构工程。
就参数训练而言，我们开发了预文本元初始化策略，以学习不同融合数据中的内在特征提取，从而使融合模型具备实现对各种场景的快速适应的能力，仅使用少量数据。
我们成功地将我们的融合方法应用于各种下游视觉感知任务。在增强和语义理解任务上的目标和主观比较以及充分的评估证明了我们的优越性和所提机制的有效性。

III. 提出的方法

本质上，基于主流深度学习的方法对图像融合[1]、[9]、[10]、[13]是执行端到端训练与网络，以便直接建立多模态输入和融合图像之间的映射。在这部分中，我们首先提出了一个图像融合网络，它可以被表述为。和分别表示多模态输入和融合图像。引入损失函数的约束，我们可以使用来训练融合网络。1 然而，直接训练融合缺乏考虑后续视觉任务以整合任务优先信息，这不能有效地促进任务性能。因此，我们的目标是利用任务指导来建立面向任务的图像融合。范式的概述如图1所示。

A. 带有任务指导的图像融合

在这部分中，我们从嵌套优化的角度介绍了图像融合中特定于任务的目标[39]、[40]，它将整个框架分解为两部分，包括图像融合网络和视觉任务网络。因此，整体网络和参数被解耦为和。视觉任务的目标是通过生成基于单个融合图像的任务导向输出来实现视觉感知。同样，学习过程可以被定义为。这个框架可以有效地将单模态视觉任务的一般解决方案转移到我们的框架中，这可以组合一个高效的。通过这种方式，我们将视觉任务整合到图像融合过程中，其中图像融合的优化受到信息丰富度损失和特定于任务的维护比例的约束。以任务性能的有效反馈作为融合标准，可以实现面向任务的图像融合。将视觉感知任务和图像融合桥接的整体任务指导目标如图1(a)所示。

约束公式在(1)和(2)中显示。具体来说，对于给定的视觉任务，我们引入标准损失函数来基于单个融合图像训练。同时，我们考虑图像融合过程作为约束，它在(2)中表示，并揭示了基于最优网络参数获得融合图像的过程。直接解决这个嵌套优化是具有挑战性的，由于复杂的耦合公式。具体来说，任务特定目标的梯度可以表述为$$\frac{\partial \ell_T}{\partial \theta_T} = \frac{\partial \ell_T(\theta_T; \theta_T(\theta^_F))}{\partial \theta_T} + G(\theta_T(\theta^_F))$$，其中表示来自图像融合的响应的间接梯度。值得注意的是，我们的目标不是为视觉任务提供更多的融合响应，而是加强图像融合与任务指导。因此，而不是直接使用精确解[41]、[42]、[43]、[44]来解决这个特定于任务的目标，我们简化了一个渐进的分阶段程序，以聚合任务偏好融合。

为了研究图像融合和下游视觉任务之间的关系，一个直接的方法是联合学习。从头开始的联合学习可能会导致难以收敛，没有良好的初始化。因此，我们首先更多地关注解决单个图像融合约束（即，(2)）。具体来说，一个主要障碍是获得有效的架构，它应该对特征提取有效。我们提出了隐式架构搜索（IAS）来发现有效的架构来组合。进一步地，面对视觉任务的不同数据分布，良好的初始化参数可以实现灵活的适应。因此，我们提出了预文本元初始化（PMI），以学习通用参数（记为），以研究任务不可知的融合能力。基于IAS和PMI，我们可以使用梯度下降

来获得基本的融合图像，如图1(a)底部所示。

然后我们将图像融合的约束纳入到视觉任务的优化中，共同优化融合网络和下游任务。复合目标可以写为

，其中是平衡权重。显然，这个公式揭示了的梯度由来自的信息丰富度测量和来自的任务指导组成。值得注意的是，这种学习策略对两个网络都是相互有益的。一方面，图像融合的嵌套优化可以指导视觉任务的学习。另一方面，特定视觉的反向反馈可以促进任务相关信息进入图像融合，最终实现面向任务的学习，如图1(a)中的黄色循环箭头所示。

B. 隐式架构搜索

如图1(a)所示，我们利用架构搜索来发现有效的图像融合架构。目前，有两种流行的设计图像融合架构的方法，即手工设计和通用架构搜索。然而，融合的手工架构大多基于现有机制，受限于繁重的劳动和设计经验。另一方面，主流的可微搜索策略[22]、[23]已经引入了大规模数据集，由于一步近似考虑效率，无法估计准确的梯度。这些方法很容易生成不稳定的架构，特别是对于图像融合的不足数据。因此，我们提出了隐式架构搜索，它可以有效地支持解决(2)的稳定架构过程。

整个程序如图1(b)所示。遵循可微松弛[22]、[24]，我们引入来表示的架构权重。然后我们引入搜索目标来衡量的影响。隐式策略的目标是避免的不充分学习和大量计算，这更适合于无监督融合任务。值得注意的是，我们省略了下标F以简化表示。对于解决过程，通过替换，具体的梯度可以一般写成：

基于下层子问题有一个单一最优解的假设，并参考隐式函数理论，最优参数描述了和$\nabla_{\alpha} \theta(\alpha) = -\nabla^2_{\alpha, \theta} \ell(\alpha; \theta) \nabla^2_{\theta, \theta} \ell(\alpha; \theta)^{-1}]。通过这种方式，我们可以比一般搜索策略获得更精确的梯度估计，避免一次更新的不足。受高斯-牛顿（GN）方法的启发，我们利用一阶梯度的外积近似二阶梯度。基于最小二乘法，架构梯度的隐式近似可以表述为：

此外，我们讨论了所提方法的优势。首先，此策略基于充分学习网络参数的需求。最优参数可以提供准确的梯度估计。其次，与一般可微搜索相比，由于不需要在每次迭代中更新一次，它具有架构的搜索稳定性。此外，图像融合任务是一个无监督任务，没有大量数据。IAS实际上对这项任务更有效。

然后我们引入具体的搜索目标。我们首先提出一个操作敏感的正则化进入搜索目标，以指示操作的基本属性（例如，计算成本和架构的紧凑性）。例如，可以被视为基于所有操作的延迟的加权求和，用于约束参数体积。我们也可以控制紧凑性，以定义与总的跳跃连接数。因此，搜索目标被表述为：。其中代表平衡融合质量和操作敏感属性的权衡系数。

C. 预文本元初始化

显然，在桥接图像融合的信息聚合和后续视觉任务中起着关键作用。良好的初始化应该揭示内在的融合原理，并作为快速适应的中介。另一方面，应该合并风格化的域信息，以加强对未见融合数据的泛化能力。然而，现有的图像融合方法很少消化内在的融合原理。这些方法为特定融合任务设计了特定的融合规则和模型。更重要的是，融合任务差异很大，具有不同的强度分布。直接在混合融合数据集上预训练是不可行的，这无法充分存储融合任务的元知识，并且没有一致的表示。

因此，如图1(c)所示，我们提出了预文本元初始化策略，以学习快速适应能力，这可以帮助框架快速适应特定的融合任务，以学习与信息融合和下游视觉感知任务相关联的任务导向。我们用表示从不同融合场景中的预文本任务学习到的权重。实际上，我们在(1)和(2)中引入了额外的约束，其定义如下：

其中表示融合任务。

因此，我们构建了一个基于图像融合的视觉优化的预文本元初始化约束。这实际上是另一个基于图像融合约束的优化问题，即(2)，它带来了具有挑战性的计算困难。预文本学习可以捕获图像融合的潜在特征，从而提高其泛化和快速适应能力。

我们提出了一个分层解决程序[45]、[46]、[47]、[48]。我们认为这个解决方案是在图像融合约束的解决方案下。具体来说，我们定义为特征级信息丰富度测量，旨在衡量的泛化能力，遵循[14]。预文本目标(5)的解决过程可以分为两个步骤，即：优化特定融合场景中的和最小化不同场景中的元目标[49]。对于每个场景，我们可以通过几个梯度步骤获得特定的，这可以表述为

。然后我们评估这些特定任务权重的性能，以学习图像融合任务的共同潜在分布和基本融合原理。计算过程为

。这个目标可以反映的泛化能力。我们迭代地执行这两个步骤，直到达到。然后我们将的值分配给并继续解决其他约束(1)。具体细节在算法1中报告。相关消融研究以证明两种策略的有效性在第V-C节中执行。值得一提的是，基于良好的初始化，我们可以使用少量训练数据和小迭代次数实现与直接训练相比显著的结果。

总之，我们为提供了其他两个重要的支持，以建立有效的架构构建原理，并建立预文本元初始化，以学习不同数据中的自适应参数。因此，这些技术有效地支持了图像融合约束的优化，即(2)。我们将完整的方案总结为算法1。值得注意的是，为了简化表示，我们省略了具体的学习率。

IV. 应用

在本节中，我们将详细说明图像融合的实现细节。考虑两个视觉任务，包括视觉增强和语义理解，我们扩展了这些任务的架构设计，并报告了必要的训练细节。

A. 实现细节

在这部分中，我们介绍了图像融合网络的实现细节，包括架构构建和参数训练。

搜索配置：图像融合的搜索空间从[23]中引入，它提供了各种面向图像融合的单元和操作。在[23]中，它提供了单元（即连续单元CSC，分解单元CDC和多尺度融合单元CMS）的详细信息。搜索空间的操作包括通道注意力（CA），空间注意力（SA），扩张卷积（DC），残差块（RB），密集块（DB）和可分离卷积（SC），具有不同核大小（3 × 3和5 × 5）的操作在[23]、[24]中提供。我们将正则化定义为所有操作的GPU延迟的加权求和，旨在获得轻量级高效架构。通过线性求和计算，即

。表示层索引。表示操作的延迟。至于的搜索，我们设置了20和80个周期来优化单元和操作的权重。同时，我们从IVIF和MIF任务中分别收集了200个训练数据，并在每个周期中使用一种特定于任务的数据集进行交替更新。具体来说，我们将整个数据集平均分为网络参数更新和架构优化。在搜索阶段，由两个候选单元组成，每个单元有两个块。使用SGD优化器，初始学习率1e−3，迭代，并执行余弦退火策略，我们搜索了整个架构100个周期。

训练配置：在图像融合的预文本元初始化阶段，我们使用来自多个任务的400对进行优化良好的初始化。具体来说，我们考虑了包括IVIF（例如，TNO，RoadScene）和MIF（例如，MRI，CT，PET和SPECT融合）任务在内的四个融合任务。单任务（步骤9）和多任务更新（步骤11）的学习率分别设置为1e−3和1e−4。对于单任务学习，我们进行了4次梯度更新，使用Adam优化器。此外，我们准备了大量64×64大小的补丁，并生成了相应的显著性图。对于RGB图像，我们将它们转换为YCbCr通道，并采用Y通道进行融合。数据增强，例如，翻转和旋转被利用。所有图像融合的搜索和训练实验都在NVIDIA GeForce GTX 1070 GPU和3.2 GHz Intel Core i7-8700 CPU上执行。

B. 视觉增强的图像融合

设计合适的图像融合方案以充分整合不同的特征是一个重要组成部分。如[23]中所分析，图像融合应保留完整但不一致的信息，即结构目标信息和丰富的纹理细节。因此，我们将这两个目标表述为NT的并行融合结构，以研究这些差异，即目标提取和细节增强。通过引入不同的损失，可以实现原则性目标。最后，通过引入空间注意力和三个3×3卷积，可以获得最终的融合图像，其中空间注意力的目标是生成一个图来融合这些层次化特征。

为了简化训练过程，我们考虑了两种损失，强度损失和SSIM度量。我们使用均方误差（MSE）损失来衡量像素强度的差异。结构相似性，表示为，定义为。因此，整个损失被写为。我们引入两个权重公式来衡量信息保留。一方面，针对在NF模块中提取丰富的特征信息，我们引入估计权重图，由VGG网络的浅层和深层特征计算，遵循[14]。为简化起见，我们将其表示为。

另一方面，专注于特定融合任务的视觉质量，我们引入空间显著性图估计，以权重比例信息基于像素分布。首先，受显著性引导融合规则[24]的启发，我们计算源图像的空间显著图。然后，我们通过softmax函数获得最终估计图，以限制范围在0和1之间。这样，给定两种模态图像，融合图像和显著性引导权重，我们可以获得加权损失函数，即

和

。为简化起见，我们将这种表述表示为，其中。对于NT的并行输出，和被用来约束不同模态之间的相似性，以实现目标提取和细节增强。

利用TNO2和RoadScene[14]中的混合数据集，我们基于搜索到的NF为IVIF搜索了并行融合结构。此外，通过收集来自哈佛网站[3]的150对多模态医学数据，我们可以为MRI-CT、MRI-PET和MRI-SPECT融合任务搜索三个特定任务网络。使用SGD优化器，学习率1e−3和余弦退火策略进行训练，共100个周期。然后插入后续NT，我们共同训练整个网络。此外，我们还详细说明了视觉融合训练策略的增强。我们将学习率设置为1e−4，并引入Adam优化器对红外-可见光和医学融合任务的整个网络进行100个周期的训练。

C. 语义理解的图像融合

基于NF的结果，我们可以通过提出的架构搜索加强两个语义理解任务（即，多光谱目标检测和分割）的多样化NT。需要强调的是，我们的目标不是完全设计整个语义感知网络，而是搜索核心特征表达以提高感知任务的性能。

针对获得有效的特征融合以进行语义感知，我们改进了具有特征蒸馏机制的有向无环图型单元，用于灵活表示，表示为CFD。图单元包含几个节点，其中边缘表示操作的放松。在最后一个节点，该单元通过连接其他节点的特征执行特征蒸馏机制[50]。具体来说，我们利用级联特征蒸馏单元构成模块化特征融合部分（例如，目标检测中的颈部部分和分割中的特征解码），允许无缝更换不同的背骨。考虑到这些高级感知任务的低权重和高效特征表示，我们引入了多种单层卷积来构成搜索空间，包括正常卷积，扩张卷积和扩张率为2，以及带有跳跃连接的残差卷积。

目标检测：在本文中，我们使用RetinaNet[51]作为基线方案。最近，一系列基于NAS的目标检测方案[52]、[53]、[54]被提出来发现颈部部分，包括从自上而下和自下而上的角度搜索连接模式，或用于多尺度特征融合的操作。遵循自下而上的原则，我们使用特征蒸馏单元逐步融合特征。具体来说，关注来自背骨的两个具有不同尺度的特征，我们首先调整具有较低分辨率的特征的大小，并将它们连接到单元的三个级别，单元包含四个节点。我们使用焦点损失来定义以解决类别不平衡问题，设置为0.5。我们引入了Takumi等人提出的MultiSpectral数据集[6]进行实验。该数据集由RGB、FIR、MIR和NIR相机捕获。由于低分辨率（256 × 256）和模糊成像，我们重新划分并过滤了数据集。具体来说，我们选择了2550对用于训练和250对用于测试。该数据集包含五个类别的对象，包括彩色圆锥、汽车停止、汽车、人和自行车。为了施加检测原则，我们采用了广泛使用的RetinaNet[55]作为比较基线。主要改进来自通过自动搜索和预文本元初始化重新设计的FPN。使用MultiSpectral数据集并将NF插入，我们从头开始逐步搜索整个架构。更具体地说，批量大小、架构学习率和搜索周期分别设置为1、和120。为了快速收敛，我们首先训练融合模块40个周期以获得良好的初始化。至于训练过程，我们在160000步内训练整个架构，并将学习率设置为并用余弦退火延迟到。
语义分割：对于语义分割，我们引入了ResNet18作为编码器进行特征提取。与现有的RGB-T分割方案[56]相比，这些方案利用两个背骨编码不同模态的特征，我们的分割方案基于嵌套公式与图像融合的轻量级设计。对于解码器部分，我们使用类似的融合策略来整合来自高低级特征图的特征。我们首先使用残差上采样机制将低分辨率特征调整为与高级特征一样大，具有相同数量的通道。然后我们将它们连接起来作为输入。单元的输出使用了残差连接。类似地，我们还使用了三个级别的特征，并提出了两个单元来融合它们。每个单元有两个节点。最后，从大小的估计图生成。

结合NF和搜索到的分割模块，我们进一步研究了图像融合和语义感知之间的联合学习。对于分割任务，我们利用广泛使用的MFNet数据集，包括1083对用于训练和361对用于测试。该数据集由各种场景（例如，光线不足、眩光、白天）组成，大小为640×480，包含九个类别（即，背景、凸起、彩色圆锥、护栏、曲线、自行车、人和汽车）。将预搜索的NF插入，我们专门搜索分割网络。在和处计算的交叉熵损失被引入作为搜索和训练损失。采用批量大小为2和初始学习率以及数据增强（随机裁剪和旋转），我们搜索解码器部分100个周期。使用SGD优化器，我们将学习率从衰减到，在240个周期内训练网络。

V. 实验结果

在本节中，我们首先在两个类别的应用中执行任务引导的图像融合，包括视觉改进和语义理解。然后我们进行了全面的技术分析，以说明两种机制（即，IAS和PMI）的有效性。

A. 视觉增强的图像融合

在这部分中，我们进行了全面的实验，以证明我们基于客观和主观评估的优越性，包括红外-可见光图像融合（IVIF）。为了验证我们方法的灵活性，我们将方案扩展到解决医学图像融合（MIF）。

红外-可见光图像融合：我们与十种基于学习的最先进竞争对手进行了比较，包括DDcGAN[17]、RFN[57]、DenseFuse[9]、FGAN[16]、DID[11]、MFEIF[25]、SMOA[24]、TARDAL[1]、SDNet[13]和U2Fusion[14]、IRFS[38]和LRRNet[35]。我们最终搜索架构的外部结构是CMS和CSC用于融合，CSC和CSC用于增强。内部操作是3-RB、3-DC、3-DB、3-DC、SA、3-DC、CA和SA。

定性比较：我们在两个代表性数据集TNO和RoadScene上进行客观评估，如图2和图3所示。从直观的视角来看，可以得出三个区别性优势。首先，我们的方案可以突出显示高对比度和清晰的热目标，如图2的第一行和第三行所示。然而，DenseFuse和U2Fusion保留了来自不同模态的丰富纹理特征，而热辐射的显著目标不能很好地保留。其次，所提出的方法有效地保留了可见图像中的丰富纹理和结构信息。如图2的第一行和图3的最后一行所示，我们的结果中的天空、地面材料和墙壁颜色在人类视觉系统中得到了充分的维护，这与人类视觉系统一致。由于红外图像的强像素强度，大多数融合方案都有颜色失真，不能很好地保留丰富的纹理结构。此外，所提出的方案可以有效地去除来自不同模态的伪影，例如热模糊和可见噪声。例如，MFEIF、DID和AUIF方案在图2的第二行和图3的第二行中包含明显的噪声和伪影。相比之下，我们的方案不仅突出了不同的红外目标，而且还保留了纹理细节，实现了全面的结果。

定量比较：我们提供了两个版本的融合方案，以确保视觉质量和快速部署，分别记为TIMw/o L和TIMw/ L。“L”表示延迟约束。TIMw/ L由两个CSC组成，包含3-RB和CA操作。我们使用四个代表性的基于参考的数值指标，包括互信息（MI）、基于图像梯度的特征互信息（FMI）、视觉信息保真度（VIF）和基于边缘的相似性度量（QAB/F）。MI是从信息论中派生出来的度量，它通过计算不同分布之间的相互依赖性来衡量源图像的转换。VIF通过结合四个尺度计算人类视觉感知中的保真度损失，来表示信息保真度。此外，较高的FMI也表明源图像融合了更多的特征信息（例如，图像边缘）。QAB/F用于通过统计方案（即，计算从源图像转换而来的边缘信息量）来衡量纹理细节。我们在表I中报告了数值比较。显然，通用的TIM在IVIF方面取得了最佳性能。此外，与最新的融合方案（即，TARDAL和SDNet）相比，MI和QAB/F的显著改进表明，所提出的TIM在视觉愉悦、独特但互补的信息和丰富的纹理细节方面取得了卓越的性能。此外，TIMw/ L在两个数据集中也获得了可比的性能。另一方面，我们还在表II中比较了这些竞争性融合方案的计算效率，包括参数、FLOPs和推理时间。我们使用大小为448×620的十对图像对TNO进行了这些比较。DenseFuse网络的参数和FLOPs很少，但推理时间受到ℓ1-范数融合规则的限制。类似地，基于融合规则的方案（例如，RFN、MFEIF和SMOA）也获得了与端到端网络相比的次优推理时间。TIMw/ L在两个数据集之间实现了最快的推理时间和最低的FLOPs。与最新的融合方案TARDAL相比，TIMw/ L在TNO上减少了57.23%的参数和57.03%的FLOPs，可以更容易地部署在硬件上以保证实时推理。视觉质量与推理时间之间的综合分析如图4所示。

带配准的图像融合：在现实世界中，由于不同的成像流程和复杂环境（例如，温度变化和机械应力），获得高度精确对齐的多光谱图像是具有挑战性的。源图像的错位很容易产生带有伪影和幽灵的融合结果[63]。我们的方法可以有效解决基于灵活公式的错位图像融合。考虑到图像融合约束(2)连接视觉任务，我们引入了另一个约束来对齐源图像，可以写为。我们称未对齐的图像为，配准模块为。通过有效的嵌套公式，我们可以引入预训练的MRRN方案[64]作为，以构建更通用的图像融合。为了验证我们方案的鲁棒性和灵活性，我们首先使用仿射和弹性变换的随机变形场合成损坏的红外图像。随后，利用跨模态风格迁移，我们将这些红外图像映射到可见光图像的分布中。然后我们使用初始化的参数以监督方式共同学习更鲁棒的融合方案。数值和视觉结果分别在表III和图5中报告。其他融合方案基于VoxelMorph[65]配准的图像对。由于红外图像中的畸变损坏不能被精确恢复，像AUIF和SDNet这样的最新算法仍然包含明显的幽灵，如图5的第一行所示。我们可以得出结论，我们的方法可以在未对齐的多光谱图像中有效地保持可见细节和足够的热信息。
扩展到医学图像融合：由于灵活的公式，我们可以将我们的方法扩展到解决其他具有挑战性的融合任务，例如医学图像融合。包括MRI、CT、PET和SPECT在内的四种典型图像，提供了对生理系统的多样化结构和功能感知。利用哈佛数据集，我们采用了前述的搜索方案和配置，为三个任务发现了合适的架构。MRI-CT融合的层次结构（即，NT）由5-RB、5-RB、5-RB和SA操作组成。MRI-PET融合的操作包括3-SC、3-RB、3-RB和5-RB。此外，5-RB、3-DB、3-RB和SA构成了MRI-SPECT融合的架构。在这部分中，我们与六种方案进行了视觉和数值比较，包括U2Fusion[14]、SDNet[13]、IFCNN[59]、DTCWT[60]、NSCT[61]和PAPCNN[62]。

定性比较：直观地，MRI-PET/SPECT融合的定性结果在图7中显示了各种脑半球横截面。本质上，由于成像设备的限制，PET/SPECT图像的分辨率有限，并且有马赛克退化。MRI提供了丰富的结构细节。这些任务的目标是保持结构细节和功能性颜色表达。所提出的方案可以通过去除PET/SPECT的马赛克来提高视觉质量，如图7的最后一行所示。其他比较方案的融合结果仍然存在马赛克和噪声。此外，SDNet和U2Fusion也无法有效地保持MRI的显著结构或恢复颜色表达。与这些竞争对手相比，所提出的方案抑制了噪声伪影的产生，突出了软组织的有信息结构（例如，边缘），并且没有颜色失真。高对比度的视觉性能展示了全面性。

定量比较：我们还进行了客观评估，以证明我们融合结果的优越性，基于四个数值指标，包括MI、熵（EN）、VIF和差异的相关性之和（SCD）[66]。由于这些医学模态的成像质量多样（例如，马赛克因素），我们使用EN来衡量融合图像中保留的信息量。此外，边缘细节不如可见光图像那样密集，我们使用SCD而不是边缘感知度量（FMIedge和QAB/F）。SCD被用来衡量不同图像之间的相关性。我们在图6中绘制了三个医学图像融合任务的数值性能的箱型图。显然，所提出的方案在所有四个数值指标上都实现了一致的最佳平均值。

B. 语义理解的图像融合

得益于嵌套优化，我们可以促进两个语义理解任务（例如，目标检测和分割）的性能提升，基于图像融合。三个代表性的面向感知的融合方案也被利用进行比较（即，LRRNet[35]、PSFusion[67]和DetFuse[31]）。

目标检测。定量比较：如表IV所示，我们报告了在Multi-Spectral数据集上目标检测的定性结果。我们展示了基于单个输入使用RetinaNet[55]单独检测的结果，这些输入由融合网络生成。RetinaNet是基于简单平均原理的融合图像训练的。我们的框架在与基于融合的方法和单模态图像相比时显示出显著的改进。更具体地说，现有的检测方案在可见光图像数据集上建立训练和测试。显然，网络在可见光图像的训练下有效地检测可见光显著的对象。相比之下，红外成像包含热信息，这有利于检测汽车发动机和人体。然而，这种模态对其他弱热对象（如自行车和彩色圆锥）不敏感。与基于融合的方法相比，我们的方法充分整合了互补优势，在人、汽车和停止方面实现了最佳的精确度。

定性比较：随后，我们在图8中展示了基于图像融合与几种最先进的融合方法相比的目标检测结果。如图8的第一行所示，DDcGAN方案无法保留红外目标的有效边缘信息，未能检测到任何行人。我们的结果保留了清晰的热目标（例如，行人）和丰富的细节。例如，最后一行中的例子是一个具有挑战性的场景，其中的对象在红外或可见光模态下都不显著。我们的检测器可以成功检测到这个对象，展示了优越性。

语义分割。定量比较：我们利用搜索到的语义分割网络测试了十种融合方法，并在表V中提供了详细结果，这些结果通过平均交并比（mIoU）和平均准确度（mACC）来衡量。从表中可以看出，我们设计的通用方案在所有八个类别中都实现了最高的数值性能。此外，预先训练的融合方案，这些方案具有视觉愉悦的结果或专注于统计度量，与显著的分割性能并不一致。与面向感知的融合相比，我们的策略仍然有显著的提升。这也证明了我们的目标不仅是确保补充信息融合，而且也协助提高语义分割的性能已经统一实现。

定性比较：此外，图9展示了与单模态图像和其他竞争性融合方案相比的定性比较。每种模态的结果充分反映了补充特征表达。显然，在其他融合方案中无法正确预测的热敏感对象（例如，行人在光线不足的条件下）不能正确预测。我们的结果可以为目标分类获取足够的红外显著信息。另一方面，我们的方案也保留了良好的纹理细节，以估计其他热不敏感的对象，如图9第一行和第二行所示的凸起和汽车。总之，这三个代表性场景有效地展示了我们与这些先进竞争对手相比的优越结果。

C. 消融研究

为了评估两种提出的技术的有效性，我们进行了相关的消融分析。所有消融实验都基于红外-可见光融合视觉任务。我们首先评估了在提出的搜索方案与主流搜索策略（以DARTS[22]为例）相比的融合性能。然后我们验证了预文本元初始化的重要性。

搜索策略：我们在TNO数据集上通过客观损失（对数形式）和数值结果比较了搜索策略（即，主流搜索DARTS和提出的IAS），如图10所示。如图10(a)所示，我们提出的方案通过准确的梯度估计实现了快速收敛，这可以支持找到更好的架构松弛权重解决方案。在图10(b)中，我们报告了基于DARTS和IAS随机搜索十次的十个架构的性能。我们可以观察到，基于DARTS的架构的性能不一致，无法实现稳定性能。基于IAS的架构不仅实现了更高的数值结果，而且还实现了稳定性能。最终性能的定性和定量结果分别在图11和表VI中报告。通过这些比较，我们可以得出结论，IAS可以实现高性能、效率和稳定性。

显然，所提出的搜索方法发现的网络在这些指标下提高了性能。这也展示了所提出搜索策略的优势。为了公平地比较单一操作符复合架构，我们仅利用NF模块进行实验（使用T进行训练）。我们利用广泛使用的内部操作符设计具有固定外部结构的启发式结构（使用CMS和CSC）。结果如表VII所示。至于操作符的有效性，3-DB在MI指标下获得了最高的数值结果，但推理时间是第二慢的。此外，在硬件延迟和λ = 0.5的约束下，我们的方案平衡了推理时间和性能。为了验证权衡参数λ的有效性，我们还提供了两个不同延迟约束的版本。结果报告在表VIII中。显然，推理时间和参数对λ的调整很敏感。我们可以观察到，随着λ的增加，时间减少了，数值性能也提高了。

元初始化：PMI策略旨在实现快速适应图像融合的泛化参数。我们进行了实验来验证所提出的训练策略的有效性，并讨论了初始化的最优内部更新次数（即，K）（见表IX）。“无初始化”表示直接使用特定数据进行端到端训练的版本。显然，适当的K可以显著提高最终的数值性能。当K=4时，我们可以获得全面的性能，这得益于从多任务和多数据分布中学习到的内在融合特征。特别是，增加内部更新次数并不总能提高性能。从表中可以看出，预文本元初始化可以有效地学习内在的融合特征，从而显著提高图像融合的性能。此外，我们还在图12中绘制了带有PMI的损失和相关融合质量（通过VIF度量）的曲线。我们可以观察到，带有PMI的变体具有更低的验证损失，并且更快地收敛到稳定阶段，与“无PMI”版本相比。另一方面，我们的方案带有PMI，可以快速实现最佳的VIF指标，代表稳健的视觉质量。更重要的是，我们还展示了，即使只使用特定任务的少量训练数据，我们也可以取得显著的数值结果。如图12所示，我们还展示了在不同规模训练数据下带有PMI的显著结果。数据集-L、数据集-M和数据集-S分别为IVIF包括6195、3097和1548对补丁。如图12(b)所示，使用大型数据集的PMI收敛较慢。使用小型数据集的变体无法保持稳定阶段，容易波动。因此，考虑到训练效率和质量，我们选择3097对补丁来训练融合。为了进一步评估初始化的作用，我们将之与直接融合的版本进行了比较。这个版本是使用原始训练策略（仅用）生成融合图像的。在四个任务中的数值比较如表X所示。显然，面向任务的融合可以有效地提高不同任务的性能。我们可以总结，PMI对于视觉效果和语义理解的任务导向融合是有益的。

VI. 结论

在本文中，我们开发了一个通用的任务导向图像融合。基于受限策略，我们实现了灵活的学习范式，以指导图像融合，整合来自下游视觉任务的信息。我们提出了隐式架构搜索策略，以发现敏捷和有效的融合网络。我们还引入了预文本元初始化策略，赋予图像融合在多种融合场景下快速适应的能力。在各种视觉增强和语义理解任务上的定性和定量结果证明了我们的优越性。此外，隐式搜索策略也适用于更多无监督视觉任务的架构构建。作为未来的工作，一个有希望的方向是基于这种受限范式建立多模态视觉框架，从数据配准、增强、融合到感知。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247493537&idx=1&sn=f52998bdc2c737cfec2f681238ff52e3

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文