点击下方“计算机书童”卡片,每天获取顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
A Task-Guided, Implicitly-Searched and Meta-Initialized Deep Model for Image Fusion题目:一种任务引导、隐式搜索和元初始化的图像融合深度模型
作者:Risheng Liu; Zhu Liu; Jinyuan Liu; Xin Fan; Zhongxuan Luo
摘要
图像融合在多种基于多传感器的视觉系统中起着关键作用,特别是在增强视觉质量或提取感知的聚合特征方面。然而,大多数现有方法仅将图像融合视为一个独立任务,从而忽略了其与下游视觉问题的潜在关系。此外,设计合适的融合架构通常需要巨大的工程劳动,并且缺乏提高当前融合方法灵活性和泛化能力的机制。为了缓解这些问题,我们建立了一个任务引导的、隐式搜索的和元初始化的(TIM)深度模型,以解决现实世界场景中图像融合的挑战。具体来说,我们首先提出了一种受限策略,将下游任务的信息纳入以指导图像融合的无监督学习过程。在此框架内,我们随后设计了一种隐式搜索方案,以高效率自动发现我们的融合模型的紧凑架构。此外,引入了一种预文本元初始化技术,利用发散融合数据支持不同种类的图像融合任务的快速适应。在不同类别的图像融合问题和相关下游任务(例如,视觉增强和语义理解)上的定性和定量实验结果证实了我们TIM的灵活性和有效性。
关键词
图像融合
隐式架构搜索
预文本元初始化
任务引导
视觉感知
I. 引言
图像融合是视觉感知的基本技术,促进了广泛的视觉应用,例如,视觉增强[1]、[2]、[3]、[4]和语义理解[5]、[6]、[7]、[8]。在过去的几年中,深度学习技术不断激发图像融合方法,实现了最先进的性能。不幸的是,这些方法的三个方面可以改进。(i)它们中的大多数专注于提升融合图像的视觉效果,而不是考虑下游视觉任务,为场景理解应用设置了障碍。(ii)当前的融合方法设计手工架构,通过增加深度或宽度,依赖于冗长的专门调整;因此,它们不可避免地导致耗时的结构工程。(iii)这些方法使用特定训练数据进行学习,无法获得各种融合场景的泛化能力。在这部分中,我们首先简要讨论基于学习的融合方法的主要缺点,然后提出我们的核心贡献。
A. 我们的贡献
针对将与任务相关的指导纳入图像融合学习的目标,我们建立了一种受限策略,以模拟与下游任务结合的图像融合,以打破大多数融合方法忽略视觉任务信息的瓶颈。 就架构构建而言,我们提出了一种隐式搜索策略,以高效率自动发现具有高效率的融合模型,避免了主流设计方法的冗长调整和巨大的结构工程。 就参数训练而言,我们开发了预文本元初始化策略,以学习不同融合数据中的内在特征提取,从而使融合模型具备实现对各种场景的快速适应的能力,仅使用少量数据。 我们成功地将我们的融合方法应用于各种下游视觉感知任务。在增强和语义理解任务上的目标和主观比较以及充分的评估证明了我们的优越性和所提机制的有效性。
III. 提出的方法
A. 带有任务指导的图像融合
B. 隐式架构搜索
C. 预文本元初始化
IV. 应用
A. 实现细节
B. 视觉增强的图像融合
C. 语义理解的图像融合
目标检测:在本文中,我们使用RetinaNet[51]作为基线方案。最近,一系列基于NAS的目标检测方案[52]、[53]、[54]被提出来发现颈部部分,包括从自上而下和自下而上的角度搜索连接模式,或用于多尺度特征融合的操作。遵循自下而上的原则,我们使用特征蒸馏单元逐步融合特征。具体来说,关注来自背骨的两个具有不同尺度的特征,我们首先调整具有较低分辨率的特征的大小,并将它们连接到单元的三个级别,单元包含四个节点。我们使用焦点损失来定义以解决类别不平衡问题,设置为0.5。我们引入了Takumi等人提出的MultiSpectral数据集[6]进行实验。该数据集由RGB、FIR、MIR和NIR相机捕获。由于低分辨率(256 × 256)和模糊成像,我们重新划分并过滤了数据集。具体来说,我们选择了2550对用于训练和250对用于测试。该数据集包含五个类别的对象,包括彩色圆锥、汽车停止、汽车、人和自行车。为了施加检测原则,我们采用了广泛使用的RetinaNet[55]作为比较基线。主要改进来自通过自动搜索和预文本元初始化重新设计的FPN。使用MultiSpectral数据集并将NF插入,我们从头开始逐步搜索整个架构。更具体地说,批量大小、架构学习率和搜索周期分别设置为1、和120。为了快速收敛,我们首先训练融合模块40个周期以获得良好的初始化。至于训练过程,我们在160000步内训练整个架构,并将学习率设置为并用余弦退火延迟到。 语义分割:对于语义分割,我们引入了ResNet18作为编码器进行特征提取。与现有的RGB-T分割方案[56]相比,这些方案利用两个背骨编码不同模态的特征,我们的分割方案基于嵌套公式与图像融合的轻量级设计。对于解码器部分,我们使用类似的融合策略来整合来自高低级特征图的特征。我们首先使用残差上采样机制将低分辨率特征调整为与高级特征一样大,具有相同数量的通道。然后我们将它们连接起来作为输入。单元的输出使用了残差连接。类似地,我们还使用了三个级别的特征,并提出了两个单元来融合它们。每个单元有两个节点。最后,从大小的估计图生成。
V. 实验结果
A. 视觉增强的图像融合
红外-可见光图像融合:我们与十种基于学习的最先进竞争对手进行了比较,包括DDcGAN[17]、RFN[57]、DenseFuse[9]、FGAN[16]、DID[11]、MFEIF[25]、SMOA[24]、TARDAL[1]、SDNet[13]和U2Fusion[14]、IRFS[38]和LRRNet[35]。我们最终搜索架构的外部结构是CMS和CSC用于融合,CSC和CSC用于增强。内部操作是3-RB、3-DC、3-DB、3-DC、SA、3-DC、CA和SA。
带配准的图像融合:在现实世界中,由于不同的成像流程和复杂环境(例如,温度变化和机械应力),获得高度精确对齐的多光谱图像是具有挑战性的。源图像的错位很容易产生带有伪影和幽灵的融合结果[63]。我们的方法可以有效解决基于灵活公式的错位图像融合。考虑到图像融合约束(2)连接视觉任务,我们引入了另一个约束来对齐源图像,可以写为。我们称未对齐的图像为,配准模块为。通过有效的嵌套公式,我们可以引入预训练的MRRN方案[64]作为,以构建更通用的图像融合。为了验证我们方案的鲁棒性和灵活性,我们首先使用仿射和弹性变换的随机变形场合成损坏的红外图像。随后,利用跨模态风格迁移,我们将这些红外图像映射到可见光图像的分布中。然后我们使用初始化的参数以监督方式共同学习更鲁棒的融合方案。数值和视觉结果分别在表III和图5中报告。其他融合方案基于VoxelMorph[65]配准的图像对。由于红外图像中的畸变损坏不能被精确恢复,像AUIF和SDNet这样的最新算法仍然包含明显的幽灵,如图5的第一行所示。我们可以得出结论,我们的方法可以在未对齐的多光谱图像中有效地保持可见细节和足够的热信息。 扩展到医学图像融合:由于灵活的公式,我们可以将我们的方法扩展到解决其他具有挑战性的融合任务,例如医学图像融合。包括MRI、CT、PET和SPECT在内的四种典型图像,提供了对生理系统的多样化结构和功能感知。利用哈佛数据集,我们采用了前述的搜索方案和配置,为三个任务发现了合适的架构。MRI-CT融合的层次结构(即,NT)由5-RB、5-RB、5-RB和SA操作组成。MRI-PET融合的操作包括3-SC、3-RB、3-RB和5-RB。此外,5-RB、3-DB、3-RB和SA构成了MRI-SPECT融合的架构。在这部分中,我们与六种方案进行了视觉和数值比较,包括U2Fusion[14]、SDNet[13]、IFCNN[59]、DTCWT[60]、NSCT[61]和PAPCNN[62]。
B. 语义理解的图像融合
目标检测。定量比较:如表IV所示,我们报告了在Multi-Spectral数据集上目标检测的定性结果。我们展示了基于单个输入使用RetinaNet[55]单独检测的结果,这些输入由融合网络生成。RetinaNet是基于简单平均原理的融合图像训练的。我们的框架在与基于融合的方法和单模态图像相比时显示出显著的改进。更具体地说,现有的检测方案在可见光图像数据集上建立训练和测试。显然,网络在可见光图像的训练下有效地检测可见光显著的对象。相比之下,红外成像包含热信息,这有利于检测汽车发动机和人体。然而,这种模态对其他弱热对象(如自行车和彩色圆锥)不敏感。与基于融合的方法相比,我们的方法充分整合了互补优势,在人、汽车和停止方面实现了最佳的精确度。
语义分割。定量比较:我们利用搜索到的语义分割网络测试了十种融合方法,并在表V中提供了详细结果,这些结果通过平均交并比(mIoU)和平均准确度(mACC)来衡量。从表中可以看出,我们设计的通用方案在所有八个类别中都实现了最高的数值性能。此外,预先训练的融合方案,这些方案具有视觉愉悦的结果或专注于统计度量,与显著的分割性能并不一致。与面向感知的融合相比,我们的策略仍然有显著的提升。这也证明了我们的目标不仅是确保补充信息融合,而且也协助提高语义分割的性能已经统一实现。
C. 消融研究
VI. 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编