【论文荐读】UIU-Net: 用于红外小目标检测嵌套U-Net模型

文摘   科技   2024-01-24 08:02   江苏  


标题:UIU-Net: U-Net in U-Net for Infrared Small Object Detection

期刊:IEEE Transactions on Image Processing, 32:364-376, 2023.
作者:Xin Wu, Danfeng Hong , Jocelyn Chanussot
单位:Beijing University of Posts and Telecommunications; Aerospace Information Research Institute, Chinese Academy of Sciences; Aerospace Information Research Institute, Chinese Academy of Sciences.

1、研究背景:

目前红外小目标检测面临多项挑战。首先,传统红外小目标检测方法通常依赖于深度分类网络,这导致小目标的损失增加并限制了特征的区分性。其次,红外图像中小目标常常面临明亮和暗的情况,因此迫切需要提高获取精确对象对比信息的能力。然后,现有红外小目标检测方法对噪声和杂乱背景的敏感性较高,这降低了检测模型的鲁棒性。解决这些问题需要创新性的方法和技术,以提高红外小目标检测的性能和准确性

2、论文创新点:

1、UIU-Net结构:将一个小型 U-Net 嵌套到一个更大的 U-Net 主干网络中。这样的设计允许对目标进行多层次和多尺度的表示学习,有助于克服小目标损失和特征区分性限制;

2、RM-DS模块:引入了分辨率维护深度监督模块(RM-DS),该模块通过将残差U-Net块整合到深度监督网络中,生成深度多尺度分辨率维护特征,并学习全局上下文信息;

3、IC-A模块:引入了交互式交叉注意力模块(IC-A),用于编码低级细节和高级语义特征之间的局部上下文信息,提高对比信息的学习效果;

4、在多个数据集上的验证:通过在两个红外单帧图像数据集(SIRST 和Synthetic 数据集)以及视频序列红外小目标数据集(例如ATR 地面/空中视频序列数据集)上进行广泛实验,证明了UIU-Net相对于其他最先进的红外小目标检测方法的有效性和优越性

3、研究方法:

本文提出了一种简单有效的“U-Net中的U-Net”框架,简称UIU-Net,用于红外图像中的小目标检测。顾名思义,UIU-Net将一个微小的U-Net嵌入到一个较大的U-Net骨干网中,实现对象的多层次、多尺度表征学习。UIU-Net模型主要分为两个模块,即分辨率维持深度监督(RM-DS)模块与交互交叉注意(IC-A)模块。RM-DS通过学习深度多尺度特征来改进全局上下文表示。IC-ARM-DS特征进行编码,以进一步增强本地上下文表示。

图1所示为UIU-Net的结构。本文提出了一种从头开始训练的交互式交叉注意力嵌套U-Net网络,称为U-Net中的U-Net (UIU-Net)。UIU-Net不依赖于经典的分类骨干网,是红外小目标检测的理想选择。此网络从一个分辨率维护深度监督模块开始,该模块学习深度多尺度特征,同时改进全局特征表示。这里的分辨率维护是指在编码器-解码器网络的每个阶段学习到的特征。然后将每个阶段学习到的特征输入到交互交叉注意模块中,交互交叉注意模块对物体的局部特征进行编码,提高红外小物体的识别能力。最后,通过最小化典型的交叉熵损失,对多个中间监督和最后一层进行加权合并。
1 UIU-Net的结构
图2 RM-DS模块中Residual U-block的两种模式

RM-DS(分辨率维护深度监督)模块建立在U-Net的基础上。利用多个中间层而不是仅仅利用最后一层来获得完整和可区分的特征,并使用Dilated convolution(扩张卷积)来提高深层特征分辨率。此外,RSU模块还引入了池化操作来降低计算成本。RM-DS模块解决了特征分辨率和网络深度之间的矛盾,并随着网络深度的增加,可以改善对象的全局上下文表示。

RSU模块是U-Net的一种。与其不同之处在于,首先RSU模块采用中间特征映射而不是输入图像作为输入,学习和编码深度多尺度特征;其次,利用扩张卷积提高每一层的深度特征分辨率。对于浅层,只有最后一次卷积被扩展卷积取代;然而,对于深层,所有卷积都被不同扩张率的扩张卷积所取代,由于深度特征映射的尺寸较小,因此内存消耗较低;此外,为了降低计算成本,在RSU模块中引入了池化操作,但为了减少特征损失,没有在额外的RSU模块中加入池化操作。图2为RM-DS模块中Residual U-block的两种模式

图3 交互交叉注意(IC-A)模块的结构

本文采用交互式交叉注意力模块(IC-A Module)来增强红外小目标检测性能。该模块通过保留更多解码器层的上下文信息,替代了U-Net中的原始跳跃连接,并专注于编码低级细节和高级语义特征。其中,跨通道注意力关注高级语义特征的每个通道,以发现红外小目标的相互依赖性。而交互式交叉空间注意力则强调局部详细信息,通过激发操作和池化操作进行特征聚合。最终,UIU-Net的输出是这两种注意力特征的加权和,使得网络在红外小目标检测方面表现出色,更好地学习并利用局部和全局的上下文信息。图3为交互交叉注意(IC-A)模块的结构。

在对比实验中,本文使用了三个不同的红外小目标检测数据集进行实验评估。首先,Single-frame InfraRed Small Target Detection (SIRST) 数据集包含427张来自真实世界视频的红外小目标图像,涵盖了不同波长的图像,并标注了五种形式以支持检测和分割任务。其次,Synthetic Infrared Small Target Detection Data 是一个由真实红外小目标或二维高斯函数叠加在高分辨率自然场景图像上构建的大规模合成数据集,由南京理工大学和悉尼大学于2020年公开。最后,ATR Ground/Air Background Infrared Detection and Tracking Data 包含了具有不同属性的一架或多架固定翼无人机的红外检测和跟踪数据,采集于2017年至2019年,涵盖了天空、地面等各种场景。评估指标采用了Intersection over Union(IoU)、normalized Intersection over Union(nIoU)和接收者操作特征曲线(ROC curve),用于评估红外小目标检测的性能。表1与表2为九种红外检测方法分别在SIRST数据集上与Synthetic数据集上的IoU和nIoU值对比。

表1 九种红外检测方法在SIRST数据集上的IoU和nIoU值对比

图4 九种红外检测方法在SIRST数据集上ROC曲线图

表2 九种红外检测方法在Synthetic数据集上IoU和nIoU值对比

图5 三种红外检测方法在Synthetic数据集上ROC曲线图

通过消融实验,针对两个红外小目标数据集,评估了提出的UIU-Net的有效性。首先,通过比较不同主干网络下的性能,发现采用多尺度残差主干网络显著提高了在SIRST和合成数据集上的IoU和nIoU值,表明其在红外小目标检测中的有效性,如表3所示。其次,分析了UIU-Net中各个模块的独立贡献,结果显示增量模块对UIU-Net的性能提升至关重要,同时强调了交互式交叉编码器的必要性,如表4所示。这些实验证明了UIU-Net在不同方面的关键作用,为其在红外小目标检测中的优越性提供了有力支持。

表3 UIU-Net在不同骨干网络下的检测性能比较

表4 UIU-Net中每个模块的个体贡献

在泛化分析中,使用经过SIRST真实红外小目标训练的UIU-Net检测模型进行验证。结果表明,在合成数据和ATR顺序数据上,UIU-Net相较于其他模型表现更为出色,尤其在视频数据中具有卓越的泛化性能。实验证明UIU-Net在SIRST数据集上的训练有助于成功应用于其他未知场景和对象的检测,尤其在处理ATR ground/air视频数据集时表现突出。这些结果强调了UIU-Net在红外小目标检测中的广泛适用性和泛化能力。图6为 UIU-Net对ATR地面/空中数据集的可视化结果。

图6 UIU-Net对ATR地面/空中数据集的可视化结果

4、结论:

本文提出了一种UIU-Net。UIU-Net通过引入RM-DS增加网络深度而不减少对象分辨率,同时避免了在下采样过程中对小对象信息的丢失,不依赖于分类骨干网络。此外,引入了一个交互式跨注意力模块,能够编码深层多尺度特征,并改善对象的全局和局部上下文表示。在SIRST和合成数据集上进行的定量实验以及在ATR地/空数据集上进行的泛化研究展示了UIU-Net的卓越性能和高效性。UIU-Net为红外小目标检测带来了新的视角,其鲁棒性和稳定性使其成为实际应用中的热门选择。随着传感器的改进,多源数据获取的可行性和普及性不断提高。多源数据中的对象,如可见光和红外数据,不仅具有各种属性,而且具有相互交叉和互补的信息。未来的工作将研究基于深度学习方法的多源数据融合的小目标检测,以提高对象检测的性能。此外,研究人员还将关注影响模型适应各种场景能力的关键因素,并进一步提高模型对未知场景的泛化能力



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章