标题:UIU-Net: U-Net in U-Net for Infrared Small Object Detection
1、研究背景:
2、RM-DS模块:引入了分辨率维护深度监督模块(RM-DS),该模块通过将残差U-Net块整合到深度监督网络中,生成深度多尺度分辨率维护特征,并学习全局上下文信息;
3、IC-A模块:引入了交互式交叉注意力模块(IC-A),用于编码低级细节和高级语义特征之间的局部上下文信息,提高对比信息的学习效果;
4、在多个数据集上的验证:通过在两个红外单帧图像数据集(SIRST 和Synthetic 数据集)以及视频序列红外小目标数据集(例如ATR 地面/空中视频序列数据集)上进行广泛实验,证明了UIU-Net相对于其他最先进的红外小目标检测方法的有效性和优越性。
3、研究方法:
本文提出了一种简单有效的“U-Net中的U-Net”框架,简称UIU-Net,用于红外图像中的小目标检测。顾名思义,UIU-Net将一个微小的U-Net嵌入到一个较大的U-Net骨干网中,实现对象的多层次、多尺度表征学习。UIU-Net模型主要分为两个模块,即分辨率维持深度监督(RM-DS)模块与交互交叉注意(IC-A)模块。RM-DS通过学习深度多尺度特征来改进全局上下文表示。IC-A对RM-DS特征进行编码,以进一步增强本地上下文表示。
RM-DS(分辨率维护深度监督)模块建立在U-Net的基础上。利用多个中间层而不是仅仅利用最后一层来获得完整和可区分的特征,并使用Dilated convolution(扩张卷积)来提高深层特征分辨率。此外,RSU模块还引入了池化操作来降低计算成本。RM-DS模块解决了特征分辨率和网络深度之间的矛盾,并随着网络深度的增加,可以改善对象的全局上下文表示。
图3 交互交叉注意(IC-A)模块的结构
本文采用交互式交叉注意力模块(IC-A Module)来增强红外小目标检测性能。该模块通过保留更多解码器层的上下文信息,替代了U-Net中的原始跳跃连接,并专注于编码低级细节和高级语义特征。其中,跨通道注意力关注高级语义特征的每个通道,以发现红外小目标的相互依赖性。而交互式交叉空间注意力则强调局部详细信息,通过激发操作和池化操作进行特征聚合。最终,UIU-Net的输出是这两种注意力特征的加权和,使得网络在红外小目标检测方面表现出色,更好地学习并利用局部和全局的上下文信息。图3为交互交叉注意(IC-A)模块的结构。
在对比实验中,本文使用了三个不同的红外小目标检测数据集进行实验评估。首先,Single-frame InfraRed Small Target Detection (SIRST) 数据集包含427张来自真实世界视频的红外小目标图像,涵盖了不同波长的图像,并标注了五种形式以支持检测和分割任务。其次,Synthetic Infrared Small Target Detection Data 是一个由真实红外小目标或二维高斯函数叠加在高分辨率自然场景图像上构建的大规模合成数据集,由南京理工大学和悉尼大学于2020年公开。最后,ATR Ground/Air Background Infrared Detection and Tracking Data 包含了具有不同属性的一架或多架固定翼无人机的红外检测和跟踪数据,采集于2017年至2019年,涵盖了天空、地面等各种场景。评估指标采用了Intersection over Union(IoU)、normalized Intersection over Union(nIoU)和接收者操作特征曲线(ROC curve),用于评估红外小目标检测的性能。表1与表2为九种红外检测方法分别在SIRST数据集上与Synthetic数据集上的IoU和nIoU值对比。
表1 九种红外检测方法在SIRST数据集上的IoU和nIoU值对比
图4 九种红外检测方法在SIRST数据集上ROC曲线图
表2 九种红外检测方法在Synthetic数据集上IoU和nIoU值对比
通过消融实验,针对两个红外小目标数据集,评估了提出的UIU-Net的有效性。首先,通过比较不同主干网络下的性能,发现采用多尺度残差主干网络显著提高了在SIRST和合成数据集上的IoU和nIoU值,表明其在红外小目标检测中的有效性,如表3所示。其次,分析了UIU-Net中各个模块的独立贡献,结果显示增量模块对UIU-Net的性能提升至关重要,同时强调了交互式交叉编码器的必要性,如表4所示。这些实验证明了UIU-Net在不同方面的关键作用,为其在红外小目标检测中的优越性提供了有力支持。
表3 UIU-Net在不同骨干网络下的检测性能比较
表4 UIU-Net中每个模块的个体贡献
在泛化分析中,使用经过SIRST真实红外小目标训练的UIU-Net检测模型进行验证。结果表明,在合成数据和ATR顺序数据上,UIU-Net相较于其他模型表现更为出色,尤其在视频数据中具有卓越的泛化性能。实验证明UIU-Net在SIRST数据集上的训练有助于成功应用于其他未知场景和对象的检测,尤其在处理ATR ground/air视频数据集时表现突出。这些结果强调了UIU-Net在红外小目标检测中的广泛适用性和泛化能力。图6为 UIU-Net对ATR地面/空中数据集的可视化结果。
4、结论: