最新论文 | BAFE-Net: 密集红外弱小目标数据集与检测框架

文摘   2024-12-18 23:47   荷兰  

 RS   DL 

论文介绍

题目:Background Semantics Matter: Cross-Task Feature Exchange Network for Clustered Infrared Small Target Detection With Sky-Annotated Dataset
论文:https://arxiv.org/abs/2407.20078
代码:https://github.com/GrokCV/BAFE-Net
数据:https://github.com/GrokCV/DenseSIRST

年份:2024

本篇转发自GrokCV公众号, 文章数据不是对地观测遥感数据,但是其数据和算法特点与遥感都有相似之处。

概括

本文首次聚焦于密集红外弱小目标检测这一问题,提出了一种新的检测框架 BAFE-Net 。与现有研究主要关注稀疏目标场景不同,提出了密集红外弱小目标检测这一新任务,并深入研究了背景语义在区分视觉相似目标中的关键作用。为支撑该研究,构建了 DenseSIRST 数据集,这是首个同时包含密集目标和背景语义标注的红外弱小目标检测数据集。该工作突破了传统方法仅关注稀疏场景的局限,实现了从稀疏目标到密集目标的问题延展,为解决复杂场景下的红外弱小目标检测问题提供了新的解决思路。

背景

红外成像技术因其在低照度环境下的独特优势,已成为夜间监测、能见度受限等缺乏可见光场景中不可或缺的感知手段。然而,在实际应用场景中,由于成像距离远、大气衰减等物理特性的限制,目标在图像中往往仅占据极小的像素区域,且对比度弱、缺少明显特征,这对检测算法的性能提出了严峻挑战。

图 1. 密集红外弱小目标

传统的红外弱小目标检测研究主要围绕稀疏分布场景展开,在面对无人机集群防御、多目标协同跟踪、海上大规模搜救等新型复杂应用场景时表现出明显的局限性。红外弱小目标检测面临多重技术挑战:首先,目标本身存在尺寸极小、缺乏颜色和纹理细节等困难;其次,复杂的背景干扰和随机噪声进一步增加了准确识别每个独立目标的难度。特别是当目标分布模式从稀疏转向密集时,现有检测方法在处理目标间的复杂空间关系时效率低下,容易出现漏检和高误检率等问题。因此,研究和开发能够有效应对密集红外弱小目标场景特点的新型检测框架具有重要的理论价值和实际意义。

相关数据集的匮乏

红外弱小目标检测一直是计算机视觉领域的重大挑战。尽管现有数据集为该领域的发展奠定了基础,但仍存在显著局限性。如表中所示,SIRST V1[1]、SIRST V2[2]、IRSTD1K[3] 和 SIRSTAUG[4] 等代表性数据集主要聚焦于稀疏分布目标的检测,且缺乏精细的背景语义标注,这与实际应用中常见的密集目标场景存在明显差异。

表 1. 不同数据集比较

现有方法

传统红外弱小目标检测算法主要通过抑制背景来增强目标特征,可分为三类经典方法:
  1. 背景估计方法:此类方法基于背景局部一致性特征构建特定滤波器,旨在增强目标区域的显著性表征。然而,由于缺乏对特征的深层语义理解,这类方法在处理低信噪比目标时容易出现漏检现象,同时对滤波器超参数的选择表现出较高的敏感性。
  2. 人类视觉系统 (HVS) 方法 :以局部对比度测量 (LCM[5]) 和多尺度块对比度测量 (MPCM[6]) 为代表,这类方法致力于模拟人眼视觉系统对空间局部对比度的敏感特性。虽然具有可解释的生物学理论基础,但在处理极小尺度或低对比度目标时性能显著下降,这主要源于无法在复杂背景中产生充分的对比度特征。

  3. 低秩和稀疏分解方法 :代表性工作包括红外块图像 (IPI[7]) 模型和重加权红外块张量 (RIPT[8]) 模型等。这些方法在背景抑制方面表现出显著优势,但其核心假设 —— 目标是图像中唯一具有稀疏性先验的存在,在实际场景中往往难以满足,导致算法在区分背景干扰和真实目标时的鲁棒性不足。

随着深度学习的发展,该领域逐渐从模型驱动方法向数据驱动方法转变。基于深度网络的方法通过自动学习目标相关特征,能够自适应地提取多尺度特征表示并建模特征间的交互关系,这本质上可视为目标与背景关系的隐式建模
然而,现有方法仍存在两个重要的局限性:
  1. 首先,它们将所有背景统一视为单一类别,忽视了背景语义差异对区分真实目标和视觉相似干扰的重要影响。
  2. 其次,尽管这些方法并非完全依赖于传统的稀疏先验或局部对比度假设,但仍有部分方法借助这些先验知识来优化检测性能。然而,这种设计在密集目标场景中的适用性受到严重制约。特别是当多个目标相邻分布时,局部对比度假设往往难以成立。这为从稀疏到密集的目标分布模式的转变提出了新挑战:当多个目标密集分布时,目标之间的空间关系变得更加复杂,相互影响更为显著。这就需要研究新的检测方法,不仅要准确识别单个目标,还要有效建模目标间的复杂依赖关系。

数据

DenseSIRST 数据集

图 2. DenseSIRST 中的样本示例

为填补现有数据集的空白,构建了 DenseSIRST 数据集,这是一个专门面向密集红外弱小目标检测的基准数据集。该数据集包含 1024 张高质量红外图像,标注了 13,655 个密集分布的弱小目标。数据集覆盖了城市、山区、海洋和多云等多样化场景,确保了算法的泛化能力和实用价值。上图展示了数据集中的一组图像,说明了弱小目标的密集分布和相应的天空分割注释,这些注释为开发和评估检测算法提供了宝贵的背景信息。


   

DenseSIRST 数据集经过系统化设计,为密集红外弱小目标检测提供了全面的评估基准。通过对数据集关键特性的定量分析发现:

目标尺寸分布:数据集中的目标普遍呈现出极小的特征,主要集中在 5×5 像素以下,其中 3×3 像素的目标占比最高,这与实际红外成像中弱小目标的典型特征高度吻合。
  1. 局部对比度分布:约 90% 的目标表现出低于 2 的局部对比度,这种低对比度特性不仅反映了检测任务的难度,还表明在密集目标簇中,相邻目标可能被误认为背景,导致局部对比度被低估。

  2. 目标亮度分布:数据分析表明,仅有少数目标在各自图像中呈现最高亮度,这一特性强调了仅依赖亮度特征进行目标检测的局限性,突显了引入额外判别特征的必要性。

方法

BAFE-Net

图 6. BAFE-Net 网络架构

为密集红外弱小目标检测提出了一种新的检测框架 ——BAFE-NetBAFE-Net 的整体架构采用完全卷积单阶段物体检测器 (FCOS[9]) 作为其主体网络。除了基线中存在的原始检测头之外,BAFE-Net 还在 BAFE-Head 模块中引入了一个分割头。加入这个分割头的主要目的是实现背景语义的显式建模,可以显著提升网络区分真实目标和背景干扰的能力。通过检测和分割任务的联合优化,模型可以同时获取目标级和像素级的上下文信息。此外,BAFE-Net 引入了一种动态跨任务特征硬交换机制,实现了检测和分割分支间的高效信息流动,使网络能够自适应地利用各任务中最相关的特征表示。

图 6. BAG-CP 方法

为应对目标样本稀缺的挑战,本文提出了背景感知高斯复制粘贴 (BAG-CP) 训练策略。该方法通过深入考虑语义上下文,将合成的红外弱小目标精确放置于真实场景的天空区域中。通过在目标边缘应用高斯平滑技术,确保了合成目标与背景的自然融合,有效避免了可能误导模型学习的人工边界效应。BAG-CP 通过构建语义合理的合成数据扩充训练集,使 BAFE-Net 能够在更接近实际操作场景的数据上进行训练,从而提升模型在复杂背景下的检测性能。

实验和精度

为全面评估 BAFE-Net 的性能,在 DenseSIRST 数据集上开展了系统性的实验,对比了当前主流算法的检测效果。相关结果如下表所示:

总结和讨论

本文首次系统性研究了密集红外弱小目标检测这一关键科学问题,深入探讨了背景语义信息在区分视觉相似目标中的重要作用。与传统研究主要关注稀疏目标场景不同,着眼于更具挑战性的密集目标分布场景,这种场景在无人机集群防御、海上搜救等实际应用中普遍存在。

密集红外弱小目标检测之所以具有挑战性,关键在于目标间复杂的空间关系和背景干扰。传统方法依赖的局部对比度和稀疏性假设在密集目标场景中往往难以成立,而忽视背景语义信息则进一步限制了算法对复杂场景的理解能力。本文的方法通过对语义背景进行显式建模,显著提升了复杂场景的理解与分析能力,为解决密集目标检测这一问题提供了创新性的解决思路。

尽管 BAFE-Net 取得了初步成果,但仍存在诸多值得深入探索的研究方向:例如,如何更准确地检测出簇内的单个目标,以及如何将该框架扩展到更广泛的应用场景等。这些挑战不仅需要算法设计的创新,更需要对问题本质的深入分析和理解。期待这项工作能够引发学术界对密集红外弱小目标检测的广泛关注,推动该领域理论和实践的共同发展。

更多结果讨论图表可查看原文



欢迎关注会议论文赏读系列

因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。


公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!




问题及讨论可直接在文章下方留言




  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章