遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

科技   2024-10-29 10:05   中国香港  
点击上方小白学视觉”,选择加"星标"或“置顶
重磅干货,第一时间送达

论文信息

题目:AODet: Aerial Object Detection Using Transformers for Foreground Regions

AODet: 基于 Transformers 的前景区域航空目标检测

作者:Xiaoming Wang , Hao Chen , Xiangxiang Chu , and Peng Wang

论文创新点

  1. 作者提出了AODet,这是一个简单而准确的目标检测器,专门用于使用变换器进行航空目标检测。AODet首先识别背景区域,然后仅在最有可能包含前景对象的区域上操作,显著减少了背景区域上的冗余计算。通过利用基于变换器的架构的力量,AODet可以利用更多的前景区域之间的上下文信息,帮助保留高质量的检测结果。

  2. 与以前的方法不同,AODet不涉及稀疏操作,如稀疏卷积或聚类算法/RoI操作。这些使我们的方法更简单,可以很容易地用主流深度学习框架中现成的简单张量操作来实现。

摘要

航空目标检测是一项重要任务,近年来受到了广泛关注。航空图像通常描绘了简单背景中的小而稀疏的实例。尽管如此,简单的背景只能提供有限的信息。基于此观察,我们提出了一种新的基于变换器的框架用于航空目标检测。与以往通过多阶段流程解决稀疏性问题的方法不同,我们的方法,称为AODet,具有两个显著优势:1) AODet是一个简单而准确的目标检测器,专门用于航空目标检测。AODet首先识别背景区域,然后仅在最有可能包含前景对象的区域上运行,从而显著减少了冗余计算。利用变换器可以利用更多的前景区域之间的上下文信息,帮助保持高质量的检测结果;2) 与涉及稀疏操作(如稀疏卷积或聚类算法/RoI操作)的方法不同,AODet采用变换器从前景提议中检测对象。我们的方法更简单,可以很容易地用简单的张量操作实现。在VisDrone和DOTA上进行了广泛的实验。AODet在VisDrone上达到了40.9 AP,在DOTA上达到了79.6 mAP,证明了AODet的有效性。

III. 我们的方法

传统的目标检测器,如FCOS,通常在整幅特征映射/输入图像上执行密集卷积,为图像的所有区域分配相等的计算预算。如上所述,对于航空图像,这种简单策略并不经济,因为图像的大部分是简单的背景(例如,天空)可以提前丢弃。在这里,我们设计了一个框架,可以利用这一重要观察。我们方法的网络架构如图2所示。输入图像首先被送入主干和FPN以提取多级特征映射。前景提议网络从多级特征映射的背景区域中区分出前景区域。然后,变换器检测头部应用所选的前景区域并预测最终对象实例的类别和边界框。

A. 主干和FPN

输入图像首先通过主干网络(例如,ResNet[32]),然后是FPN[12]。FPN的输出是多个级别的特征映射,分辨率不同,由从高到低分辨率分别表示。

B. 前景提议网络

前景提议网络的目标是预测对象更可能出现的区域。如图3所示,前景提议网络由分类分支和回归分支组成。每个分支包含一个卷积层(具有256个输出通道)和ReLU以及组归一化[33]。这些组件被特意设计为轻量级,以节省计算开销。在FPN之后,它们分别产生,其中。这些特征被连接成,然后通过概率图被选为前景提议特征。概率图是通过具有sigmoid层的卷积层在中计算的,表示为前景类别之一的概率。选定的前景提议特征如下确定。对于在位置处的层特征向量,表示为,我们在概率图上的相应位置获得分数向量,它应该是一个维向量。因为有前景对象,相应的特征向量然后被发送到下一个阶段。我们使用分数向量中的最大分数作为位置处特征向量的对象性分数。之后,我们从所有层中选择个具有最大分数的特征向量,其中,作为选择性前景提议特征。为了更好地整合分类和回归特征,应用了具有LayerNorm的线性层以获得最终的提议特征。这些最终的提议特征构成了变换器检测头部将作为输入的特征包。

  1. 辅助回归损失:此外,如图3所示,与局部分类损失并行,我们还在训练中加入了附加到特征映射的辅助回归损失。辅助回归损失需要额外的Conv-ReLU操作,其输出通道为4,描述边界框作为FCOS。在我们的实验中,这种辅助回归损失仅在训练期间使用,我们观察到它可以帮助优化并在推理中提高性能。
  2. 动态标签分配:前景提议网络的目标是为后续的变换器检测头部选择顶部个前景提议。因此,至关重要的是,这些个提议涵盖了尽可能多的单独实例,而不是由同一实例的多个提议主导。为了实现这一目标,我们在训练期间的标签分配中施加了约束,限制了每个实例的最大正面提议数量。这确保了选定的个提议可以涵盖更广泛的实例范围。具体来说,我们首先像FCOS一样确定标签。随后,对于每个实例,我们选择个具有最小分类和回归损失的位置作为正样本,而其他位置设置为负样本。与在这里使用固定的不同,我们遵循[34],通过计算真实边界框和预测框之间的最大(我们在实验中设置)交集比(IoU)来动态估计。有关详细信息,请参考[34]。
  3. 前景提议网络与RPN的区别:首先,请注意,前景提议网络的回归分支是可选的。虽然这个辅助回归分支可以在训练期间帮助优化并在推理中提高性能,但其缺失并不会影响我们的整体框架。然而,RPN的回归分支是必需的。RPN需要预测边界框(即,提议)以进行后续操作,如RoIPooling[9]或RoIAlign[14]。其次,前景提议网络利用动态标签分配,以涵盖尽可能多的单独实例,而不是包含来自同一实例的许多提议。RPN遵循传统的标签分配,没有这样的专门设计考虑。

C. 变换器检测头部

在变换器检测头部中,个特征向量首先添加了两种位置编码。首先,如,我们使用2-D位置编码来编码这些特征向量在原始2-D特征图上的空间位置。其次,我们引入可学习的位置编码来表示这些特征向量所属的FPN层。随后,这些特征向量被聚合成一个矩阵,并发送到变换器检测头部。变换器检测头部由个堆叠的自注意力和全连接层组成,具有个通道。如,我们还使用多头注意力,允许模型在输入中关注不同的特征向量。头的数量设置为
变换器的输出仍然是一个矩阵,其维度为。我们使用三个线性层将矩阵映射到最终预测,包括一个分类分支来获得用于分类的分数向量,其维度为类别数量,一个4-D向量表示边界框的坐标,以及一个1-D向量ctr来预测“中心性”,如FCOS中所述。值得注意的是,由于我们知道这些前景提议特征的原始位置,因此最终的框仍然可以通过使用特征的位置坐标来恢复。如果位置落入任何真实框中,则被视为正样本,该位置的分类和回归目标因此根据此真实框计算得出。每个位置的分类目标是相应真实框的类别。否则,它是一个负样本。回归目标(仅对每个正样本可用)是一个4-D向量,描述这个位置的目标框,其中表示位置到边界框四边的距离。“中心性”目标表示远离实例中心的距离,定义如FCOS。
或者,也可以采用如DETR中的二分图匹配来直接预测边界框的坐标在图像中。然而,我们通过实验发现这会导致性能下降。我们认为使用特征向量的位置来恢复框可以减少模型的搜索空间,从而降低学习难度。

IV. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章