点击下方“深度学习爱好者”,选择加"星标"或“置顶”
论文信息
题目:AODet: Aerial Object Detection Using Transformers for Foreground Regions
AODet: 基于 Transformers 的前景区域航空目标检测
作者:Xiaoming Wang , Hao Chen , Xiangxiang Chu , and Peng Wang
论文创新点
作者提出了AODet,这是一个简单而准确的目标检测器,专门用于使用变换器进行航空目标检测。AODet首先识别背景区域,然后仅在最有可能包含前景对象的区域上操作,显著减少了背景区域上的冗余计算。通过利用基于变换器的架构的力量,AODet可以利用更多的前景区域之间的上下文信息,帮助保留高质量的检测结果。
与以前的方法不同,AODet不涉及稀疏操作,如稀疏卷积或聚类算法/RoI操作。这些使我们的方法更简单,可以很容易地用主流深度学习框架中现成的简单张量操作来实现。
摘要
航空目标检测是一项重要任务,近年来受到了广泛关注。航空图像通常描绘了简单背景中的小而稀疏的实例。尽管如此,简单的背景只能提供有限的信息。基于此观察,我们提出了一种新的基于变换器的框架用于航空目标检测。与以往通过多阶段流程解决稀疏性问题的方法不同,我们的方法,称为AODet,具有两个显著优势:1) AODet是一个简单而准确的目标检测器,专门用于航空目标检测。AODet首先识别背景区域,然后仅在最有可能包含前景对象的区域上运行,从而显著减少了冗余计算。利用变换器可以利用更多的前景区域之间的上下文信息,帮助保持高质量的检测结果;2) 与涉及稀疏操作(如稀疏卷积或聚类算法/RoI操作)的方法不同,AODet采用变换器从前景提议中检测对象。我们的方法更简单,可以很容易地用简单的张量操作实现。在VisDrone和DOTA上进行了广泛的实验。AODet在VisDrone上达到了40.9 AP,在DOTA上达到了79.6 mAP,证明了AODet的有效性。
III. 我们的方法
传统的目标检测器,如FCOS,通常在整幅特征映射/输入图像上执行密集卷积,为图像的所有区域分配相等的计算预算。如上所述,对于航空图像,这种简单策略并不经济,因为图像的大部分是简单的背景(例如,天空)可以提前丢弃。在这里,我们设计了一个框架,可以利用这一重要观察。我们方法的网络架构如图2所示。输入图像首先被送入主干和FPN以提取多级特征映射。前景提议网络从多级特征映射的背景区域中区分出前景区域。然后,变换器检测头部应用所选的前景区域并预测最终对象实例的类别和边界框。
A. 主干和FPN
B. 前景提议网络
辅助回归损失:此外,如图3所示,与局部分类损失并行,我们还在训练中加入了附加到特征映射的辅助回归损失。辅助回归损失需要额外的Conv-ReLU操作,其输出通道为4,描述边界框作为FCOS。在我们的实验中,这种辅助回归损失仅在训练期间使用,我们观察到它可以帮助优化并在推理中提高性能。 动态标签分配:前景提议网络的目标是为后续的变换器检测头部选择顶部个前景提议。因此,至关重要的是,这些个提议涵盖了尽可能多的单独实例,而不是由同一实例的多个提议主导。为了实现这一目标,我们在训练期间的标签分配中施加了约束,限制了每个实例的最大正面提议数量。这确保了选定的个提议可以涵盖更广泛的实例范围。具体来说,我们首先像FCOS一样确定标签。随后,对于每个实例,我们选择个具有最小分类和回归损失的位置作为正样本,而其他位置设置为负样本。与在这里使用固定的不同,我们遵循[34],通过计算真实边界框和预测框之间的最大(我们在实验中设置)交集比(IoU)来动态估计。有关详细信息,请参考[34]。 前景提议网络与RPN的区别:首先,请注意,前景提议网络的回归分支是可选的。虽然这个辅助回归分支可以在训练期间帮助优化并在推理中提高性能,但其缺失并不会影响我们的整体框架。然而,RPN的回归分支是必需的。RPN需要预测边界框(即,提议)以进行后续操作,如RoIPooling[9]或RoIAlign[14]。其次,前景提议网络利用动态标签分配,以涵盖尽可能多的单独实例,而不是包含来自同一实例的许多提议。RPN遵循传统的标签分配,没有这样的专门设计考虑。
C. 变换器检测头部
IV. 实验
声明
下载1:Pytoch常用函数手册 在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~