遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

科技 2024-10-29 10:05 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

论文信息

题目：AODet: Aerial Object Detection Using Transformers for Foreground Regions

AODet: 基于 Transformers 的前景区域航空目标检测

作者：Xiaoming Wang , Hao Chen , Xiangxiang Chu , and Peng Wang

论文创新点

作者提出了AODet，这是一个简单而准确的目标检测器，专门用于使用变换器进行航空目标检测。AODet首先识别背景区域，然后仅在最有可能包含前景对象的区域上操作，显著减少了背景区域上的冗余计算。通过利用基于变换器的架构的力量，AODet可以利用更多的前景区域之间的上下文信息，帮助保留高质量的检测结果。
与以前的方法不同，AODet不涉及稀疏操作，如稀疏卷积或聚类算法/RoI操作。这些使我们的方法更简单，可以很容易地用主流深度学习框架中现成的简单张量操作来实现。

摘要

航空目标检测是一项重要任务，近年来受到了广泛关注。航空图像通常描绘了简单背景中的小而稀疏的实例。尽管如此，简单的背景只能提供有限的信息。基于此观察，我们提出了一种新的基于变换器的框架用于航空目标检测。与以往通过多阶段流程解决稀疏性问题的方法不同，我们的方法，称为AODet，具有两个显著优势：1) AODet是一个简单而准确的目标检测器，专门用于航空目标检测。AODet首先识别背景区域，然后仅在最有可能包含前景对象的区域上运行，从而显著减少了冗余计算。利用变换器可以利用更多的前景区域之间的上下文信息，帮助保持高质量的检测结果；2) 与涉及稀疏操作（如稀疏卷积或聚类算法/RoI操作）的方法不同，AODet采用变换器从前景提议中检测对象。我们的方法更简单，可以很容易地用简单的张量操作实现。在VisDrone和DOTA上进行了广泛的实验。AODet在VisDrone上达到了40.9 AP，在DOTA上达到了79.6 mAP，证明了AODet的有效性。

III. 我们的方法

传统的目标检测器，如FCOS，通常在整幅特征映射/输入图像上执行密集卷积，为图像的所有区域分配相等的计算预算。如上所述，对于航空图像，这种简单策略并不经济，因为图像的大部分是简单的背景（例如，天空）可以提前丢弃。在这里，我们设计了一个框架，可以利用这一重要观察。我们方法的网络架构如图2所示。输入图像首先被送入主干和FPN以提取多级特征映射。前景提议网络从多级特征映射的背景区域中区分出前景区域。然后，变换器检测头部应用所选的前景区域并预测最终对象实例的类别和边界框。

A. 主干和FPN

输入图像首先通过主干网络（例如，ResNet[32]），然后是FPN[12]。FPN的输出是多个级别的特征映射，分辨率不同，由从高到低分辨率分别表示。

B. 前景提议网络

前景提议网络的目标是预测对象更可能出现的区域。如图3所示，前景提议网络由分类分支和回归分支组成。每个分支包含一个卷积层（具有256个输出通道）和ReLU以及组归一化[33]。这些组件被特意设计为轻量级，以节省计算开销。在FPN之后，它们分别产生和，其中。这些特征被连接成，然后通过概率图被选为前景提议特征。概率图是通过具有sigmoid层的卷积层在中计算的，表示为前景类别之一的概率。选定的前景提议特征如下确定。对于在位置处的层特征向量，表示为，我们在概率图上的相应位置获得分数向量，它应该是一个维向量。因为有前景对象，相应的特征向量然后被发送到下一个阶段。我们使用分数向量中的最大分数作为位置处特征向量的对象性分数。之后，我们从所有层中选择个具有最大分数的特征向量，其中，作为选择性前景提议特征。为了更好地整合分类和回归特征，应用了具有LayerNorm的线性层以获得最终的提议特征。这些最终的提议特征构成了变换器检测头部将作为输入的特征包。

辅助回归损失：此外，如图3所示，与局部分类损失并行，我们还在训练中加入了附加到特征映射的辅助回归损失。辅助回归损失需要额外的Conv-ReLU操作，其输出通道为4，描述边界框作为FCOS。在我们的实验中，这种辅助回归损失仅在训练期间使用，我们观察到它可以帮助优化并在推理中提高性能。
动态标签分配：前景提议网络的目标是为后续的变换器检测头部选择顶部个前景提议。因此，至关重要的是，这些个提议涵盖了尽可能多的单独实例，而不是由同一实例的多个提议主导。为了实现这一目标，我们在训练期间的标签分配中施加了约束，限制了每个实例的最大正面提议数量。这确保了选定的个提议可以涵盖更广泛的实例范围。具体来说，我们首先像FCOS一样确定标签。随后，对于每个实例，我们选择个具有最小分类和回归损失的位置作为正样本，而其他位置设置为负样本。与在这里使用固定的不同，我们遵循[34]，通过计算真实边界框和预测框之间的最大（我们在实验中设置）交集比（IoU）来动态估计。有关详细信息，请参考[34]。
前景提议网络与RPN的区别：首先，请注意，前景提议网络的回归分支是可选的。虽然这个辅助回归分支可以在训练期间帮助优化并在推理中提高性能，但其缺失并不会影响我们的整体框架。然而，RPN的回归分支是必需的。RPN需要预测边界框（即，提议）以进行后续操作，如RoIPooling[9]或RoIAlign[14]。其次，前景提议网络利用动态标签分配，以涵盖尽可能多的单独实例，而不是包含来自同一实例的许多提议。RPN遵循传统的标签分配，没有这样的专门设计考虑。

C. 变换器检测头部

在变换器检测头部中，个特征向量首先添加了两种位置编码。首先，如，我们使用2-D位置编码来编码这些特征向量在原始2-D特征图上的空间位置。其次，我们引入可学习的位置编码来表示这些特征向量所属的FPN层。随后，这些特征向量被聚合成一个矩阵，并发送到变换器检测头部。变换器检测头部由个堆叠的自注意力和全连接层组成，具有个通道。如，我们还使用多头注意力，允许模型在输入中关注不同的特征向量。头的数量设置为。

变换器的输出仍然是一个矩阵，其维度为。我们使用三个线性层将矩阵映射到最终预测，包括一个分类分支来获得用于分类的分数向量，其维度为类别数量，一个4-D向量表示边界框的坐标，以及一个1-D向量ctr来预测“中心性”，如FCOS中所述。值得注意的是，由于我们知道这些前景提议特征的原始位置，因此最终的框仍然可以通过使用特征的位置坐标来恢复。如果位置落入任何真实框中，则被视为正样本，该位置的分类和回归目标因此根据此真实框计算得出。每个位置的分类目标是相应真实框的类别。否则，它是一个负样本。回归目标（仅对每个正样本可用）是一个4-D向量，描述这个位置的目标框，其中表示位置到边界框四边的距离。“中心性”目标表示远离实例中心的距离，定义如FCOS。

或者，也可以采用如DETR中的二分图匹配来直接预测边界框的坐标在图像中。然而，我们通过实验发现这会导致性能下降。我们认为使用特征向量的位置来恢复框可以减少模型的搜索空间，从而降低学习难度。

IV. 实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625963&idx=3&sn=5d5c86256cf8a50c4364996e275c1e20

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 厦门大学人工智能研究院计算机视觉方向博士招生

Python中进行特征重要性分析的9个常用方法

6 年半亏掉 528 亿的某汤，用裁员开启下一个十年。

算法工程师大致是做什么的？

labelGo：基于 YOLOv5 的辅助标注工具

作为审稿人，你什么情况下会选择拒稿？

用不需要手工标注分割的训练数据来进行图像分割

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

YOLO 系列目标检测大合集

最全深度学习训练过程可视化工具（附github源码）

ResNet到底在解决一个什么问题呢？

最后机会！2024年剩余EI检索学术会议时间表大揭秘！

【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构

ResNet是否只是一个深度学习的trick？

Python图像处理:频域滤波降噪和图像增强

一文读懂模型的可解释性（附代码）

YOLOv11 架构改进 & 常见指令

顶刊解读 | 基于自适应四阶偏微分方程的遥感图像超分辨率重建

AI，正在疯狂污染中文互联网

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

CNN 的一些可视化方法！

遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

Linux常用命令大全 | 176个

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

顶刊解读 TGRS | 用于半监督旋转目标检测的伪孪生教师模型

OpenCV 也可以检测、跟踪移动物体

医学图像数据读取及预处理方法总结

传统图像处理还有前景么？

Pytorch里面多任务Loss是加起来还是分别backward？

Python并行编程？

一种基于计算机视觉和深度学习的番茄外部缺陷检测方法

PyCharm vs VSCode，是时候改变你的 IDE 了！

C++ OpenCV实现图像去阴影

这17 种方法让 PyTorch 训练速度更快！

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

CNN是不是一种局部self-attention？

一份微调YOLOv11的小指南

Transformer小目标检测

PyTorch可复现/重复实验的相关设置

245个目标检测开源项目合集，建议收藏！

【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制，实现精准车牌检测

论文解读 | EATFormer：受进化算法启发改进视觉Transformer

直线检测算法汇总

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

医图顶会 MICCAI'24 | LKM-UNet: 用于医学图像分割的大内核视觉Mamba UNet

总结 | 半监督目标检测

Numpy中数组和矩阵操作的数学函数

完爆YOLO家族？新一代目标检测器又有新突破！

顶刊MIA'24 | 用于图像分割的双坐标交叉注意力Transformer

无需标注海量数据，目标检测新范式OVD让多模态AGI又前进一步

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉