遥感顶刊TGRS——遥感目标检测
Attention-Free Global Multiscale Fusion Network for Remote Sensing Object Detection
公众号介绍
本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态,欢迎各位同学关注、点赞和分享,您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。
动动您的小手指,关注一下吧!
可扫码添加微信了解更多科研资讯及其他事项!
01 摘要
遥感目标检测在复杂背景和小目标检测中面临着相互关联、无法单独解决的挑战。为此,作者提出了一种无需关注的全球多尺度融合网络(AGMF-Net)。首先,作者提出了一个空间偏差模块(SBM)来获取远程依赖关系,作者提议的全局信息提取模块(GIEM)的一部分。GIEM有效地捕获全球信息,克服复杂背景带来的挑战。此外,作者提出了多任务增强结构(MES)和多任务特征预处理(MFP)来增强多尺度目标的特征表示,同时消除复杂背景的干扰。此外,作者提出了一种高效的上下文解耦检测器(ECDD),为回归和分类任务提供了不同的特征,旨在提高RSOD的效率。大量的实验表明,与目前最先进的探测器相比,作者提出的方法具有优越的性能。其中,AGMF-Net在光学遥感图像(DIOR)、高分辨率遥感检测(HRRSD)、西北工业大学甚高分辨率-10 (NWPU VHR-10)和RSOD数据集上的平均检测精度(mAP)分别为73.2%、92.03%、95.21%和94.30%。
02 拟解决的问题
1. 复杂背景干扰:遥感图像通常包含复杂的背景,如地理和建筑纹理、光照和阴影变化、云层遮挡等,这些因素会干扰目标检测。
2. 小目标检测:在遥感图像中,小目标常常被复杂背景噪声所淹没,导致检测准确度低、漏检和误检率高。
3. 多尺度目标检测:遥感图像中的目标具有不同的尺寸和比例,需要一个能够同时处理不同尺度目标的检测网络。
图1 RSI目标检测可视化。RSOD的特点是其覆盖范围广,导致复杂的环境干扰,如地理和建筑纹理,光影变化,云遮挡,以及多尺度物体的不同形状,包括形状畸变和极端的宽高比。(a)两个原始RSI。(b)热图中复杂背景噪声的特征。(c)增强去噪后的特征。(d)原始图像上的特征分布。(e)最后检测结果。黄色圆圈表示错误检测。
03 创新思路
1. 全局信息提取模块(GIEM):提出了一种新的模块,使用空间偏差模块(SBM)来获取长距离依赖关系,以增强对全局信息的捕捉,克服复杂背景带来的挑战。
2. 多任务增强结构(MES):设计了一种新的结构,通过多任务特征预处理(MFP)模块增强多尺度目标的特征表示,同时消除复杂背景的干扰。
3. 高效上下文解耦检测器(ECDD):提出了一种新的检测器,专门为遥感图像设计,提供不同特征用于回归和分类任务,旨在提高RSOD的效率。
4. 无注意力机制:与主流的基于注意力机制的方法相比,AGMF-Net避免了使用计算成本高昂的自注意力操作,而是通过空间偏差通道来学习全局知识,减少了计算开销。
5. 特征融合:AGMF-Net通过GIEM和MES有效地融合了来自不同层次的特征,提高了对多尺度目标的检测性能,尤其是在小目标检测方面。
6. 损失函数优化:文章还优化了损失函数,通过引入可变聚焦损失(variable focal loss)和距离聚焦损失(distance focal loss),增强了对正样本的强调,并提高了检测性能。
图2 主干的整体架构。它有四个分层阶段,每个阶段都有一堆GIEM块,前面有一个ConvModule。最后三层用于特征分类。在每个GIEM块中,包含两个convmodule和n个sbm。每个ConvModule由Conv2d层、批归一化层和SiLU激活层组成。SBM的左图显示了整个工作流程,右图显示了其细节。为了捕获全局依赖关系,通过1 × 1卷积和平均池化操作减少特征映射的通道和空间大小。作者使用简单的1-D卷积操作在简化的特征映射上聚合空间偏差。
04 方法流程
1. 网络架构概览
全局信息提取模块(GIEM):负责捕获全局信息,克服复杂背景的挑战。
多任务增强结构(MES):增强多尺度目标的特征表示,同时消除复杂背景的干扰。
高效上下文解耦检测器(ECDD):为回归和分类任务提供不同的特征,提高RSOD的效率。
2. 空间偏差模块(SBM)
通过深度卷积(DWConv)和点卷积(PWConv)降低特征图的通道和空间尺寸。
使用1×N卷积在通道维度上编码全局知识。
利用双线性插值进行上采样,将空间偏差特征图与卷积特征图在通道维度上进行拼接。
3. 多任务增强结构(MES)
MFP模块通过三个路径(Q, K, V)聚合信息,独立地处理每个路径的特征。
利用SBM对不同尺度的全局特征进行编码,然后进行特征融合。
图3 MES架构。
图4 MFP的整体架构。(左)MFP的构建块由几个sbm和部分卷积(PConv)模块组成。MFP模块侧重于捕获上下文信息,并专门用于减少背景噪声。(右)通过线性投影获得Q、K、V特征后,利用PConv结合附近特征信息创建多尺度特征。这些多尺度特征通过SBM进行处理,然后进行拼接,最后通过最后的线性投影层进行特征融合。
图5 ECDD的整体架构。通过SBM和1 × 1卷积层将输入预测特征映射解耦为两个分支。这两个分支用于分类和回归任务。
4. 高效上下文解耦检测器(ECDD)
使用SBM增强编码特征,为分类和定位任务提供丰富的语义上下文。
通过1×1卷积层生成分类和回归任务的特征图。
优化损失函数,包括可变聚焦损失(variable focal loss)和距离聚焦损失(distance focal loss)。
5. 损失函数优化
引入可变聚焦损失(VFL)和距离聚焦损失(DFL),以增强对正样本的强调并提高检测性能。
05 实验结果
表1 在DIOR数据集上对本文提出的模型和其他评估方法进行了定量比较。
表2 在HRRSD数据集上对提出的模型和其他评估方法进行了定量比较。
表3 在NWPU VHR-10数据集上,作者提出的模型与其他评估方法的定量比较
图6 AGMF-Net在DIOR、HRRSD、NWPU VHR-10和RSOD数据集上的代表性检测结果。AGMF-Net在精确检测各种尺度目标方面表现优异。(a)大目标,(b)中等目标,(c)小目标,(d)复杂背景下的目标,(e)同幅图像内的多尺度目标。由于作者选择的图像包含不同比例的目标,因此在页面上放大视图的视觉效果更好。
图7 可视化GIEM、MFP和MES的特征提取效果。(a)三幅原始遥感图像。(b)基于GIEM的C3特征提取结果。(c) MFP后的特征预处理。(d) MES增强的P3特征图(e)热图与原始图像的组合效果。(f)最后检测结果。
版权说明
本文中的内容全部来自论文《Attention-Free Global Multiscale Fusion Network for Remote Sensing Object Detection》,分享文章的目的是为了让更多刚入门的同学能够快速了解最前沿的科研动态,进而快速筛选出对自己有帮助的文献,助力科研。如有侵权,请联系本公众号立即删除。