点击下方 “深度学习爱好者 ”,选择加p" 星标 "或“ 置顶 ”
论文信息 题目:RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images RemoteDet-Mamba:用于遥感图像中多模态目标检测的混合Mamba-CNN网络 作者:Kejun Ren, Xin Wu, Lianming Xu, Li Wang 论文创新点 多模态目标检测框架 :作者提出了一个名为RemoteDet-Mamba的无人机多模态遥感图像目标检测框架 。该框架学习单模态局部特征,并促进多模态补丁级全局特征融合,增强了小目标的可区分性,并提高了类别间区分度。四向选择性扫描融合策略 :作者设计了一个基于Mamba的选择性扫描2D机制(SS2D)的CFM模块 ,该模块对提取的多尺度特征进行四向扫描。这种线性扫描策略解耦了密集检测对象,实现了选择性特征融合,并在补丁级别捕获了长距离依赖。摘要 无人机(UAV)遥感因其快速获取信息和低成本的优势,在紧急响应等领域得到了广泛应用。然而,由于拍摄距离和成像机制的影响,图像中的目标呈现出尺寸小、分布密集和类间区分度低等挑战。为此,作者提出了一种多模态遥感检测网络,采用称为RemoteDet-Mamba的四向选择性扫描融合策略。RemoteDet-Mamba能够同时促进单模态局部特征的学习以及跨模态的补丁级全局特征的融合,增强了对小目标的可区分性,并利用局部信息提高不同类别之间的区分度。此外,Mamba的串行处理显著提高了检测速度。在DroneVehicle数据集上的实验结果证明了RemoteDet-Mamba的有效性,其检测精度优于最先进的方法,同时保持了计算效率和参数数量。 关键字 提出的方法 图1给出了所提出的多模态无人机目标检测框架的架构,包括暹罗CNN网络和跨模型融合Mamba(CFM)模块。具体来说,暹罗CNN网络有效地从两种多模态图像中提取多尺度特征,例如RGB和TIR。CFM模块位于两种模态特征提取网络之间[16],并在两种模态之间实现深度补丁级全局特征融合。最终融合特征包括来自CFM模块、可见光分支网络和红外分支网络的集成输出。 暹罗CNN网络 以两种模态为例,输入图像定义为Is,其中s=1,2对应于两种不同的模态。这些图像通过卷积块处理以提取其多尺度特征。 其中 表示从第i层提取的特征, 和 分别代表两种不同模态的多尺度特征。对于多尺度特征提取,输入到Neck部分的包括来自暹罗CNN网络的第2层、第3层和第5层的融合输出,分别表示为 。 Neck部分对 进行多尺度特征融合后,传递给Head,生成最终的遥感检测结果。 跨模态融合Mamba(CFM)模块 CFM模块的设计基于Mamba网络的思想。图1中虚线下方的部分说明了CFM模块的融合过程。首先,由II-A部分生成的一组多尺度特征 和 被发送到LayerNorm层以规范化输入特征。 其中 表示LayerNorm操作, 表示使用线性变换的投影操作。然后,对这两种模态的特征应用深度卷积以促进通道间通信。 其中 表示深度卷积操作, 指的是SiLU激活函数。Mamba架构采用了一种独特的选择性扫描机制,根据输入数据调整参数,实现两种模态特征的选择性扫描融合处理。类似于Vmamba,特征沿四个方向展平以生成长度为 的1D序列。之后,通过逐元素相加在补丁级别实现深度特征融合。 其中 表示沿第i个方向的扫描操作。这些一维融合序列分别由S6块处理以提取特征,产生四个输出,分别表示为 和 。 其中 表示第i个S6块。S6块的输出被展开并重新组合以生成新的特征图,分别表示为 。然后,这些融合特征被投影回原始输入特征空间的大小。 其中 表示将一维融合序列沿第i个方向重建为二维特征图的操作。得到的 与两个模态的原始输入一起通过残差连接处理,产生互补特征 和 。 最后,每个模态的互补特征分别通过层归一化操作和前馈神经网络(FFN)处理。然后,将互补特征合并到多尺度特征中,通过加法操作增强特征表示。 其中GELU(Gaussian Error Linear Units)是非线性激活函数。参数 和 分别表示FFN中线性变换的权重矩阵和偏置向量。 损失函数 所提出的检测框架的总损失函数 由三部分组成:边界回归损失 、置信度损失 和分类损失 。定义如下: 我们采用了标准的水平边界框(HBB)损失,因为它有效地将角度信息与边界参数数据分离。选择完整交集比(CIoU)作为损失函数 。对于 ,我们使用了平滑二元交叉熵(Smooth BCE)以增强数值稳定性。相同的Smooth BCE被应用于计算置信度损失 ,并在水平边缘之间添加CIoU以加速训练。 实验 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。 在「深度学习爱好者」公众号后台回复: Pytorch常用函数手册 ,即可下载全网第一份Py torch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数 、CUDA编程、多线程处理 等十四章章内容。在「小白学视觉 」 公众号后台回复:Python视觉实战项目 , 即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别 等31个视觉实战项目,助力快速学校计算机视觉。 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉 驶、 计算摄影 、检测、分割、识别、医学影像、GAN、算法竞赛 等微信群(以后会逐渐细分), 请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过 。添加成功后会根据研究方向邀请进入相关微信群。请勿 在群内发送广告 ,否则会请出群,谢谢理解~