【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

科技 2024-11-17 10:21 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息

题目：RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images

RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

作者：Kejun Ren, Xin Wu, Lianming Xu, Li Wang

论文创新点

多模态目标检测框架：作者提出了一个名为RemoteDet-Mamba的无人机多模态遥感图像目标检测框架。该框架学习单模态局部特征，并促进多模态补丁级全局特征融合，增强了小目标的可区分性，并提高了类别间区分度。
四向选择性扫描融合策略：作者设计了一个基于Mamba的选择性扫描2D机制（SS2D）的CFM模块，该模块对提取的多尺度特征进行四向扫描。这种线性扫描策略解耦了密集检测对象，实现了选择性特征融合，并在补丁级别捕获了长距离依赖。

摘要

无人机（UAV）遥感因其快速获取信息和低成本的优势，在紧急响应等领域得到了广泛应用。然而，由于拍摄距离和成像机制的影响，图像中的目标呈现出尺寸小、分布密集和类间区分度低等挑战。为此，作者提出了一种多模态遥感检测网络，采用称为RemoteDet-Mamba的四向选择性扫描融合策略。RemoteDet-Mamba能够同时促进单模态局部特征的学习以及跨模态的补丁级全局特征的融合，增强了对小目标的可区分性，并利用局部信息提高不同类别之间的区分度。此外，Mamba的串行处理显著提高了检测速度。在DroneVehicle数据集上的实验结果证明了RemoteDet-Mamba的有效性，其检测精度优于最先进的方法，同时保持了计算效率和参数数量。

关键字

无人机，遥感，多模态，目标检测，Mamba。

提出的方法

图1给出了所提出的多模态无人机目标检测框架的架构，包括暹罗CNN网络和跨模型融合Mamba（CFM）模块。具体来说，暹罗CNN网络有效地从两种多模态图像中提取多尺度特征，例如RGB和TIR。CFM模块位于两种模态特征提取网络之间[16]，并在两种模态之间实现深度补丁级全局特征融合。最终融合特征包括来自CFM模块、可见光分支网络和红外分支网络的集成输出。

暹罗CNN网络

以两种模态为例，输入图像定义为Is，其中s=1,2对应于两种不同的模态。这些图像通过卷积块处理以提取其多尺度特征。

其中表示从第i层提取的特征，和分别代表两种不同模态的多尺度特征。对于多尺度特征提取，输入到Neck部分的包括来自暹罗CNN网络的第2层、第3层和第5层的融合输出，分别表示为。

Neck部分对进行多尺度特征融合后，传递给Head，生成最终的遥感检测结果。

跨模态融合Mamba（CFM）模块

CFM模块的设计基于Mamba网络的思想。图1中虚线下方的部分说明了CFM模块的融合过程。首先，由II-A部分生成的一组多尺度特征和被发送到LayerNorm层以规范化输入特征。

其中表示LayerNorm操作，表示使用线性变换的投影操作。然后，对这两种模态的特征应用深度卷积以促进通道间通信。

其中表示深度卷积操作，指的是SiLU激活函数。Mamba架构采用了一种独特的选择性扫描机制，根据输入数据调整参数，实现两种模态特征的选择性扫描融合处理。类似于Vmamba，特征沿四个方向展平以生成长度为的1D序列。之后，通过逐元素相加在补丁级别实现深度特征融合。

其中表示沿第i个方向的扫描操作。这些一维融合序列分别由S6块处理以提取特征，产生四个输出，分别表示为和。

其中表示第i个S6块。S6块的输出被展开并重新组合以生成新的特征图，分别表示为。然后，这些融合特征被投影回原始输入特征空间的大小。

其中表示将一维融合序列沿第i个方向重建为二维特征图的操作。得到的与两个模态的原始输入一起通过残差连接处理，产生互补特征和。

最后，每个模态的互补特征分别通过层归一化操作和前馈神经网络（FFN）处理。然后，将互补特征合并到多尺度特征中，通过加法操作增强特征表示。

其中GELU（Gaussian Error Linear Units）是非线性激活函数。参数和分别表示FFN中线性变换的权重矩阵和偏置向量。

损失函数

所提出的检测框架的总损失函数由三部分组成：边界回归损失、置信度损失和分类损失。定义如下：

我们采用了标准的水平边界框（HBB）损失，因为它有效地将角度信息与边界参数数据分离。选择完整交集比（CIoU）作为损失函数。对于，我们使用了平滑二元交叉熵（Smooth BCE）以增强数值稳定性。相同的Smooth BCE被应用于计算置信度损失，并在水平边缘之间添加CIoU以加速训练。

实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570645&idx=2&sn=4d5272cc3a67cf8e72d84c81c402469b

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”论文信息

论文信息

题目：RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images

RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

作者：Kejun Ren, Xin Wu, Lianming Xu, Li Wang

论文创新点

摘要

关键字

提出的方法

暹罗CNN网络

跨模态融合Mamba（CFM）模块

损失函数

实验

声明

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息