【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

科技 2024-11-11 10:05 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息

题目：MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection

MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

作者：Yue Zhan, Zhihong Zeng, Haijun Liu, Xiaoheng Tan, Yinli Tian

源码：https://github.com/YueZhan721/MambaSOD

论文创新点

双Mamba驱动的跨模态融合网络：作者提出了一个名为MambaSOD的新型双Mamba驱动的跨模态融合网络，用于RGB-D显著目标检测（SOD）。这是首次将基于Mamba的骨干网络引入RGB-D SOD领域，利用其在模拟图像内长期依赖性的同时保持线性复杂性的能力。
跨模态融合Mamba模块：作者设计了一个创新的跨模态融合Mamba模块（CMM），该模块能够有效地增强模态特定特征，并建模模态间相关性的长期依赖性。这一模块通过将特征从两个模态投影到共享空间中，实现了互补特征学习，对RGB-D特征融合至关重要。
全局特征提取与跨模态信息交换：与以往的CNN或基于变换器的特征提取网络不同，MambaSOD利用Mamba骨干网络实现了全局特征提取，并促进了跨模态信息交换，这有助于模型学习RGB和深度特征之间的互补信息。

摘要

RGB-D显著目标检测（SOD）的目的是在图像中准确识别视觉上最显眼的区域。传统的深度模型严重依赖于CNN提取器，忽略了长期上下文依赖性，随后基于变换器的模型在一定程度上解决了这个问题，但也引入了高计算复杂性。此外，证明从深度图中整合空间信息对这项任务是有效的。该问题的一个主要挑战是如何有效地融合RGB和深度的互补信息。在本文中，作者提出了一个双Mamba驱动的跨模态融合网络用于RGB-D SOD，名为MambaSOD。具体来说，作者首先采用了双Mamba驱动的特征提取器来处理RGB和深度，以模拟多模态输入中的长期依赖性，并保持线性复杂性。然后，作者设计了一个跨模态融合Mamba来捕获多模态特征，充分利用RGB和深度特征之间的互补信息。据作者所知，这项工作是首次探索Mamba在RGB-D SOD任务中的潜力，提供了一个新的视角。在六个流行数据集上进行的众多实验表明，作者的方法优于十六个最先进的RGB-D SOD模型。

关键字

RGB-D显著目标检测
状态空间模型
Mamba基础骨干网络
跨模态融合

III. 方法

B. 网络架构

如图2所示，提出的方法包括基于Mamba的骨干网络、跨模态融合Mamba（CMM）和多级细化（MR）解码器。具体来说，对于输入的RGB和深度，作者首先采用基于Mamba的骨干网络提取模态特定特征。然后，执行CMM来融合层次化的RGB和深度特征，以获得两个模态之间已经交互的RGB-D特征。最后，作者利用MR聚合融合的RGB-D特征进行最终预测。架构详细如下。

编码器

作者将RGB和深度输入到双流Mamba基础骨干网络中，以捕获多级特征。提取的RGB特征表示为，而深度特征表示为（i ∈ {1, 2, 3, 4, 5}），如图2所示。与以往采用基于CNN或基于变换器的骨干网络的方法不同，作者首次在RGB-D SOD领域采用基于Mamba的骨干网络。跨模态融合Mamba 通常，CMM以RGB特征和深度特征为输入，并输出融合的RGB-D特征。提出的跨模态融合Mamba旨在模拟模态间相关性并增强自我模态特征。如图4所示，作者首先将提取的深度特征和RGB特征输入到Mamba块中，分别进行自我模态特征增强。同时，作者将深度和RGB特征连接起来，以模拟它们的模态间相关性。这个操作通过整合不同模态的信息来增强跨模态相关性，从而丰富通道特征的多样性。然后，增强的RGB和深度特征通过模态间相关性特征进行门控，鼓励互补特征学习。最后，通过逐元素加法处理RGB和深度特征，得到类似图像的RGB-D特征。

解码器

作者采用多级细化（MR）模块来聚合RGB-D特征，处理后的特征表示为。如图3所示，MR模块的目的是有效利用多级RGB-D特征进行显著目标检测。作者首先对输入特征进行上采样。得到的特征分别用于通过逐元素乘法和连接来增强其下一阶段的特征，正如之前工作所证明的有效性。最后，通过逐元素加法合并增强的特征，然后通过3×3和1×1的卷积核进行卷积。每个阶段聚合的特征表示为。

C. 视觉Mamba块

骨干网络的作用是从RGB和深度输入中捕获层次化特征。具体来说，输入RGB ∈ R^3×H×W和深度 ∈ R^1×H×W首先通过Patch Partition模块被划分为补丁，以便我们可以获得一个初始特征表示，其维度为C1 × H/4 × W/4。随后，作者采用几个类似的操作来捕获具有C1 × H/4 × W/4, C2 × H/8 × W/8, C3 × H/16 × W/16和C4 × H/32 × W/32的维度的层次化特征，其中Ci表示特征通道维度。它们分别设置为96, 192, 384和768。每个操作包括一个下采样步骤（除了第一阶段），后跟多个视觉Mamba（VM）块，如图2右侧所示。VM块是2D图像特征表示的视觉对应物，而最初的Mamba块用于处理1D语言序列。更具体地说，给定一个输入序列z，整个VM块的计算分为两部分，第一部分计算如下：

其中2D-选择性扫描（SS2D）模块引入了一个四维扫描，以获得更丰富的特征来源，实现全局接受域。LN, DWConv和SiLU分别表示LayerNorm, depth-wise separable convolution和SiLU激活函数。在另一个步骤中，z'进一步计算为：

其中FFN表示前馈网络。

D. 跨模态融合Mamba

RGB和深度图在RGB-D SOD中都扮演着重要的角色，尽管RGB特征包含了丰富的语义线索，深度特征包含了更明显的对象布局信息。正确融合RGB和深度特征在RGB-D SOD中非常重要。因此，作者提出了一个新颖的跨模态融合Mamba模块。如图4所示，结构上，CMM模块可以分为两部分：自我模态增强和模态间相关性建模。具体来说，如图4所示，CMM模块以RGB特征和深度特征为输入（输入的RGB和深度特征在输入到我们的CMM之前被转换为令牌）。输入的RGB特征首先通过层归一化进行初始归一化。接下来，将归一化的序列投影到中，使用多层感知机（MLP）。随后，应用一个带有SiLU激活函数的1D卷积层来处理并产生。然后，经过状态序列模型（SSM）进行长期依赖性建模，并产生。自我模态增强过程通过Mamba可以定义为：

其中LN和Conv1分别表示LayerNorm层和1D卷积层。同样，我们也可以增强深度特征，通过学习其长期依赖性：

同时，为了建模模态间相关性，我们将两个模态的特征投影到共享空间中，使用门控机制来鼓励互补特征学习。给定RGB特征和深度特征，我们将它们连接在一起，然后跟随一个基本的Mamba块来建模模态间相关性。这个操作通过整合不同通道的信息来增强跨模态相关性，从而丰富了通道特征的多样性。模态间相关性建模可以表示为：

其中Cat代表特征连接操作。此外，和通过进行门控，以鼓励互补特征学习。这个过程可以表示为：

最后，这些跨模态特征的融合涉及逐元素乘法和逐元素加法操作，然后通过MLP、重塑和深度卷积操作来获得2D RGB-D特征。这个过程可以表示为：

IV. 实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570547&idx=1&sn=879aa260bcc9e841d23c3d310b483f9a

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”论文信息

论文信息

题目：MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection

MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

作者：Yue Zhan, Zhihong Zeng, Haijun Liu, Xiaoheng Tan, Yinli Tian

源码：https://github.com/YueZhan721/MambaSOD

论文创新点

摘要

关键字

III. 方法

B. 网络架构

编码器

解码器

C. 视觉Mamba块

D. 跨模态融合Mamba

IV. 实验

声明

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息