【魔改Mamba系列】MambaSOD:双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

科技   2024-11-11 10:05   中国香港  

点击下方深度学习爱好者”,选择加p"星标"或“置顶

论文信息

题目:MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection

MambaSOD:双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

作者:Yue Zhan, Zhihong Zeng, Haijun Liu, Xiaoheng Tan, Yinli Tian

源码:https://github.com/YueZhan721/MambaSOD

论文创新点

  1. 双Mamba驱动的跨模态融合网络:作者提出了一个名为MambaSOD的新型双Mamba驱动的跨模态融合网络,用于RGB-D显著目标检测(SOD)。这是首次将基于Mamba的骨干网络引入RGB-D SOD领域,利用其在模拟图像内长期依赖性的同时保持线性复杂性的能力。
  2. 跨模态融合Mamba模块:作者设计了一个创新的跨模态融合Mamba模块(CMM),该模块能够有效地增强模态特定特征,并建模模态间相关性的长期依赖性。这一模块通过将特征从两个模态投影到共享空间中,实现了互补特征学习,对RGB-D特征融合至关重要。
  3. 全局特征提取与跨模态信息交换:与以往的CNN或基于变换器的特征提取网络不同,MambaSOD利用Mamba骨干网络实现了全局特征提取,并促进了跨模态信息交换,这有助于模型学习RGB和深度特征之间的互补信息。

摘要

RGB-D显著目标检测(SOD)的目的是在图像中准确识别视觉上最显眼的区域。传统的深度模型严重依赖于CNN提取器,忽略了长期上下文依赖性,随后基于变换器的模型在一定程度上解决了这个问题,但也引入了高计算复杂性。此外,证明从深度图中整合空间信息对这项任务是有效的。该问题的一个主要挑战是如何有效地融合RGB和深度的互补信息。在本文中,作者提出了一个双Mamba驱动的跨模态融合网络用于RGB-D SOD,名为MambaSOD。具体来说,作者首先采用了双Mamba驱动的特征提取器来处理RGB和深度,以模拟多模态输入中的长期依赖性,并保持线性复杂性。然后,作者设计了一个跨模态融合Mamba来捕获多模态特征,充分利用RGB和深度特征之间的互补信息。据作者所知,这项工作是首次探索Mamba在RGB-D SOD任务中的潜力,提供了一个新的视角。在六个流行数据集上进行的众多实验表明,作者的方法优于十六个最先进的RGB-D SOD模型。

关键字

  • RGB-D显著目标检测
  • 状态空间模型
  • Mamba基础骨干网络
  • 跨模态融合

III. 方法

B. 网络架构

如图2所示,提出的方法包括基于Mamba的骨干网络、跨模态融合Mamba(CMM)和多级细化(MR)解码器。具体来说,对于输入的RGB和深度,作者首先采用基于Mamba的骨干网络提取模态特定特征。然后,执行CMM来融合层次化的RGB和深度特征,以获得两个模态之间已经交互的RGB-D特征。最后,作者利用MR聚合融合的RGB-D特征进行最终预测。架构详细如下。

编码器

作者将RGB和深度输入到双流Mamba基础骨干网络中,以捕获多级特征。提取的RGB特征表示为,而深度特征表示为(i ∈ {1, 2, 3, 4, 5}),如图2所示。与以往采用基于CNN或基于变换器的骨干网络的方法不同,作者首次在RGB-D SOD领域采用基于Mamba的骨干网络。跨模态融合Mamba 通常,CMM以RGB特征和深度特征为输入,并输出融合的RGB-D特征。提出的跨模态融合Mamba旨在模拟模态间相关性并增强自我模态特征。如图4所示,作者首先将提取的深度特征和RGB特征输入到Mamba块中,分别进行自我模态特征增强。同时,作者将深度和RGB特征连接起来,以模拟它们的模态间相关性。这个操作通过整合不同模态的信息来增强跨模态相关性,从而丰富通道特征的多样性。然后,增强的RGB和深度特征通过模态间相关性特征进行门控,鼓励互补特征学习。最后,通过逐元素加法处理RGB和深度特征,得到类似图像的RGB-D特征

解码器

作者采用多级细化(MR)模块来聚合RGB-D特征,处理后的特征表示为。如图3所示,MR模块的目的是有效利用多级RGB-D特征进行显著目标检测。作者首先对输入特征进行上采样。得到的特征分别用于通过逐元素乘法和连接来增强其下一阶段的特征,正如之前工作所证明的有效性。最后,通过逐元素加法合并增强的特征,然后通过3×3和1×1的卷积核进行卷积。每个阶段聚合的特征表示为

C. 视觉Mamba块

骨干网络的作用是从RGB和深度输入中捕获层次化特征。具体来说,输入RGB ∈ R^3×H×W和深度 ∈ R^1×H×W首先通过Patch Partition模块被划分为补丁,以便我们可以获得一个初始特征表示,其维度为C1 × H/4 × W/4。随后,作者采用几个类似的操作来捕获具有C1 × H/4 × W/4, C2 × H/8 × W/8, C3 × H/16 × W/16和C4 × H/32 × W/32的维度的层次化特征,其中Ci表示特征通道维度。它们分别设置为96, 192, 384和768。每个操作包括一个下采样步骤(除了第一阶段),后跟多个视觉Mamba(VM)块,如图2右侧所示。VM块是2D图像特征表示的视觉对应物,而最初的Mamba块用于处理1D语言序列。更具体地说,给定一个输入序列z,整个VM块的计算分为两部分,第一部分计算如下:
其中2D-选择性扫描(SS2D)模块引入了一个四维扫描,以获得更丰富的特征来源,实现全局接受域。LN, DWConv和SiLU分别表示LayerNorm, depth-wise separable convolution和SiLU激活函数。在另一个步骤中,z'进一步计算为:
其中FFN表示前馈网络。

D. 跨模态融合Mamba

RGB和深度图在RGB-D SOD中都扮演着重要的角色,尽管RGB特征包含了丰富的语义线索,深度特征包含了更明显的对象布局信息。正确融合RGB和深度特征在RGB-D SOD中非常重要。因此,作者提出了一个新颖的跨模态融合Mamba模块。如图4所示,结构上,CMM模块可以分为两部分:自我模态增强和模态间相关性建模。具体来说,如图4所示,CMM模块以RGB特征和深度特征为输入(输入的RGB和深度特征在输入到我们的CMM之前被转换为令牌)。输入的RGB特征首先通过层归一化进行初始归一化。接下来,将归一化的序列投影到中,使用多层感知机(MLP)。随后,应用一个 带有SiLU激活函数的1D卷积层来处理并产生。然后,经过状态序列模型(SSM)进行长期依赖性建模,并产生。自我模态增强过程通过Mamba可以定义为:
其中LN和Conv1分别表示LayerNorm层和1D卷积层。同样,我们也可以增强深度特征,通过学习其长期依赖性:
同时,为了建模模态间相关性,我们将两个模态的特征投影到共享空间中,使用门控机制来鼓励互补特征学习。给定RGB特征和深度特征,我们将它们连接在一起,然后跟随一个基本的Mamba块来建模模态间相关性。这个操作通过整合不同通道的信息来增强跨模态相关性,从而丰富了通道特征的多样性。模态间相关性建模可以表示为:
其中Cat代表特征连接操作。此外,通过进行门控,以鼓励互补特征学习。这个过程可以表示为:
最后,这些跨模态特征的融合涉及逐元素乘法和逐元素加法操作,然后通过MLP、重塑和深度卷积操作来获得2D RGB-D特征。这个过程可以表示为:

IV. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

深度学习爱好者
分享机器学习、深度学习和Python等知识与原理,每天分享深度学习与计算机视觉领域的经典和最新的论文总结,带读者一起跟踪前言科技!
 最新文章