【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

科技   2024-11-10 10:07   中国香港  

点击下方深度学习爱好者”,选择加p"星标"或“置顶

论文信息

题目:Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Sigma: 用于多模态语义分割的孪生Mamba网络

作者:Zifu Wan, Pingping Zhang, Yuhao Wang, Silong Yong, Simon Stepputtis, Katia Sycara, Yaqi Xie

源码:https://github.com/zifuwan/Sigma

论文创新点

  1. 首次成功应用状态空间模型于多模态语义分割:作者提出的方法Sigma第一个成功应用状态空间模型(SSMs),特别是Mamba模型,在多模态语义分割领域的案例。
  2. 基于Mamba的融合机制和通道感知解码器的引入:作者引入了一种基于Mamba的融合机制和通道感知解码器,以高效地从不同模态中提取信息并无缝集成它们,这在多模态学习领域是一个创新的尝试。
  3. 全局感受野与线性复杂度的结合:与依赖于CNNs的方法相比,Sigma实现了全局感受野并且保持了线性复杂度,这在以往的研究中是难以两全的。

摘要

多模态语义分割显著增强了人工智能代理的感知和场景理解能力,尤其是在低光照或曝光过度等不利条件下。利用额外的模态(X模态)如热成像和深度信息,与传统的RGB结合,提供了补充信息,使预测更加稳健可靠。在本项工作中,作者介绍了Sigma,这是一个用于多模态语义分割的孪生Mamba网络,它利用先进的Mamba模型。与依赖于CNNs的常规方法不同,它们具有有限的局部感受野,或者视觉变换器(ViTs)提供全局感受野但代价是二次复杂度,我们的模型实现了全局感受野与线性复杂度。通过采用孪生编码器和创新的基于Mamba的融合机制,我们有效地从不同模态中选择重要信息。然后开发了一个解码器,以增强模型的通道建模能力。我们提出的方法在RGB-热成像和RGB-深度语义分割任务上进行了严格评估,展示了其优越性,并标志着状态空间模型(SSMs)在多模态感知任务中的首次成功应用。

关键字

多模态语义分割、孪生Mamba网络、状态空间模型、全局感受野、线性复杂度

3. Sigma: 孪生Mamba网络

在本节中,作者详细介绍了提出的孪生Mamba网络(Sigma)用于多模态语义分割。首先,我们提供了状态空间模型的基本信息。随后,我们提出了Sigma架构的概述,然后深入讨论了编码器、融合模块和解码器。

3.2. 总体架构

如图2所示,我们提出的方法包括孪生Mamba编码器(第3.3节)、融合模块(第3.4节)和通道感知Mamba解码器(第3.5节)。在编码阶段,四个视觉状态空间块(VSSB)与下采样操作顺序级联,以提取多级图像特征。两个编码器分支共享权重以减少计算复杂度。随后,每个级别来自两个分支的特征通过融合模块进行处理。在解码阶段,每个级别的融合特征通过通道感知视觉状态空间块(CAVSSB)和上采样操作进一步增强。最终,最终特征被传递到分类器以生成预测。

3.3. 孪生Mamba编码器

编码器有两个权重共享的分支,它们分别接受RGB图像和X模态图像作为输入,分别表示为, 。这里,H和W分别代表输入模态的高度和宽度。编码器以类似于ViT的干模块开始,将输入分割成块,生成特征图,其中指的是RGB或X模态。特征不断通过三组下采样和VSSB处理,产生多尺度特征。VSSB的详细信息如下。视觉状态空间块(VSSB)。按照VMamba的实现,我们使用选择性扫描2D(SS2D)模块实现VSSB。如图3所示,输入特征通过一系列线性投影(Linear)、深度卷积(DWConv)处理。然后,使用带有残差连接的SS2D模块来建模长距离空间信息。SS2D模块。在SS2D模块中,输入特征首先被展平成四个序列,分别来自四个方向(从左上到右下、从右下到左上、从右上到左下、从左下到右上)。然后使用四个独特的选择性扫描模块来提取多方向信息,每个模块捕获序列的长距离依赖性,操作如方程3所示。最后,四个序列被反转回同一方向并求和。

3.4. 融合模块

特征融合模块的详细架构如图4所示。它由交叉Mamba块(CroMB)和连接Mamba块(ConMB)组成。
具体来说,CroMB采用交叉乘法机制来增强彼此的特征,ConMB对连接的特征应用选择性扫描机制以获得融合结果。假设来自第k个孪生编码器块的特征表示为,那么整个融合过程可以表示为:
这里,, 和 保持原始维度为。CroMB和ConMB的详细信息如下。CroMB。如图4的上半部分所示,两个输入特征首先通过线性层和深度卷积处理,然后发送到交叉选择性扫描(Cross SS)模块。根据第3.1节中提到的Mamba的选择机制,系统矩阵, 被生成以使模型具备上下文感知能力。这里,使用线性投影层来生成矩阵。根据方程4,矩阵用于从隐藏状态解码信息以获得输出。受交叉注意力机制的启发,我们促进多个选择性扫描模块之间的信息交换。具体过程可以表示为:
这里,表示时间步的输入,表示选择性扫描输出。是用于从每个时间步的隐藏状态恢复输出的跨模态矩阵。ConMB。在CroMB中,两种模态的特征相互作用并获得跨模态增强的特征。为了进一步获得包含两种模态重要信息的融合特征,我们提出了ConMB来整合CroMB的输出。具体来说,来自CroMB的输出首先通过线性和深度卷积层处理,然后发送到连接选择性扫描(Concat SS)模块。在Concat SS模块中,两个特征首先被展平,然后在序列长度维度上连接。这提供了一个形状为的序列。此外,为了全面捕获两种模态的信息,我们反向扫描连接的序列以获得另一个序列。随后,每个序列被处理以捕获长距离依赖性,获得 。然后,反向序列输出被翻转并与处理后的序列相加。求和序列被分离以恢复两个输出。这个过程可以表示为:
在获得扫描特征 后,它们与两个缩放参数相乘并在通道维度上连接。最后,使用线性投影层将特征形状减少到

3.5. 通道感知Mamba解码器

图5显示了Sigma解码器中使用的通道感知视觉状态空间块(CAVSSB)。为了获得最终预测,作者引入了一个通道感知的Mamba解码器,如图2所示。解码器由三组通道感知视觉状态空间块(CAVSSB)和上采样操作组成。最后,解码的特征通过MLP层进行分类以进行语义分割预测。CAVSSB的详细信息如图5所示。CAVSSB结合了VSSB来处理融合特征。虽然VSSB擅长提取全局空间上下文,但在学习通道间信息方面存在不足。为了解决这个问题,作者应用通道注意力选择重要的通道表示。具体来说,作者的通道注意力操作包括平均池化和最大池化。这种简单的实现提供了有效的通道选择,同时保持了效率。此外,使用两个残差连接来获取最终输出。通过这种方式,作者形成了一个空间-通道感知方案,以实现稳健的解码。

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

深度学习爱好者
分享机器学习、深度学习和Python等知识与原理,每天分享深度学习与计算机视觉领域的经典和最新的论文总结,带读者一起跟踪前言科技!
 最新文章