【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

科技 2024-11-10 10:07 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息

题目：Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Sigma: 用于多模态语义分割的孪生Mamba网络

作者：Zifu Wan， Pingping Zhang， Yuhao Wang， Silong Yong， Simon Stepputtis， Katia Sycara， Yaqi Xie

源码：https://github.com/zifuwan/Sigma

论文创新点

首次成功应用状态空间模型于多模态语义分割：作者提出的方法Sigma是第一个成功应用状态空间模型（SSMs），特别是Mamba模型，在多模态语义分割领域的案例。
基于Mamba的融合机制和通道感知解码器的引入：作者引入了一种基于Mamba的融合机制和通道感知解码器，以高效地从不同模态中提取信息并无缝集成它们，这在多模态学习领域是一个创新的尝试。
全局感受野与线性复杂度的结合：与依赖于CNNs的方法相比，Sigma实现了全局感受野并且保持了线性复杂度，这在以往的研究中是难以两全的。

摘要

多模态语义分割显著增强了人工智能代理的感知和场景理解能力，尤其是在低光照或曝光过度等不利条件下。利用额外的模态（X模态）如热成像和深度信息，与传统的RGB结合，提供了补充信息，使预测更加稳健可靠。在本项工作中，作者介绍了Sigma，这是一个用于多模态语义分割的孪生Mamba网络，它利用先进的Mamba模型。与依赖于CNNs的常规方法不同，它们具有有限的局部感受野，或者视觉变换器（ViTs）提供全局感受野但代价是二次复杂度，我们的模型实现了全局感受野与线性复杂度。通过采用孪生编码器和创新的基于Mamba的融合机制，我们有效地从不同模态中选择重要信息。然后开发了一个解码器，以增强模型的通道建模能力。我们提出的方法在RGB-热成像和RGB-深度语义分割任务上进行了严格评估，展示了其优越性，并标志着状态空间模型（SSMs）在多模态感知任务中的首次成功应用。

关键字

多模态语义分割、孪生Mamba网络、状态空间模型、全局感受野、线性复杂度

3. Sigma: 孪生Mamba网络

在本节中，作者详细介绍了提出的孪生Mamba网络（Sigma）用于多模态语义分割。首先，我们提供了状态空间模型的基本信息。随后，我们提出了Sigma架构的概述，然后深入讨论了编码器、融合模块和解码器。

3.2. 总体架构

如图2所示，我们提出的方法包括孪生Mamba编码器（第3.3节）、融合模块（第3.4节）和通道感知Mamba解码器（第3.5节）。在编码阶段，四个视觉状态空间块（VSSB）与下采样操作顺序级联，以提取多级图像特征。两个编码器分支共享权重以减少计算复杂度。随后，每个级别来自两个分支的特征通过融合模块进行处理。在解码阶段，每个级别的融合特征通过通道感知视觉状态空间块（CAVSSB）和上采样操作进一步增强。最终，最终特征被传递到分类器以生成预测。

3.3. 孪生Mamba编码器

编码器有两个权重共享的分支，它们分别接受RGB图像和X模态图像作为输入，分别表示为, 。这里，H和W分别代表输入模态的高度和宽度。编码器以类似于ViT的干模块开始，将输入分割成块，生成特征图，其中指的是RGB或X模态。特征不断通过三组下采样和VSSB处理，产生多尺度特征

。VSSB的详细信息如下。视觉状态空间块（VSSB）。按照VMamba的实现，我们使用选择性扫描2D（SS2D）模块实现VSSB。如图3所示，输入特征通过一系列线性投影（Linear）、深度卷积（DWConv）处理。然后，使用带有残差连接的SS2D模块来建模长距离空间信息。SS2D模块。在SS2D模块中，输入特征首先被展平成四个序列，分别来自四个方向（从左上到右下、从右下到左上、从右上到左下、从左下到右上）。然后使用四个独特的选择性扫描模块来提取多方向信息，每个模块捕获序列的长距离依赖性，操作如方程3所示。最后，四个序列被反转回同一方向并求和。

3.4. 融合模块

特征融合模块的详细架构如图4所示。它由交叉Mamba块（CroMB）和连接Mamba块（ConMB）组成。

具体来说，CroMB采用交叉乘法机制来增强彼此的特征，ConMB对连接的特征应用选择性扫描机制以获得融合结果。假设来自第k个孪生编码器块的特征表示为

，那么整个融合过程可以表示为：

这里，, 和保持原始维度为。CroMB和ConMB的详细信息如下。CroMB。如图4的上半部分所示，两个输入特征首先通过线性层和深度卷积处理，然后发送到交叉选择性扫描（Cross SS）模块。根据第3.1节中提到的Mamba的选择机制，系统矩阵, 和被生成以使模型具备上下文感知能力。这里，使用线性投影层来生成矩阵。根据方程4，矩阵用于从隐藏状态解码信息以获得输出。受交叉注意力机制的启发，我们促进多个选择性扫描模块之间的信息交换。具体过程可以表示为：

这里，表示时间步的输入，表示选择性扫描输出。和是用于从每个时间步的隐藏状态恢复输出的跨模态矩阵。ConMB。在CroMB中，两种模态的特征相互作用并获得跨模态增强的特征。为了进一步获得包含两种模态重要信息的融合特征，我们提出了ConMB来整合CroMB的输出。具体来说，来自CroMB的输出

首先通过线性和深度卷积层处理，然后发送到连接选择性扫描（Concat SS）模块。在Concat SS模块中，两个特征首先被展平，然后在序列长度维度上连接。这提供了一个形状为的序列。此外，为了全面捕获两种模态的信息，我们反向扫描连接的序列以获得另一个序列

。随后，每个序列被处理以捕获长距离依赖性，获得和。然后，反向序列输出被翻转并与处理后的序列相加。求和序列被分离以恢复两个输出。这个过程可以表示为：

在获得扫描特征和后，它们与两个缩放参数相乘并在通道维度上连接。最后，使用线性投影层将特征形状减少到。

3.5. 通道感知Mamba解码器

图5显示了Sigma解码器中使用的通道感知视觉状态空间块（CAVSSB）。为了获得最终预测，作者引入了一个通道感知的Mamba解码器，如图2所示。解码器由三组通道感知视觉状态空间块（CAVSSB）和上采样操作组成。最后，解码的特征通过MLP层进行分类以进行语义分割预测。CAVSSB的详细信息如图5所示。CAVSSB结合了VSSB来处理融合特征。虽然VSSB擅长提取全局空间上下文，但在学习通道间信息方面存在不足。为了解决这个问题，作者应用通道注意力选择重要的通道表示。具体来说，作者的通道注意力操作包括平均池化和最大池化。这种简单的实现提供了有效的通道选择，同时保持了效率。此外，使用两个残差连接来获取最终输出。通过这种方式，作者形成了一个空间-通道感知方案，以实现稳健的解码。

4. 实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570527&idx=2&sn=e6858ad2ac577b6cd9dcc62770f1f723

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”论文信息

论文信息

题目：Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Sigma: 用于多模态语义分割的孪生Mamba网络

作者：Zifu Wan， Pingping Zhang， Yuhao Wang， Silong Yong， Simon Stepputtis， Katia Sycara， Yaqi Xie

源码：https://github.com/zifuwan/Sigma

论文创新点

摘要

关键字

3. Sigma: 孪生Mamba网络

3.2. 总体架构

3.3. 孪生Mamba编码器

3.4. 融合模块

3.5. 通道感知Mamba解码器

4. 实验

声明

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息