RS DL
论文介绍
题目:PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery
论文:http://arxiv.org/abs/2406.10828
代码:https://github.com/WangLibo1995/GeoSeg
作者单位:南京信息工程大学,武汉大学,武汉科技大学,中科院空天院
创新点
PyramidMamba 网络:网络集成了一个基于 Mamba 的解码器,该解码器利用了密集空间金字塔池化 (DSPP) 模块和金字塔融合 Mamba (PFM) 模块。DSPP 捕捉细粒度的多尺度上下文,PFM 通过选择性过滤减少语义冗余。 选择性状态空间模型 (SSM):利用基于 SSM 的 Mamba 架构来增强多尺度特征表示,同时解决传统金字塔融合方法中的冗余问题。 即插即用解码器:PyramidMamba 被设计为一个即插即用的组件,可以集成到各种深度神经网络中,使其能够适应不同需要多尺度特征融合的应用场景。
数据
本文数据集已汇总在:https://github.com/rsdler/Remote-Sensing-Semantic-Segmentation-Dataset
1. OpenEarthMap 数据集
OpenEarthMap 是一个大规模的高分辨率土地覆盖映射数据集,共包含5000张图像。该数据集包括8类土地覆盖类型:裸地(bareland)、牧草地(rangeland)、开发用地(developed space)、道路(road)、树木(tree)、水域(water)、农业用地(agriculture land)和建筑物(building)。图像的空间分辨率范围从0.25米到0.5米不等。数据集覆盖了来自44个国家的97个区域,分布在六大洲,具有广泛的地理变异性和复杂的地理对象和场景。
2. ISPRS Vaihingen 数据集
Vaihingen 数据集由33个高分辨率图像块组成,每个图像块的平均大小为2494×2064像素。每个图像块包括三个多光谱波段(近红外、红色、绿色)以及数字表面模型 (DSM) 和归一化数字表面模型 (NDSM),地面采样距离为9厘米。该数据集包含五个前景类别:不透水地面(impervious surface)、建筑物(building)、低植被(low vegetation)、树木(tree)、车辆(car)和一个背景类别:杂物(clutter)。
3. ISPRS Potsdam 数据集
Potsdam 数据集包含38张超高分辨率的航空影像,每张影像的大小为6000×6000像素,地面采样距离为5厘米。该数据集包含四个光谱波段(红色、绿色、蓝色和近红外)以及 DSM 和 NDSM。与 Vaihingen 数据集类似,Potsdam 数据集也涉及6个类别,包括不透水表面、低植被、树木、车辆、建筑物和杂物。
方法
PyramidMamba 基于经典的编码器-解码器架构设计,旨在解决遥感图像语义分割中的多尺度特征融合和语义冗余问题。整个网络主要由图像编码器、基于 Mamba 的解码器以及Low-level特征融合等模块组成。
1.图像编码器
功能:编码器的作用是从输入的遥感图像中提取高层语义特征和低层细节特征,为解码器提供多尺度的特征表示。
实现:作者采用了轻量级的 ResNet18 和基于窗口的 Vision Transformer (Swin-Base) 作为编码器,构建了两种版本的 PyramidMamba。
轻量级版本:结合 ResNet18 构建的轻量级分割网络,适用于实时应用场景。
大型版本:结合 Swin-Base 构建的大型分割模型,能够提供更精确的分割结果。
2.基于 Mamba 的解码器
解码器是 PyramidMamba 的核心组件,用来处理多尺度特征融合中的语义冗余问题。其主要由两个部分组成:密集空间金字塔池化(DSPP)和金字塔融合 Mamba(PFM)模块。
2.1密集空间金字塔池化(DSPP)
功能:DSPP 模块的主要功能是通过不同的池化尺度来编码多尺度特征,从而捕获丰富的多尺度语义内容。
操作步骤:
池化操作:应用不同的池化尺度对高层特征图进行池化,生成多个不同尺度的特征图。
上采样:将这些池化后的特征图通过双线性插值操作上采样至与原始高层特征图相同的尺寸。
特征融合:将上采样后的特征图在通道维度上进行拼接,形成一个包含多尺度语义信息的特征图。
优势:DSPP 相较于标准的空间金字塔池化(如 PSPNet 中的 SPP 模块),在捕获多尺度上下文方面具有更好的表现,并且通过简单的拼接操作有效增强了多尺度特征表示。
3.2 金字塔融合 Mamba(PFM)
功能:PFM 模块利用 Mamba 模块的选择性扫描机制处理多尺度特征图,减少语义冗余,并增强跨尺度的特征表示。 操作步骤:
特征展平:将多尺度特征图展平成金字塔序列。
选择性过滤:将展平后的金字塔序列输入 Mamba 模块,通过选择性过滤机制提取跨尺度的核心语义信息。
特征增强:经过 Mamba 模块处理的多尺度特征图进一步输入到卷积前馈神经网络 (ConvFFN) 中,进行特征表示的进一步增强。
优势:PFM 模块通过 Mamba 的高效选择性扫描机制,能够有效减少多尺度特征融合中的冗余信息,并提升多尺度特征的语义表达能力。
结果和精度
精度评价
可视化对比
消融实验
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
相关链接:
论文赏读 | CM-UNet: 结合CNN和Mamba的遥感语义分割网络
汇总 | Mamba+遥感论文汇总,涉及分类、分割、变化检测、全色锐化等, 代码均已开源
论文赏读 | Mamba首次用于大遥感图像语义分割与变化检测,RS-Mamba模型
论文赏读 | TGRS | MambaHSI: 用于高光谱图像分类(语义分割)的空间光谱Mamba
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。