RS DL
论文介绍
题目:A Novel Scene Coupling Semantic Mask Network for Remote Sensing Image Segmentation
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:http://arxiv.org/abs/2501.13130
代码:https://github.com/xwmaxwma/rssegmentation
创新点
场景耦合注意力机制:利用地物目标之间的空间相关性提升注意力建模,并引入ROPE+模块,简单高效地捕捉目标的绝对位置和相对距离。 双域注意力模型:首次结合频域信息,提出面向遥感影像分割的双域注意力模型。 局部-全局语义掩码策略:通过带空间先验的语义掩码,解决类内差异和复杂背景干扰问题。 SCSM模型:将场景耦合注意力和语义掩码结合,提出SCSM,在四个基准数据集上表现领先,同时具备更高的效率和更少的参数量。
数据
LoveDA 数据集: 包含5987张高分辨率遥感影像(每张1024×1024像素,分辨率为0.3米)。 覆盖七类地物:建筑、道路、水体、荒地、森林、农业用地和背景。 包括城市和农村两个域,具有多尺度目标、复杂背景样本和不一致的样本分布等挑战。 ISPRS Vaihingen 数据集: 由德国航空航天中心(DLR)提供,包含33张航拍影像(分辨率9厘米)。 影像覆盖一个小城镇,包含建筑、植被、道路等多种地物。 标签包括:不可渗透地表、建筑物、低矮植被、树木、汽车和背景。 ISPRS Potsdam 数据集: 同样由DLR提供,包含38张城市区域的航拍影像(分辨率5厘米,6000×6000像素)。 数据集包括四个多光谱波段(近红外、红光、绿光、蓝光),并提供数字表面模型(DSM)。 类别与Vaihingen数据集相同。 iSAID 数据集: 包含2806张高分辨率遥感影像,影像大小从800×800到4000×13000像素不等。 是遥感领域最大的语义分割数据集之一,包含15个类别的655,451个密集标注目标实例。
方法
骨干网络:提取输入影像的深度特征。 语义掩码生成模块(Semantic Mask Generation, SMG):生成带空间先验的局部和全局语义掩码,用于缓解复杂背景干扰和类内差异。 场景耦合注意力模块(Scene Coupling Attention, SCA):将场景全局表示和目标分布嵌入注意力计算,挖掘地物目标的内在空间相关性。
语义掩码生成模块(Semantic Mask Generation, SMG)
SMG 的目标:通过语义掩码减少背景噪声干扰,并增强对目标类别的建模能力。
关键策略 - 局部-全局语义掩码(LGSM):
局部语义掩码: 通过局部上下文信息,提取特定类别的细粒度特征。 利用空间先验减少背景噪声的影响。 全局语义掩码:提取全局场景的上下文特征,提升类间关系的建模能力。 结合局部与全局语义掩码:通过这两种掩码的结合,增强类内一致性,提升分割精度。
场景耦合注意力机制(Scene Coupling Attention, SCA)
该模块对传统注意力机制进行了重构,将遥感影像中的地物目标分解为场景全局表示和场景目标分布。 场景全局表示:通过离散余弦变换(DCT)提取频域信息,捕获场景的全局语义特征。 场景目标分布:使用增强版旋转位置编码(ROPE+),捕捉目标的绝对位置和相对空间分布特性,从而更好地建模场景内部的空间依赖性。
工作流程
特征提取:输入影像经过骨干网络提取深度特征,并通过卷积层进行降维处理。 语义掩码生成:将提取的特征分块处理,生成局部和全局语义掩码。 场景耦合建模:将局部和全局掩码与场景全局表示、目标分布相结合,完成注意力计算,生成语义增强的特征表示。 输出分割结果:经过分类头和上采样操作,生成最终的像素级分割结果。
结果与分析
本文方法在四个基准数据集上表现优异,特别是在复杂背景和多尺度目标的场景中展现了强大的分割能力。相比现有方法,SCSM 实现了更高的分割精度,同时兼具较低的参数量和计算开销,体现出良好的效率与性能平衡。
更多图表分析可见原文
公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明
2024-12-30
2024-12-03
2025-01-12
2024-11-30
2025-01-24
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。