AAAI2025 | 开放词汇遥感语义分割, 代码已开源

文摘   2025-01-12 08:00   荷兰  

 RS   DL 

论文介绍

题目:Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文:https://arxiv.org/abs/2412.19492

代码:https://github.com/yecy749/GSNet

年份:2025
单位:大连理工大学

创新点

  • 开创性任务:文章首次提出了“开放词汇遥感图像语义分割”(OVRSISS),旨在解决遥感图像中无法分割任意语义类别的问题。
  • 新数据集构建:开发了LandDiscover50K数据集,包含51,846幅遥感图像,跨越40个类别,涵盖多样化分辨率和场景。
  • 新框架设计:提出了GSNet框架,通过融合通用视觉语言模型(CLIP)和领域特定模型(RSIB),实现开放词汇分割。

说明

本文的关键是解决遥感图像语义分割中现有方法无法适应开放词汇的局限性,具体而言,传统方法依赖预定义类别,无法分割未见过的语义类别。为此,本文提出了开放词汇遥感图像语义分割(OVRSISS)任务及相关框架,旨在通过结合通用视觉语言模型与遥感领域特定知识,实现对任意语义类别的分割,提升模型在多样化场景中的泛化能力和适应性。

数据


本文提出了一个全新的开放词汇遥感图像语义分割数据集 LandDiscover50K,以解决现有遥感图像语义分割中缺乏多样性和开放任务支持的局限性问题。
  • 规模:包含 51,846 张高分辨率遥感图像。

  • 类别:覆盖 40 个语义类别,包括常见的土地覆盖类型(如水域、森林)和小目标(如车辆、桥梁)。

  • 来源:整合了多个遥感数据集,结合已有数据进行扩展与精细化标注。

数据来源

LandDiscover50K 的图像和标注整合自以下已建立的遥感语义分割数据集:

  • Open Earth Map (OEM) (Xia et al., 2023)

  • LoveDA (Wang et al., 2021)

  • Deep Globe Land Cover (Demir et al., 2018)

  • SIOR (Wang et al., 2024)

  • SOTA (Wang et al., 2024)
整合过程中:
  • 对相同类别进行合并标注。

  • 保留精细的子类别,并将通用背景类别统一为“未标注”类,以减少标注偏差。

数据集特点

(1) 多样性:

  • 图像涵盖了 多种传感器数据 和 不同分辨率,包括来自高分辨率光学影像和卫星影像的场景。

  • 空间分布均匀性:在图像中,类别和对象的空间分布较为均匀,减少了位置偏差对模型的影响。

  • 包括从宏观的土地覆盖类型(如水域、森林)到微小的细目标(如桥梁、车辆等)。

(2) 高分辨率:图像分辨率范围从 400 到 1200 像素,适应遥感图像的细粒度需求。

(3) 标注类别:数据集标注了 40 个语义类别,如:

  • 土地覆盖类型:如水体、草地、森林、灌丛、裸地。

  • 人工结构:如建筑物、桥梁、道路、车辆。

  • 极端条件:如洪水后场景

数据标注过程

  • 标注规范性:通过整合不同来源的数据,统一标注标准和语义类别。
  • 背景类处理:将不同数据集中定义的背景类别合并为统一的“未标注”类,以避免类别偏置。
  • 细粒度标注:注重对小目标(如桥梁、车辆)以及大范围覆盖区域(如森林、耕地)的精确标注。

方法


总体框架
本文提出了一种用于开放词汇遥感图像语义分割(OVRSISS)的新框架,GSNet。主要模块包括:
  • 双流图像编码器(DSIE):同时从通用模型(CLIP)和领域特定模型(RSIB)提取特征。
  • 查询引导特征融合(QGFF):结合多源特征,通过引导词汇进行特征融合。
  • 残差信息保持解码器(RIPD):聚合多源特征,生成最终的高精度分割结果。

(1)双流图像编码器(DSIE)

DSIE 模块通过两条平行的特征提取流生成互补特征。CLIP 和 RSIB 的结合弥补了单一模型的局限性,其中 CLIP 提供了广泛的语义泛化能力,RSIB 提供了遥感领域的深度知识。
  • 通用特征提取流:
    • 基于 CLIP 模型,使用其预训练的视觉编码器提取通用特征。
    • CLIP 模型通过大规模图像-文本对预训练,擅长识别新目标和新语义。
  • 领域特定特征提取流:
    • 使用专为遥感图像设计的 RSIB 模型,从遥感影像中提取领域特定特征。
    • RSIB 通过自监督学习训练,仅利用 LandDiscover50K 的图像数据(无标签)获得遥感领域的知识。

(2) 查询引导特征融合(QGFF)

QGFF 模块解决了多源特征的互补与融合问题。相比简单的特征拼接,QGFF 能够在语义与领域特征之间建立更强的关联,显著提高模型的分割能力。

  • 将来自通用模型和领域特定模型的特征进行分离和标准化,避免特征干扰。
  • 使用查询引导机制:
    • 通过输入的语义类别(如“森林”或“道路”)指导模型提取与目标相关的特征。
    • 不仅考虑 CLIP 的语义关联,还结合 RSIB 的领域特征。
  • 特征融合后进行残差连接,保持通用特征的完整性,同时强化领域特征。

(3) 残差信息保持解码器(RIPD)

RIPD 模块显著提升了边界识别和目标细节分割的精度,特别是在小目标和复杂场景中表现突出。
  • 降噪和细节恢复
    • 由于遥感图像通常包含复杂的语义信息,解码过程中容易丢失细节或引入噪声。
    • RIPD 通过逐层聚合和上采样特征,有效恢复边界和细节。
  • 多源特征聚合:
    • 将来自通用流和领域流的中间特征逐步整合到解码过程中。
    • 在每一阶段通过残差连接强化多源特征,减少特征融合损失。

精度

本文通过多个遥感数据集验证GSNet框架的性能,实验结果表明其在边界识别和复杂语义分割任务中表现优于其他方法。消融实验进一步证明了双流图像编码器、查询引导特征融合和残差信息保持解码器对模型性能提升的关键作用。
精度对比
可视化对比

更多图表分析可见原文


公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:方向群说明

公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

往期推荐

AAAI2025 | SemStereo: 实现遥感语义分割和立体匹配任务的协同优化

2024-12-30

TGRS | CrossMatch: 提升半监督遥感语义分割性能, 跨视图学习框架

2024-12-03

ISPRS | 多模态遥感语义分割,使用RGB和SAR数据用于土地覆盖分类的网络ASANet

2024-11-30

欢迎加入 | 遥感语义分割/目标检测/高光谱/大模型等方向交流群

2025-01-08


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)

遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章