ISPRS | 探索未知! 开放词汇语义分割用于遥感土地覆盖制图, 代码开源

文摘   2025-01-31 08:38   荷兰  

 RS   DL 

论文介绍

题目:Learning transferable land cover semantics for open vocabulary interactions with remote sensing images

期刊:ISPRS Journal of Photogrammetry and Remote Sensing

论文:https://doi.org/10.1016/j.isprsjprs.2025.01.006

代码:https://github.com/eceo-epfl/RS-OVSS

年份:2025
单位:瑞士洛桑联邦理工学院, 法国国立工艺学院, 法国国家信息与自动化研究所Inria与蒙彼利埃大学

创新点

  • 开放词汇土地覆盖分类:不同于传统依赖固定分类标签的土地覆盖分类模型,本研究引入开放词汇方法,允许用户用自然语言定义土地覆盖类别。
  • 视觉-语言模型(VLMs)在遥感中的应用:该研究将CLIP、SentenceBERT等语言-视觉模型应用于遥感。
  • 对比学习的语义分割方法:提出TACOSS(Text As supervision for COntrastive Semantic Segmentation),利用对比学习来对齐像素级的视觉和文本特征。
  • 文本增强(EDA)提升泛化能力:采用Easy Data Augmentation (EDA) 进行文本数据增强,提高模型在不同标签集上的鲁棒性。
  • 跨数据集迁移性:模型在未见过的瑞士TLM数据集上进行测试,评估其跨区域和跨标签集的泛化能力。

数据


  • 训练数据集:FLAIR
    • 法国国家地理信息研究所(IGN) 提供的高分辨率(0.2m)航拍数据。
    • 包含19个土地覆盖类别,训练时合并为13个常见类别。
    • 2018-2021年 不同月份采集的数据,涵盖季节变化。
  • 测试数据集:瑞士TLM
    • 瑞士联邦测绘局(swisstopo) 提供的高分辨率(0.25m)航拍影像。
    • 土地覆盖标签基于 swissTLM3D 数据,专家人工标注(2014-2017年)。
    • 包含 13种土地覆盖类型(如建筑物、农田、森林、湖泊、道路等)。

方法


本文提出了一种开放词汇语义分割方法(TACOSS),用于遥感图像的土地覆盖分类,核心思想是通过视觉-语言对齐,让模型能够理解自然语言输入,并进行像素级分类。

1. 视觉-语言融合框架
TACOSS 结合视觉编码器和文本编码器,通过对比学习对齐像素级的视觉特征和文本特征。这样,用户可以通过自然语言输入土地覆盖类别,而不需要固定的分类标签。
  • 视觉编码器:采用 CNN(DeepLabV3+) 和 Transformer(SegFormer) 进行语义分割,提取像素级特征。
  • 文本编码器:使用 CLIP、SentenceBERT 和 GloVe 等预训练语言模型,将土地覆盖类别转换为文本嵌入。
2. 语义分割网络
模型采用一个双分支结构:
  • 分类分支:生成标准的像素分类结果,与传统语义分割类似。
  • 语义分支:生成像素级的语义特征,并与文本特征对齐,使模型能够理解不同描述方式的类别。

3. 语义对齐策略
在训练过程中,模型通过对比学习强化视觉和文本的对齐能力:
  • 同一类别的像素特征要尽可能接近对应的文本描述特征。
  • 不同类别的像素特征则应当彼此区分,防止语义混淆。
4. 文本增强(EDA)提升泛化能力
为了提高模型对不同文本描述的适应能力,研究引入了文本增强(Easy Data Augmentation, EDA),通过同义词替换、词序调整、随机删除单词等方式,生成多个不同版本的土地覆盖类别描述,使模型学习更丰富的语义表达方式。
5. 开放词汇推理
在推理过程中,TACOSS 允许用户输入任何自然语言短语,而不仅仅局限于训练时的类别名称:
  • 模型会计算输入文本与像素级特征的相似度,生成对应的语义地图。
  • 用户可以使用不同的词汇、短语或描述方式,如“森林”、“树林”、“灌木丛”,模型都能理解并进行匹配。

结果与分析

实验表明,TACOSS 在标准分类任务、开放词汇交互和跨数据集迁移方面表现良好,尤其在不同文本描述和不同地区的数据集上仍能保持较高的准确性。虽然精度略低于传统方法,但其灵活性、可迁移性和用户交互能力更强,适用于更广泛的遥感分类任务。
精度表现

可视化

更多图表分析可见原文


众号升级版AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。

我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:交流群说明

公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

往期推荐

AAAI2025 | 开放词汇遥感语义分割, 代码已开源

2025-01-12

AAAI2025 | ZoRI: 零样本遥感实例分割, 代码已开源

2024-12-25

TGRS | CrossMatch: 提升半监督遥感语义分割性能, 跨视图学习框架

2024-12-03

欢迎加入 | 遥感语义分割/目标检测/高光谱/大模型等方向交流群

2025-01-08


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)

遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章