RS DL
论文介绍
题目:Learning transferable land cover semantics for open vocabulary interactions with remote sensing images
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:https://doi.org/10.1016/j.isprsjprs.2025.01.006
代码:https://github.com/eceo-epfl/RS-OVSS
创新点
开放词汇土地覆盖分类:不同于传统依赖固定分类标签的土地覆盖分类模型,本研究引入开放词汇方法,允许用户用自然语言定义土地覆盖类别。 视觉-语言模型(VLMs)在遥感中的应用:该研究将CLIP、SentenceBERT等语言-视觉模型应用于遥感。 对比学习的语义分割方法:提出TACOSS(Text As supervision for COntrastive Semantic Segmentation),利用对比学习来对齐像素级的视觉和文本特征。 文本增强(EDA)提升泛化能力:采用Easy Data Augmentation (EDA) 进行文本数据增强,提高模型在不同标签集上的鲁棒性。 跨数据集迁移性:模型在未见过的瑞士TLM数据集上进行测试,评估其跨区域和跨标签集的泛化能力。
数据
训练数据集:FLAIR 法国国家地理信息研究所(IGN) 提供的高分辨率(0.2m)航拍数据。 包含19个土地覆盖类别,训练时合并为13个常见类别。 2018-2021年 不同月份采集的数据,涵盖季节变化。 测试数据集:瑞士TLM 瑞士联邦测绘局(swisstopo) 提供的高分辨率(0.25m)航拍影像。 土地覆盖标签基于 swissTLM3D 数据,专家人工标注(2014-2017年)。 包含 13种土地覆盖类型(如建筑物、农田、森林、湖泊、道路等)。
方法
本文提出了一种开放词汇语义分割方法(TACOSS),用于遥感图像的土地覆盖分类,核心思想是通过视觉-语言对齐,让模型能够理解自然语言输入,并进行像素级分类。
视觉编码器:采用 CNN(DeepLabV3+) 和 Transformer(SegFormer) 进行语义分割,提取像素级特征。 文本编码器:使用 CLIP、SentenceBERT 和 GloVe 等预训练语言模型,将土地覆盖类别转换为文本嵌入。
分类分支:生成标准的像素分类结果,与传统语义分割类似。 语义分支:生成像素级的语义特征,并与文本特征对齐,使模型能够理解不同描述方式的类别。
同一类别的像素特征要尽可能接近对应的文本描述特征。 不同类别的像素特征则应当彼此区分,防止语义混淆。
模型会计算输入文本与像素级特征的相似度,生成对应的语义地图。 用户可以使用不同的词汇、短语或描述方式,如“森林”、“树林”、“灌木丛”,模型都能理解并进行匹配。
结果与分析
可视化
更多图表分析可见原文
公众号升级版AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:交流群说明
2025-01-12
2024-12-25
2024-12-03
2025-01-08
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。