AAAI2025 | 开放词汇遥感语义分割, 代码已开源

文摘 2025-01-12 08:00 荷兰

RS DL

论文介绍

题目：Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

会议：39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文：https://arxiv.org/abs/2412.19492

代码：https://github.com/yecy749/GSNet

年份：2025

单位：大连理工大学

创新点

开创性任务：文章首次提出了“开放词汇遥感图像语义分割”（OVRSISS），旨在解决遥感图像中无法分割任意语义类别的问题。
新数据集构建：开发了LandDiscover50K数据集，包含51,846幅遥感图像，跨越40个类别，涵盖多样化分辨率和场景。
新框架设计：提出了GSNet框架，通过融合通用视觉语言模型（CLIP）和领域特定模型（RSIB），实现开放词汇分割。

说明

本文的关键是解决遥感图像语义分割中现有方法无法适应开放词汇的局限性，具体而言，传统方法依赖预定义类别，无法分割未见过的语义类别。为此，本文提出了开放词汇遥感图像语义分割（OVRSISS）任务及相关框架，旨在通过结合通用视觉语言模型与遥感领域特定知识，实现对任意语义类别的分割，提升模型在多样化场景中的泛化能力和适应性。

数据

本文提出了一个全新的开放词汇遥感图像语义分割数据集 LandDiscover50K，以解决现有遥感图像语义分割中缺乏多样性和开放任务支持的局限性问题。

规模：包含 51,846 张高分辨率遥感图像。
类别：覆盖 40 个语义类别，包括常见的土地覆盖类型（如水域、森林）和小目标（如车辆、桥梁）。
来源：整合了多个遥感数据集，结合已有数据进行扩展与精细化标注。

数据来源

LandDiscover50K 的图像和标注整合自以下已建立的遥感语义分割数据集：

Open Earth Map (OEM) (Xia et al., 2023)
LoveDA (Wang et al., 2021)
Deep Globe Land Cover (Demir et al., 2018)
SIOR (Wang et al., 2024)
SOTA (Wang et al., 2024)

整合过程中：

对相同类别进行合并标注。
保留精细的子类别，并将通用背景类别统一为“未标注”类，以减少标注偏差。

数据集特点

(1) 多样性：

图像涵盖了多种传感器数据和不同分辨率，包括来自高分辨率光学影像和卫星影像的场景。
空间分布均匀性：在图像中，类别和对象的空间分布较为均匀，减少了位置偏差对模型的影响。
包括从宏观的土地覆盖类型（如水域、森林）到微小的细目标（如桥梁、车辆等）。

(2) 高分辨率：图像分辨率范围从 400 到 1200 像素，适应遥感图像的细粒度需求。

(3) 标注类别：数据集标注了 40 个语义类别，如：

土地覆盖类型：如水体、草地、森林、灌丛、裸地。
人工结构：如建筑物、桥梁、道路、车辆。
极端条件：如洪水后场景

数据标注过程

标注规范性：通过整合不同来源的数据，统一标注标准和语义类别。
背景类处理：将不同数据集中定义的背景类别合并为统一的“未标注”类，以避免类别偏置。
细粒度标注：注重对小目标（如桥梁、车辆）以及大范围覆盖区域（如森林、耕地）的精确标注。

方法

总体框架

本文提出了一种用于开放词汇遥感图像语义分割（OVRSISS）的新框架，GSNet。主要模块包括：

双流图像编码器（DSIE）：同时从通用模型（CLIP）和领域特定模型（RSIB）提取特征。
查询引导特征融合（QGFF）：结合多源特征，通过引导词汇进行特征融合。
残差信息保持解码器（RIPD）：聚合多源特征，生成最终的高精度分割结果。

（1）双流图像编码器（DSIE）

DSIE 模块通过两条平行的特征提取流生成互补特征。CLIP 和 RSIB 的结合弥补了单一模型的局限性，其中 CLIP 提供了广泛的语义泛化能力，RSIB 提供了遥感领域的深度知识。

通用特征提取流：

基于 CLIP 模型，使用其预训练的视觉编码器提取通用特征。
CLIP 模型通过大规模图像-文本对预训练，擅长识别新目标和新语义。

领域特定特征提取流：

使用专为遥感图像设计的 RSIB 模型，从遥感影像中提取领域特定特征。
RSIB 通过自监督学习训练，仅利用 LandDiscover50K 的图像数据（无标签）获得遥感领域的知识。

(2) 查询引导特征融合（QGFF）

QGFF 模块解决了多源特征的互补与融合问题。相比简单的特征拼接，QGFF 能够在语义与领域特征之间建立更强的关联，显著提高模型的分割能力。

将来自通用模型和领域特定模型的特征进行分离和标准化，避免特征干扰。
使用查询引导机制：

通过输入的语义类别（如“森林”或“道路”）指导模型提取与目标相关的特征。
不仅考虑 CLIP 的语义关联，还结合 RSIB 的领域特征。

特征融合后进行残差连接，保持通用特征的完整性，同时强化领域特征。

(3) 残差信息保持解码器（RIPD）

RIPD 模块显著提升了边界识别和目标细节分割的精度，特别是在小目标和复杂场景中表现突出。

降噪和细节恢复：

由于遥感图像通常包含复杂的语义信息，解码过程中容易丢失细节或引入噪声。
RIPD 通过逐层聚合和上采样特征，有效恢复边界和细节。

多源特征聚合：

将来自通用流和领域流的中间特征逐步整合到解码过程中。
在每一阶段通过残差连接强化多源特征，减少特征融合损失。

精度

本文通过多个遥感数据集验证GSNet框架的性能，实验结果表明其在边界识别和复杂语义分割任务中表现优于其他方法。消融实验进一步证明了双流图像编码器、查询引导特征融合和残差信息保持解码器对模型性能提升的关键作用。

精度对比

可视化对比

更多图表分析可见原文

公众号AI回复功能已启用，如需加群、投稿或合作，请微信联系小助手（备注：咨询/投稿/合作/加群，加群需姓名/昵称、单位和研究方向）。

我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群，详见：方向群说明

公众号欢迎优秀作者投稿！投稿说明请查看：投稿说明

往期推荐

AAAI2025 | SemStereo: 实现遥感语义分割和立体匹配任务的协同优化

2024-12-30

TGRS | CrossMatch: 提升半监督遥感语义分割性能, 跨视图学习框架

2024-12-03

ISPRS | 多模态遥感语义分割,使用RGB和SAR数据用于土地覆盖分类的网络ASANet

2024-11-30

欢迎加入 | 遥感语义分割/目标检测/高光谱/大模型等方向交流群

2025-01-08

欢迎关注

分享遥感与深度学习领域的技术、论文、书籍、新鲜事。

欢迎加入遥感与深度学习交流群(点此加入)。

遥感与深度学习

聚焦遥感与深度学习，分享相关技术、论文、书籍、资讯，团队来自国内外著名期刊作者及审稿人

AAAI2025 | MMTracker: 结合Mamba和YOLO的无人机多目标跟踪, 代码开源

AAAI2025 | 开放词汇遥感语义分割, 代码已开源

TGRS | KDGraph: 关键点检测用于遥感道路提取, 有效减少阴影和遮挡影响！数据代码开源

资讯 | Maxar发布加州大火高清卫星遥感数据, 可下载

资讯 | 已公开的西藏定日县地震前后卫星影像和研判数据

欢迎加入 | 遥感语义分割/目标检测/高光谱/大模型等方向交流群

又一独特思路发遥感顶刊！

Science | 通过卫星以前所未有的细节绘制地球海底地图

AAAI2025 | 无人机地理定位新基准, 数据来自于游戏GTA V

TGRS | EarthGPT: 多模态遥感大语言模型, MMRS-1M数据已全部开源！

ISPRS | “内容净化”遥感变化检测框架, 内容和风格特征分离减少伪变化干扰

GRSM顶刊综述 | 光学遥感单目检测和分割全面回顾

系列开源算法｜可迁移遥感异常目标探测理论与方法, 基于偏离关系学习, 发表于TGRS/TIP等顶刊

TGRS | EarthMarker: 首个视觉提示遥感多模态大模型, 365万数据即将开源！

新年祝福 | 拥抱新起点, 来自顶尖论文作者的祝福！

公众号投稿说明

TPAMI | MetaEarth: 全球尺度遥感图像生成, 多分辨率、无边界、任意大小！

AAAI2025 | SemStereo: 实现遥感语义分割和立体匹配任务的协同优化

TPAMI | STAR: 大幅面卫星影像场景图生成数据, 目标检测并理解目标间的关系

最新论文 | CC-Diff: 推进遥感图像合成中的语境一致性, 代码已开源

TGRS | 细粒度农田制图模型, 数据和代码已开源

AAAI2025 | ChangeDiff: 文本控制生成变化检测数据, 代码已开源

AAAI2025 | ZoRI: 零样本遥感实例分割, 代码已开源

技术实践 | Sora 遥感视频生成实践, 圣诞假期Plus用户可无限量使用Sora

导师一个idea都没给，但也发了遥感顶会，我摸索的这个方法绝了！

资讯 | NASA与IBM发布扩展版地理空间AI基础模型, 含demo测试

RSE | 以遥感AI分类算法的发展视角重新思考高光谱成像核心参数的权衡性问题

ISPRS | 北大团队提出用于建筑年龄预测的图神经网络模型BAPN

GRSM | 回顾500个公开遥感数据集, 提出EarthNet AI遥感开放平台, 算法性能比较与数据集共享

招生招聘 | 中科院空天院2025年度高层次人才招聘

TGRS | EHSnet: 基于文本高级语义增强的多模态高光谱域泛化分类网络, 代码已开源

TGRS | 多云多雨地区农作物分类制图, 结合物候信息的模型PhenoCropNet, 可结合GEE大规模作物制图

最新论文 | BAFE-Net: 密集红外弱小目标数据集与检测框架

GRSM顶刊综述 | 全面总结SAR在城市洪水制图中的应用

NeurIPS24 | Terra: 覆盖全球的多模态时空数据集

BEDJ | 清华团队构建的全球民用遥感卫星数据库, 超2000颗卫星详细信息

没创新点？照样发遥感顶刊！

汇总 | 希腊字母在遥感/GIS/CV领域公式中的常见含义汇总

ISPRS | 克服遥感建筑变化检测中的不确定性问题, 代码已开源

TGRS | RingMoGPT: 空天院团队提出统一的视觉-语言遥感基础模型, 六大任务表现出色

ISPRS | PolyR-CNN: 端到端的建筑轮廓提取

RSE | 检测被树冠遮挡的城市区域? 遮挡感知精细化制图, 用于全国31个城市

数据汇总 | GEE中的13个免费高分辨率遥感数据集, 含示例代码

GRSM顶刊综述 | 遥感中的视觉-语言模型: 方法与数据资源汇总, 当前进展和未来趋势

遥感顶刊秘籍，一键解锁！如何弯道超车？

资讯 | Sentinel-1C 卫星成功发射

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉