数据论文 | AAAI24 | SkyScript: 斯坦福团队提出的大型遥感视觉-语言数据集, 关注语义多样性

文摘   2024-08-27 08:46   荷兰  

 RS   DL 

论文介绍

题目:SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing
会议:The Thirty-Eighth AAAI Conference on Artificial Intelligence 2024 (AAAI, CCF-A会议)
论文:http://arxiv.org/abs/2312.12856
数据:https://github.com/wangzhecheng/SkyScript

年份:2024

作者单位:斯坦福大学

注:本篇经由论文原作者审阅

创新点

  • 语义多样的数据集:SkyScript关注语义多样性,包括道路表面材料或农作物类型等细粒度细节,使其成为训练需要详细理解和分类能力的模型的宝贵资源。

  • 自动化的数据配对方法:研究提出了利用地理坐标将遥感图像与OSM数据自动配对的创新方法,绕过了人工标注的需求,节省了成本和时间。

  • 提升模型性能的展示:作者通过在SkyScript上预训练CLIP模型,展示了数据集不仅提高了模型在遥感任务中的性能,优于在普通图像-文本数据集上训练的模型。

数据集构建

1. 数据源选择

  • 图像来源:SkyScript数据集的图像来源于Google Earth Engine (GEE),GEE提供了开放访问的大规模遥感图像集合,这些图像来自多个不同的来源,包括卫星和航空影像。这些图像数据没有许可限制,可以用于研究目的。表1列出了SkyScript数据集中使用的图像集合。


  • 语义信息来源:语义信息来自OpenStreetMap (OSM),OSM是一个开放的、众包的地理数据库,每个对象由一个或多个标签(tags)描述。


2. 图像和语义标签的关联

  • 地理坐标配对:通过使用地理坐标,将从GEE获取的遥感图像与OSM数据库中的标签关联。具体来说,作者首先从OSM数据库中提取语义信息,然后根据这些信息的地理坐标,在GEE中选择覆盖相应区域的遥感图像。


  • 两阶段标签分类
    • 第一阶段:判断OSM标签是否可以在遥感图像中被视觉识别。如果标签可以通过视觉识别,则进入第二阶段。

    • 第二阶段:进一步预测标签可以在多大空间分辨率下被视觉识别。这个阶段的目的是确定标签是否适合用于描述特定分辨率的图像。

3. 图像选择

  • 对象选择:对象选择分为两个阶段:第一阶段是随机选择覆盖全球的网格,然后从OSM数据库中查询这些网格中的对象,以确保全球代表性和语义多样性;第二阶段是针对性选择那些在第一阶段未被覆盖的稀有标签。
  • 图像选择:对于点或折线表示的对象,选择适合的图像集合和图像边界,使得对象处于图像的中心或附近。对于多边形表示的对象,使用多边形的边界框作为图像边界。

4. 文本描述的生成

对每个对象生成两个描述文本:一个是只描述对象自身的单对象描述;另一个是描述图像中多个对象的多对象描述。这些描述由OSM标签自动生成,并通过规则组合形成较为自然的语言表达。

5. 过滤不相关的图像-文本对

为了减少数据集中的噪声信息,作者使用OpenAI的ViT-L/14 CLIP模型计算每对图像-文本的余弦相似度,只保留相似度最高的前20%、30%或50%的图像-文本对,确保数据集的高质量。

数据集特点

1. 大规模和多样性:

SkyScript数据集包含260万对图像-文本对,覆盖了29,000个不同的语义标签。这使得SkyScript成为现有遥感领域中最为语义丰富的数据集之一。

数据集不仅包含广泛的类别信息(如不同类型的道路、建筑物、自然地形等),还包含了细粒度的属性信息(如道路的表面材料、农作物类型、发电厂的能源来源和容量等)。

2. 全球覆盖:

数据集有全球范围的地理覆盖,其中美国和欧洲的高分辨率图像较多。这是因为这些地区的高分辨率图像数据更为集中,且这些区域的OSM标注更为完整。

3. 语义丰富性:

数据集的语义标签多样,且包括细粒度的类别和属性。例如,数据集可以描述作物的类型、道路的表面材料、电力设施的具体特征等。这种细粒度的信息对训练细粒度分类模型很有帮助。

4. 图像-文本对的高质量:

通过计算图像与文本描述的相似度并过滤不相关的对,确保数据集的高质量。最终保留的图像-文本对中,文本描述与图像内容的相关性较高,准确率达到96.1%。

5. 多用途性:

由于数据集的多样性和丰富性,SkyScript可用于遥感领域中的多种任务,包括开放词汇分类、跨模态检索、图像描述生成以及文本到图像的合成等。

实验和应用

  • 零样本场景分类:测试模型在不同遥感数据集上的分类能力。

  • 细粒度分类:评估模型在细粒度属性分类任务中的表现。

  • 跨模态检索:测试模型在图像和文本之间进行检索的能力。

1. 零样本场景分类(Zero-Shot Scene Classification)

评估SkyScript数据集上预训练的CLIP模型(称为SkyCLIP)在未见过的遥感场景分类任务中的表现,验证其泛化能力。

1.1 基准数据集

实验使用了七个常见的遥感场景分类基准数据集,包括:

  • AID:包含30类场景,共2000张测试图像。

  • EuroSAT:包含10类场景,共2700张测试图像。

  • fMoW:包含62类场景,共106,081张验证集图像。

  • Million-AID:包含51类场景,共10,000张训练集图像。

  • PatternNet:包含38类场景,共30,400张训练集图像。

  • NWPU-RESISC45:包含45类场景,共31,500张训练集图像。

  • RSI-CB256:包含35类场景,共24,747张训练集图像。

1.2 实验设置

  • 使用了两种版本的CLIP模型:ViT-B-32和ViT-L-14,分别以不同的视觉变换器结构进行预训练。

  • 进行了持续预训练,基于SkyScript数据集对CLIP模型进行微调,以提高其在遥感任务中的表现。

  • 比较模型包括原始的CLIP模型、基于LAION-RS(从LAION-2B中提取的遥感子集)训练的CLIP模型以及其他已发表的遥感特定模型。

1.3 实验结果

SkyCLIP 在所有基准数据集上的平均Top-1准确率高于原始CLIP模型。相较于使用LAION-RS进行预训练的模型,SkyCLIP在大多数基准数据集上也表现更好,表明SkyScript数据集在遥感领域的独特优势。

2. 细粒度分类(Fine-Grained Classification)

验证SkyScript数据集对细粒度属性分类任务的支持能力,如屋顶形状、道路平整度和道路表面材料的分类。

2.1 实验设置

构建了三个测试集,分别用于屋顶形状(6类)、道路平整度(5类)和道路表面材料(5类)的分类,每类包含60到100张图像。这些测试图像通过Google和Bing Maps API获取,确保这些图像与SkyScript中的图像不重复,从而严格遵循零样本原则。

2.2 实验结果

SkyCLIP模型在细粒度分类任务中的表现显著优于原始CLIP模型。结果表明,SkyScript丰富的语义信息可以有效支持遥感图像中的细粒度分类任务,特别是那些标注数据稀缺的应用场景。

3. 跨模态检索(Cross-Modal Retrieval)

评估SkyCLIP模型在图像到文本(img2txt)和文本到图像(txt2img)检索任务中的表现。

3.1 基准数据集

实验使用了四个跨模态检索数据集:

  • SkyScript-retrieval:包含30,000对图像-文本对,是从SkyScript数据集中独立划分出来的测试集。

  • UCM-Captions:遥感图像描述数据集。

  • RSICD:包含超过10,000张图像及其描述。

  • RSITMD:一个多尺度跨模态遥感图像检索数据集。

3.2 实验设置

使用平均召回率(Mean Recall, 包括Recall@1、Recall@5和Recall@10)来评估模型的检索性能。

与原始CLIP模型和基于LAION-RS预训练的CLIP模型进行了比较,还与其他已发表的遥感跨模态检索模型(如AMFMN、LW-MCR、GaLR)进行了对比。

3.3 实验结果

在SkyScript-retrieval、UCM-Captions、RSICD和RSITMD数据集上,SkyCLIP模型的检索性能稳步优于其他对比模型,特别是在未见过的跨模态检索任务中,展现出卓越的零样本迁移能力。在UCM-Captions数据集上,SkyCLIP在文本到图像检索中超越了监督学习模型,表现出更强的跨模态检索能力。

注:更多图表分析可见原文,原文附录中有更多信息


欢迎关注CVPR/ECCV 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



问题及讨论可直接在文章下方留言


相关链接:


数据论文 | VRSBench: 大规模高质量遥感视觉语言基准数据集
论文赏读 | ECCV24 | LHRS-Bot: 遥感视觉语言多模态大模型; 基于OSM地理信息和遥感影像构建大型数据集
最新综述 | 首篇视觉语言地理基础模型综述,方法、数据集及能力对比
论文赏读 | CVPR24 | GeoChat用于遥感的大视觉-语言模型,包含开源代码和数据
论文赏读 05 | 汇总| 遥感多模态基础模型/大模型汇总


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章