RS DL
论文介绍
年份:2024
作者单位:斯坦福大学
注:本篇经由论文原作者审阅
创新点
语义多样的数据集:SkyScript关注语义多样性,包括道路表面材料或农作物类型等细粒度细节,使其成为训练需要详细理解和分类能力的模型的宝贵资源。
自动化的数据配对方法:研究提出了利用地理坐标将遥感图像与OSM数据自动配对的创新方法,绕过了人工标注的需求,节省了成本和时间。
提升模型性能的展示:作者通过在SkyScript上预训练CLIP模型,展示了数据集不仅提高了模型在遥感任务中的性能,优于在普通图像-文本数据集上训练的模型。
数据集构建
1. 数据源选择
图像来源:SkyScript数据集的图像来源于Google Earth Engine (GEE),GEE提供了开放访问的大规模遥感图像集合,这些图像来自多个不同的来源,包括卫星和航空影像。这些图像数据没有许可限制,可以用于研究目的。表1列出了SkyScript数据集中使用的图像集合。
语义信息来源:语义信息来自OpenStreetMap (OSM),OSM是一个开放的、众包的地理数据库,每个对象由一个或多个标签(tags)描述。
2. 图像和语义标签的关联
地理坐标配对:通过使用地理坐标,将从GEE获取的遥感图像与OSM数据库中的标签关联。具体来说,作者首先从OSM数据库中提取语义信息,然后根据这些信息的地理坐标,在GEE中选择覆盖相应区域的遥感图像。
两阶段标签分类 第一阶段:判断OSM标签是否可以在遥感图像中被视觉识别。如果标签可以通过视觉识别,则进入第二阶段。
第二阶段:进一步预测标签可以在多大空间分辨率下被视觉识别。这个阶段的目的是确定标签是否适合用于描述特定分辨率的图像。
3. 图像选择
对象选择:对象选择分为两个阶段:第一阶段是随机选择覆盖全球的网格,然后从OSM数据库中查询这些网格中的对象,以确保全球代表性和语义多样性;第二阶段是针对性选择那些在第一阶段未被覆盖的稀有标签。 图像选择:对于点或折线表示的对象,选择适合的图像集合和图像边界,使得对象处于图像的中心或附近。对于多边形表示的对象,使用多边形的边界框作为图像边界。
4. 文本描述的生成
对每个对象生成两个描述文本:一个是只描述对象自身的单对象描述;另一个是描述图像中多个对象的多对象描述。这些描述由OSM标签自动生成,并通过规则组合形成较为自然的语言表达。
5. 过滤不相关的图像-文本对
为了减少数据集中的噪声信息,作者使用OpenAI的ViT-L/14 CLIP模型计算每对图像-文本的余弦相似度,只保留相似度最高的前20%、30%或50%的图像-文本对,确保数据集的高质量。
数据集特点
1. 大规模和多样性:
SkyScript数据集包含260万对图像-文本对,覆盖了29,000个不同的语义标签。这使得SkyScript成为现有遥感领域中最为语义丰富的数据集之一。
数据集不仅包含广泛的类别信息(如不同类型的道路、建筑物、自然地形等),还包含了细粒度的属性信息(如道路的表面材料、农作物类型、发电厂的能源来源和容量等)。
2. 全球覆盖:
数据集有全球范围的地理覆盖,其中美国和欧洲的高分辨率图像较多。这是因为这些地区的高分辨率图像数据更为集中,且这些区域的OSM标注更为完整。
3. 语义丰富性:
数据集的语义标签多样,且包括细粒度的类别和属性。例如,数据集可以描述作物的类型、道路的表面材料、电力设施的具体特征等。这种细粒度的信息对训练细粒度分类模型很有帮助。
4. 图像-文本对的高质量:
通过计算图像与文本描述的相似度并过滤不相关的对,确保数据集的高质量。最终保留的图像-文本对中,文本描述与图像内容的相关性较高,准确率达到96.1%。
5. 多用途性:
由于数据集的多样性和丰富性,SkyScript可用于遥感领域中的多种任务,包括开放词汇分类、跨模态检索、图像描述生成以及文本到图像的合成等。
实验和应用
零样本场景分类:测试模型在不同遥感数据集上的分类能力。
细粒度分类:评估模型在细粒度属性分类任务中的表现。
跨模态检索:测试模型在图像和文本之间进行检索的能力。
1. 零样本场景分类(Zero-Shot Scene Classification)
评估SkyScript数据集上预训练的CLIP模型(称为SkyCLIP)在未见过的遥感场景分类任务中的表现,验证其泛化能力。
1.1 基准数据集
实验使用了七个常见的遥感场景分类基准数据集,包括:
AID:包含30类场景,共2000张测试图像。
EuroSAT:包含10类场景,共2700张测试图像。
fMoW:包含62类场景,共106,081张验证集图像。
Million-AID:包含51类场景,共10,000张训练集图像。
PatternNet:包含38类场景,共30,400张训练集图像。
NWPU-RESISC45:包含45类场景,共31,500张训练集图像。
RSI-CB256:包含35类场景,共24,747张训练集图像。
1.2 实验设置
使用了两种版本的CLIP模型:ViT-B-32和ViT-L-14,分别以不同的视觉变换器结构进行预训练。
进行了持续预训练,基于SkyScript数据集对CLIP模型进行微调,以提高其在遥感任务中的表现。
比较模型包括原始的CLIP模型、基于LAION-RS(从LAION-2B中提取的遥感子集)训练的CLIP模型以及其他已发表的遥感特定模型。
1.3 实验结果
SkyCLIP 在所有基准数据集上的平均Top-1准确率高于原始CLIP模型。相较于使用LAION-RS进行预训练的模型,SkyCLIP在大多数基准数据集上也表现更好,表明SkyScript数据集在遥感领域的独特优势。
2. 细粒度分类(Fine-Grained Classification)
验证SkyScript数据集对细粒度属性分类任务的支持能力,如屋顶形状、道路平整度和道路表面材料的分类。
2.1 实验设置
构建了三个测试集,分别用于屋顶形状(6类)、道路平整度(5类)和道路表面材料(5类)的分类,每类包含60到100张图像。这些测试图像通过Google和Bing Maps API获取,确保这些图像与SkyScript中的图像不重复,从而严格遵循零样本原则。
2.2 实验结果
SkyCLIP模型在细粒度分类任务中的表现显著优于原始CLIP模型。结果表明,SkyScript丰富的语义信息可以有效支持遥感图像中的细粒度分类任务,特别是那些标注数据稀缺的应用场景。
3. 跨模态检索(Cross-Modal Retrieval)
评估SkyCLIP模型在图像到文本(img2txt)和文本到图像(txt2img)检索任务中的表现。
3.1 基准数据集
实验使用了四个跨模态检索数据集:
SkyScript-retrieval:包含30,000对图像-文本对,是从SkyScript数据集中独立划分出来的测试集。
UCM-Captions:遥感图像描述数据集。
RSICD:包含超过10,000张图像及其描述。
RSITMD:一个多尺度跨模态遥感图像检索数据集。
3.2 实验设置
使用平均召回率(Mean Recall, 包括Recall@1、Recall@5和Recall@10)来评估模型的检索性能。
与原始CLIP模型和基于LAION-RS预训练的CLIP模型进行了比较,还与其他已发表的遥感跨模态检索模型(如AMFMN、LW-MCR、GaLR)进行了对比。
3.3 实验结果
在SkyScript-retrieval、UCM-Captions、RSICD和RSITMD数据集上,SkyCLIP模型的检索性能稳步优于其他对比模型,特别是在未见过的跨模态检索任务中,展现出卓越的零样本迁移能力。在UCM-Captions数据集上,SkyCLIP在文本到图像检索中超越了监督学习模型,表现出更强的跨模态检索能力。
注:更多图表分析可见原文,原文附录中有更多信息
欢迎关注CVPR/ECCV 2024系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
相关链接:
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。