最新论文 | 评估遥感大模型的基准 PANGAEA Benchmark, 在13个数据集上评测9个代表性的遥感预训练大模型

文摘   2024-12-16 08:04   荷兰  


 RS   DL 

论文介绍

题目:PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models

论文:https://arxiv.org/abs/2412.04204

代码:https://github.com/VMarsocci/pangaea-bench

年份:2024

作者单位: 比利时鲁汶大学,瑞典皇家理工等

创新点

  • 全面基准测试:PANGAEA 建立了一个全球性的地理空间基础模型(GFMs)基准测试框架,涵盖多样化的数据集、任务、分辨率、传感器模式和时间特性,解决了现有基准中地理和任务偏向性的问题。
  • 包括非洲和东南亚等代表性不足的区域数据,减轻了许多现有数据集的偏见。
  • 多功能评估协议:提出了一个统一的框架,用于在多种场景下(如全监督、半监督和多时间序列任务)评估 GFMs。
  • 提供开源代码,支持实验的可重复性和可扩展性。


数据集

为了建立一个符合实际应用场景的全新基准,作者根据以下关键参数选择了数据集
应用领域
数据集涵盖 城市、农业、森林、海洋和灾害 等领域。确保模型能够适应不同的领域挑战,例如:
  • 城市:土地覆盖分割(如 Five Billion Pixels)。
  • 农业:作物类型识别(如 Crop Type Mapping)。
  • 森林:生物量估算(如 BioMassters)。
  • 灾害:洪水分割和损坏检测(如 Sen1Floods11 和 xView2)。
  • 海洋:污染物分割(如 MADOS)。

任务类型
数据集以 密集像素级任务 为主,包括:
  • 语义分割(Semantic Segmentation)。
  • 变化检测(Change Detection)。
  • 回归(Regression)。
不包括分类和目标检测任务,原因是:
  • 分类任务不能提供高分辨率的空间细节。
  • 目标检测任务缺乏一致的评价协议。
多模态性
  • 包括不同传感器的数据(如 SAR、光学、LiDAR)。
  • 目前主要集中在光学和 SAR 数据,例如 Sentinel-1 和 Sentinel-2。
时间维度
数据集涵盖单时间、双时间和多时间数据,支持评估模型在动态场景中的表现
  • 多时间数据:用于监测城市扩张、季节性作物评估。
  • 单时间数据:静态场景下的语义分割。
地理多样性
缓解现有数据集对北美和欧洲的偏向,增加了 非洲、亚洲和南美 的代表性。
例如,Crop Type Mapping 数据集覆盖非洲南苏丹,AI4SmallFarms 涵盖东南亚地区。

模型选择和评估框架

为了有效地对不同 GFM 的性能进行基准测试,PANGEA 包括根据三个标准选择的九个模型
  • 可复现性(Reproducibility):
    • 模型必须提供开源代码和预训练权重。
  • 多样性(Approach Diversity):
    包括不同的预训练策略,例如:
    • 对比学习(Contrastive Learning)。
    • 掩码图像建模(Masked Image Modeling, MIM)。
    • 多时间特性(Multi-temporal Features)。
  • 学术影响力(Impact):选择在顶级会议或期刊中发表的模型,例如 Scale-MAE 和 CROMA。

评估框架

本文指定了统一的评估框架,将预训练模型作为冻结的特征提取器,结合标准解码器(如 UPerNet)进行语义分割、变化检测和回归任务评估。数据经过标准化处理并重采样到统一分辨率(10 m/pixel),多时间数据通过线性映射或 L-TAE 提取特征。训练使用 Adam 优化器,80 个训练周期,学习率多步下降。通过滑窗推理解决大分辨率图像的处理需求。评估包括全监督、稀缺数据、多模态、多时间场景,主要指标为 mIoU(分割)、F1 分数(变化检测)、RMSE(回归)等,确保不同模型在多任务下具有可比性。

实验结果

1 Main Comparison 主要对比

  • 内容:
    • 比较地理空间基础模型(GFMs)在 11 个基准数据集上的性能,包括语义分割、变化检测和回归任务。
    • 引入两种基线模型(UNet 和 ViT)作为对比。
  • 主要发现:
    • 在复杂任务(如 SpaceNet 7 和 MADOS)中,GFMs 表现优越。
    • 基线模型在简单任务中仍然占优。

5.2 Data Scarcity 数据稀缺情况

  • 内容:
    • 在标注数据量减少至 50% 和 10% 的情况下,评估模型性能。
    • 模拟真实场景中标注数据稀缺的情况。
  • 主要发现:
    • 在数据量减少的情况下,GFMs 比监督基线模型表现更好。
    • CROMA 在 10% 数据场景下仍保持领先。

5.3 Normalization Impact 归一化影响

  • 内容:
    • 探讨解码器微调阶段的归一化策略对模型性能的影响。
    • 对比归一化与非归一化的结果。
  • 主要发现:
    • 在低分辨率数据集(如 HLS Burn Scars 和 MADOS)中,归一化对性能影响显著。
    • 在高分辨率数据集(如 SpaceNet 7)中,归一化的作用较小。

5.4 Matching Training Resolution of the Model 匹配模型的训练分辨率

  • 内容:
    • 测试将测试数据的分辨率调整为训练分辨率对模型性能的影响。
    • 数据集包括 FiveBillionPixels。
  • 主要发现:
    • 在低分辨率训练的模型上,调整输入分辨率会导致性能下降。
    • 细粒度空间细节对于复杂数据集至关重要。

5.5 Temporal Capabilities and Aggregation Strategies 时间特性与聚合策略

  • 内容:
    • 比较多时间序列数据集上的不同时间特性聚合策略(如线性映射与轻量时间注意力编码器 L-TAE)。
    • 数据集包括 PASTIS-R 和 DynamicEarthNet。
  • 主要发现:
    • L-TAE 通常优于线性映射,但在小时间窗口(如 DynamicEarthNet)中可能导致过拟合。

5.6 Domain Adaptation 领域适应

  • 内容:
    • 分析模型在跨区域适应任务中的表现。
    • 评估区域间的类别分布差异对模型性能的影响。
  • 主要发现:
    • 跨区域适应任务对模型构成巨大挑战。
    • 性能通常因类别分布差异显著下降。

5.7 Consideration on the Training Convergence 关于收敛性的考虑

  • 内容:
    • 比较不同模型在复杂和简单数据集上的训练损失收敛趋势。
    • 数据集包括 FBP 和 MADOS。
  • 主要发现:
    • 在复杂数据集上,预训练的 GFMs 损失值更低,表现出有利的初始化特性。
    • 在简单任务中,基线模型(UNet)通过端到端微调可逐步优化性能。

5.8 Impact of Encoder Fine-tuning 编码器微调的影响

  • 内容:
    • 分析对编码器进行微调是否对模型性能有益。
  • 主要发现:
    • 微调对某些数据集和模型有显著帮助,但也可能导致性能下降。
    • 微调的效果依赖于模型的预训练策略和任务特点。

5.9 Sensitivity to Hyperparameters 对超参数的敏感性

  • 内容:
    • 评估超参数(如学习率)调整对模型性能的影响。
  • 主要发现:
    • 学习率对大多数模型的影响较小。
    • 部分模型的性能提升受限于数据集复杂性和任务需求。

更多图表分析可见原文


因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!


问题及讨论可直接在文章下方留言


相关链接:

NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成

数据论文 | VRSBench: 大规模高质量遥感视觉语言基准数据集

论文赏读 | AAAI24 | 武大, 斯坦福提出遥感视觉问答数据集EarthVQA以及框架SOBA

数据论文 | AAAI24 | SkyScript: 斯坦福团队提出的大型遥感视觉-语言数据集, 关注语义多样性


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章