RS DL
论文介绍
题目:PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models
论文:https://arxiv.org/abs/2412.04204
代码:https://github.com/VMarsocci/pangaea-bench
年份:2024
创新点
全面基准测试:PANGAEA 建立了一个全球性的地理空间基础模型(GFMs)基准测试框架,涵盖多样化的数据集、任务、分辨率、传感器模式和时间特性,解决了现有基准中地理和任务偏向性的问题。 包括非洲和东南亚等代表性不足的区域数据,减轻了许多现有数据集的偏见。 多功能评估协议:提出了一个统一的框架,用于在多种场景下(如全监督、半监督和多时间序列任务)评估 GFMs。 提供开源代码,支持实验的可重复性和可扩展性。
数据集
城市:土地覆盖分割(如 Five Billion Pixels)。 农业:作物类型识别(如 Crop Type Mapping)。 森林:生物量估算(如 BioMassters)。 灾害:洪水分割和损坏检测(如 Sen1Floods11 和 xView2)。 海洋:污染物分割(如 MADOS)。
语义分割(Semantic Segmentation)。 变化检测(Change Detection)。 回归(Regression)。
分类任务不能提供高分辨率的空间细节。 目标检测任务缺乏一致的评价协议。
包括不同传感器的数据(如 SAR、光学、LiDAR)。 目前主要集中在光学和 SAR 数据,例如 Sentinel-1 和 Sentinel-2。
多时间数据:用于监测城市扩张、季节性作物评估。 单时间数据:静态场景下的语义分割。
模型选择和评估框架
可复现性(Reproducibility): 模型必须提供开源代码和预训练权重。 多样性(Approach Diversity): 包括不同的预训练策略,例如: 对比学习(Contrastive Learning)。 掩码图像建模(Masked Image Modeling, MIM)。 多时间特性(Multi-temporal Features)。 学术影响力(Impact):选择在顶级会议或期刊中发表的模型,例如 Scale-MAE 和 CROMA。
本文指定了统一的评估框架,将预训练模型作为冻结的特征提取器,结合标准解码器(如 UPerNet)进行语义分割、变化检测和回归任务评估。数据经过标准化处理并重采样到统一分辨率(10 m/pixel),多时间数据通过线性映射或 L-TAE 提取特征。训练使用 Adam 优化器,80 个训练周期,学习率多步下降。通过滑窗推理解决大分辨率图像的处理需求。评估包括全监督、稀缺数据、多模态、多时间场景,主要指标为 mIoU(分割)、F1 分数(变化检测)、RMSE(回归)等,确保不同模型在多任务下具有可比性。
实验结果
1 Main Comparison 主要对比
内容:
比较地理空间基础模型(GFMs)在 11 个基准数据集上的性能,包括语义分割、变化检测和回归任务。 引入两种基线模型(UNet 和 ViT)作为对比。
主要发现:
在复杂任务(如 SpaceNet 7 和 MADOS)中,GFMs 表现优越。 基线模型在简单任务中仍然占优。
5.2 Data Scarcity 数据稀缺情况
内容:
在标注数据量减少至 50% 和 10% 的情况下,评估模型性能。 模拟真实场景中标注数据稀缺的情况。
主要发现:
在数据量减少的情况下,GFMs 比监督基线模型表现更好。 CROMA 在 10% 数据场景下仍保持领先。
5.3 Normalization Impact 归一化影响
内容:
探讨解码器微调阶段的归一化策略对模型性能的影响。 对比归一化与非归一化的结果。
主要发现:
在低分辨率数据集(如 HLS Burn Scars 和 MADOS)中,归一化对性能影响显著。 在高分辨率数据集(如 SpaceNet 7)中,归一化的作用较小。
5.4 Matching Training Resolution of the Model 匹配模型的训练分辨率
内容:
测试将测试数据的分辨率调整为训练分辨率对模型性能的影响。 数据集包括 FiveBillionPixels。
主要发现:
在低分辨率训练的模型上,调整输入分辨率会导致性能下降。 细粒度空间细节对于复杂数据集至关重要。
5.5 Temporal Capabilities and Aggregation Strategies 时间特性与聚合策略
内容:
比较多时间序列数据集上的不同时间特性聚合策略(如线性映射与轻量时间注意力编码器 L-TAE)。 数据集包括 PASTIS-R 和 DynamicEarthNet。
主要发现:
L-TAE 通常优于线性映射,但在小时间窗口(如 DynamicEarthNet)中可能导致过拟合。
5.6 Domain Adaptation 领域适应
内容:
分析模型在跨区域适应任务中的表现。 评估区域间的类别分布差异对模型性能的影响。
主要发现:
跨区域适应任务对模型构成巨大挑战。 性能通常因类别分布差异显著下降。
5.7 Consideration on the Training Convergence 关于收敛性的考虑
内容:
比较不同模型在复杂和简单数据集上的训练损失收敛趋势。 数据集包括 FBP 和 MADOS。
主要发现:
在复杂数据集上,预训练的 GFMs 损失值更低,表现出有利的初始化特性。 在简单任务中,基线模型(UNet)通过端到端微调可逐步优化性能。
5.8 Impact of Encoder Fine-tuning 编码器微调的影响
内容:
分析对编码器进行微调是否对模型性能有益。
主要发现:
微调对某些数据集和模型有显著帮助,但也可能导致性能下降。 微调的效果依赖于模型的预训练策略和任务特点。
5.9 Sensitivity to Hyperparameters 对超参数的敏感性
内容:
评估超参数(如学习率)调整对模型性能的影响。
主要发现:
学习率对大多数模型的影响较小。 部分模型的性能提升受限于数据集复杂性和任务需求。
更多图表分析可见原文
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成
数据论文 | VRSBench: 大规模高质量遥感视觉语言基准数据集
论文赏读 | AAAI24 | 武大, 斯坦福提出遥感视觉问答数据集EarthVQA以及框架SOBA
数据论文 | AAAI24 | SkyScript: 斯坦福团队提出的大型遥感视觉-语言数据集, 关注语义多样性
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。