遥感大模型解读系列 | 01 SpectralEarth:大规模训练高光谱基础模型

科技   2024-08-20 16:57   新加坡  

新开一个文章系列,将对现有的遥感相关大模型论文进行解读,主要以foundation model为主,将涉及图像解译、视觉-语言、图像生成、音频-图像及其他特定任务模型,预计将持续数十篇。

本篇带来最新的视觉foundation model论文——《SpectralEarth: Training Hyperspectral Foundation Models at Scale》

  • 《SpectralEarth:大规模训练高光谱基础模型》

  • 来源:https://arxiv.org/abs/2408.08447

  • 发表日期:2024年8月15日


0.摘要

本文提出了SpectralEarth数据集,这是一个大规模的多时相高光谱数据集,旨在用于预训练高光谱基础模型。通过利用EnMAP卫星数据,SpectralEarth数据集在规模、地理多样性和时间维度上具有显著优势。作者使用多种自监督学习算法在该数据集上预训练了一系列基础模型,并通过构建多个下游数据集对模型进行了评估。实验结果表明,这些模型在不同任务和传感器上具有良好的泛化能力和计算效率优势。

1. 引言

高光谱成像(HSI)技术通过捕捉从长波紫外到短波红外的数百个窄波段的电磁信息,为地球表面和大气的物质组成提供了宝贵的信息。这种丰富的光谱信息在环境应用中具有广泛的潜力,例如土壤和矿物映射、污染追踪、农业评估和森林监测。然而,尽管近年来高光谱数据的可用性有所增加,特别是通过新卫星任务的发射,现有的高光谱数据集仍然不足以支持基础模型的训练。

为了解决这一问题,研究团队引入了SpectralEarth,这是一个大规模的多时相数据集,旨在为高光谱基础模型的预训练提供支持。该数据集利用来自环境映射与分析计划(EnMAP)的数据,涵盖了538,974个图像块,反映了全球415,153个独特位置的光谱多样性。通过引入SpectralEarth,研究团队希望能够填补现有数据集的空白,推动高光谱成像领域的研究与应用。

图1: 高光谱数据集的规模

图1: 过去三十年内发布的各种高光谱数据集的规模可视化。该图旨在说明SpectralEarth数据集的体量(圆圈的面积)。

2. SpectralEarth数据集概述

数据集的规模和构成

SpectralEarth数据集的构建是一个重要的里程碑,涵盖了超过3TB的高光谱图像数据。该数据集的独特之处在于其全球空间分布和低于10%的云覆盖率,使其成为训练高光谱基础模型的理想选择。数据集的构成包括11,636个EnMAP场景,包含538,974个图像块,覆盖415,153个独特的地理位置。

数据集的多样性不仅体现在其地理覆盖上,还包括不同季节和气候条件下的图像,这为模型的泛化能力提供了丰富的训练数据。通过这种方式,SpectralEarth能够有效捕捉不同环境条件下的光谱特征,增强模型的鲁棒性和适应性。

图2: SpectralEarth数据集的伪RGB图像拼接

图2: SpectralEarth数据集的伪RGB代表图像拼接,展示了包括城市区域、农业用地、沙漠、森林和水体在内的多样化景观。每个图像均以前三个主成分的假色复合图呈现,突显了环境中捕获的光谱多样性。

数据预处理与时间序列提取

在数据预处理阶段,研究团队对EnMAP图像进行了辐射、几何和大气校正,确保数据的高质量。辐射校正确保了不同光谱波段之间的可比性,而几何校正则消除了由于传感器倾斜或地形变化导致的图像变形。大气校正则通过去除大气散射和吸收的影响,提高了图像的光谱精度。

随后,研究人员将图像分割为128x128像素的地理块,每个像素包含224个波段。为了最大限度地利用可用的时间序列数据,研究团队利用EnMAP数据采集之间的重叠区域生成时间序列数据,提取了73,307个具有多个时间戳的非重叠位置。这一过程不仅增强了数据集的时间维度,还为后续的动态监测和变化检测提供了基础。

图3: SpectralEarth的地理分布

图3: SpectralEarth的地理分布图,展示了数据集中高光谱图像的全球覆盖范围,显示其广泛的地理范围。

3. 相关工作

现有高光谱数据集的比较

在过去的几十年中,高光谱遥感数据集的发布数量有限,通常仅限于单一或少数场景。这一限制主要源于航空高光谱传感器调查的高成本以及地面真值标注的收集难度。尽管最近的研究已经开始解决这一问题,但现有的数据集仍然无法有效地训练高光谱基础模型。

SpectralEarth覆盖的地理位置的时间戳数量直方图,展示了时间戳的分布情况

例如,常见的高光谱数据集如AVIRIS和HICO虽然在特定领域内具有较高的应用价值,但它们的样本数量和地理覆盖范围相对较小。此外,许多数据集缺乏时间序列数据,限制了动态变化监测的能力。相较而言,SpectralEarth不仅在数据量上显著优于现有数据集,而且其地理分布也更为广泛。通过与其他高光谱数据集的比较,SpectralEarth在像素数量上大约是现有数据集的五倍,并且其包含的时间维度大大增加了其对高光谱基础模型预训练的价值。

自监督学习在遥感中的应用

自监督学习(SSL)作为一种强大的无监督学习方法,逐渐在遥感领域得到了应用。研究表明,SSL可以有效地从未标记的数据中学习表征,尤其是在多光谱和高分辨率RGB图像中。例如,近年来的研究展示了自监督学习在图像分类和目标检测中的成功应用,通过构建对比学习任务,模型能够在没有标签的情况下学习到有效的特征表示。

在高光谱成像领域,自监督学习同样展现出巨大的潜力。研究人员通过引入季节对比增强等方法,展示了在训练目标中纳入季节不变性的好处。这种方法不仅提高了模型的鲁棒性,还增强了其在不同环境条件下的适应能力。

4. 高光谱基础模型

模型架构设计

为了有效处理高光谱数据的独特特征,研究团队在传统的卷积神经网络(CNN)和视觉变换器(ViT)中引入了光谱适配器。这一设计使得模型能够在不增加过多计算成本的情况下,提取光谱特征。传统的CNN在处理图像时通常关注空间特征,而光谱适配器则使模型能够同时关注光谱信息,增强了模型的表现。

图4: 高光谱基础模型架构

图4: 提议的针对高光谱成像的模型架构示意图。我们在经典的ResNet和ViT中增加了光谱适配器,以有效处理光谱信息。该架构能够通过结合空间和光谱特征,提高对复杂场景的理解。

自监督学习算法

在选择自监督学习算法时,研究团队考虑了高光谱数据的特殊性,采用了MoCo-V2、DINO和MAE等算法。这些算法在冻结编码器性能方面表现出色,适用于CNN和ViT架构,能够有效地为高光谱成像建立基线预训练模型。

MoCo-V2作为一种对比学习算法,通过构建正负样本对来优化特征表示,已在多种视觉任务中表现出色。DINO则通过自注意力机制实现了无监督学习,能够有效捕捉图像中的重要特征。而MAE则通过掩蔽自编码的方式,进一步提升了模型对光谱信息的理解能力。

5. 实验设置与评估

自监督预训练过程

在预训练阶段,研究团队使用了Spectral ResNet-50和Spectral ViT-S等模型,进行了多轮训练。研究人员在多个数据集上进行了实验,以评估预训练模型的性能。通过对模型的优化,研究人员能够评估预训练模型在下游任务中的表现。

实验设计示意图

在训练过程中,研究团队采用了数据增强技术,如随机裁剪、旋转和颜色抖动,以提高模型的泛化能力。此外,使用了多种优化算法(如Adam和SGD)和学习率调度策略,以确保模型在训练过程中的稳定性和收敛性。

下游任务的设计

为评估在SpectralEarth上预训练的模型,研究团队构建了四个下游数据集,用于基准测试。这些数据集涵盖了土地覆盖分类和作物类型分割等任务,提供了足够的标签以进行模型性能的初步评估。通过在这些下游任务上的表现,研究团队能够验证SpectralEarth数据集的有效性及其在实际应用中的潜力。

6. 实验结果与分析

在多标签分类和语义分割任务中,预训练模型表现出了良好的性能,展示了高光谱基础模型在不同传感器和任务中的通用性。实验结果表明,SpectralEarth数据集的引入为高光谱成像的自监督学习提供了新的机会。

具体来说,在土地覆盖分类任务中,预训练模型的准确率达到了92.3%,而在作物类型分割任务中,F1得分达到了89.7%。这些结果表明,SpectralEarth数据集不仅提高了模型的性能,还为未来的研究提供了新的数据支持。

7. 结论

本研究通过引入SpectralEarth数据集及其相关模型,为高光谱基础模型的训练提供了重要的支持。研究结果表明,高光谱成像在环境监测和资源管理等领域具有广泛的应用潜力。数据集和模型的公开获取将进一步促进该领域的研究与发展。

SpectralEarth数据集的构建不仅填补了现有数据集的空白,还为未来的研究提供了丰富的资源。通过自监督学习方法,研究团队展示了如何在无标签数据中提取有效特征,为高光谱成像的应用开辟了新的方向。

欢迎交流

笔者长期从事人工智能、遥感、大模型等业务

欢迎添加微信交流

空天感知
专注商业航天、人工智能、气象水文等交叉学科,精选行业资讯,深耕AI业务落地
 最新文章