论文题目:Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications 论文链接:https://arxiv.org/pdf/2407.19660 发表时间:2024.7.29
摘要
本文提出了一个遥感地球科学应用的基础建模框架,
该框架利用了知识引导原则,即光谱图像捕获了物理驱动因素对环境系统的影响,以及它们之间的关系由系统的特征所决定。 方法称为多模态可变步长预测(MM-VSF),使用多模态数据(光谱图像和天气)作为输入,并使用可变步长预测任务作为其预训练目标。
在评估中展示了使用天气进行卫星图像预测可以作为基础模型的有效预训练任务。
方法
两部分:
架构遵循重量级编码器和轻量级解码器的格式。 将多种模态纳入我们的预训练中,即光谱图像和天气。
Pretraining Task
使用当前的卫星图像,并提供直到特定日子的天气数据,将要求模型预测那个时间点的卫星图像。 期待额外的地理知识注入将在依赖土地生长和变化动态的下游任务中大有帮助,例如作物预测、土地覆盖和土地利用变化
Dataset
数据库由Sentinel影像构成光谱图像部分,以及ERA5陆地分析数据构成气象部分:
光谱图像序列:一系列Sentinel2图像,每个图像有6个波段,形状为128x128。这个序列的长度取决于地点的覆盖范围。 气象数据序列:一系列ERA5陆地数据,有5个波段,形状为1x1,序列长度为365(每天一个)。 年天数序列:序列中每个光谱图像的年天数。这个序列的长度与光谱图像序列相同
Architecture
模型结构:
空间特征提取:使用视觉变换器(ViT)从光谱图像中提取空间特征,处理一系列图像,形成时间序列的空间嵌入。 时间特征提取:由于气象数据分辨率较低,使用时间嵌入方法(如双向LSTM)来处理,实现时间序列的匹配。 时间信息嵌入:将一年中的天数信息通过共享的线性层和tanh激活函数嵌入,为模型提供时间上下文。 多模态嵌入:结合空间嵌入、时间匹配的气象嵌入和一年中的天数嵌入,形成多模态嵌入序列 时间序列分析:使用BERT风格的前向注意力变换器对嵌入序列进行时间序列分析,学习时间关系。 预测解码:利用编码器生成的嵌入序列进行未来图像的预测,使用线性层和激活函数将嵌入从当前时间戳空间转换到未来时间戳空间。
Masking
模型在空间和时间上都采用均匀的掩蔽方法。这种方法与以往的随机掩蔽不同,它确保了:
时空均匀性:每个时间戳的掩蔽补丁数量相同,保证了在时间轴上每个空间位置的掩蔽补丁数量一致。 公平性:确保了所有时间序列的补丁系列长度相同,有助于实现时间组件的一致性。 共享变换器输出一致性:每个时间戳有相同数量的没有被mask的token,确保了共享视觉变换器在每个时间戳上产生相同数量的输出。
图3中的示例展示了这种掩蔽策略,其中4x4网格图像系列的50%掩蔽率下,每个时间戳图像有8个补丁被掩蔽,而特定空间位置沿时间维度有2个补丁可用。
Implementation details
在预训练阶段:
选择输入系列长度为6的图像,并在最终图像之后随机选择一张图像作为预测的最终图像。 使用了50%的时空掩蔽以及8的补丁大小用于视觉变换器。 模型在4个A100 Nvidia GPU上使用Adam优化器和均方误差损失训练至收敛。
实验
Pretraining Task: Forecasting
图4展示了SM-VSF (Single Modality Variable step Forecasting)和MM-VSF(MultiModal Masked Variable step Forecasting),在3个独立示例上的图像比较。每一行对应一个样本,前6张图像对应模型输入系列的卫星部分,气象部分没有在图像中显示,但是与卫星部分一起传递。
Downstream Task: Crop Mapping
将本文方法微调至Crop mapping 。
结论
本文提出了一个新颖的多模态时空基础模型MM-VSF,模型使用卫星和气象数据的多模态输入,以及知识引导的可变步长预测预训练任务。
MM-VSF可以被微调为一个作物映射模型,该模型能够跨年份泛化。 模型在时间上具有灵活性,并且能够适应包括时空遥感数据的地球科学下游任务。 本研究是将知识引导原则纳入预训练任务并采用多模态方法改进嵌入的第一步。