NeurIPS24 | Terra: 覆盖全球的多模态时空数据集

文摘   2024-12-15 08:00   荷兰  

 RS   DL 

论文介绍

题目:Terra: A Multimodal Spatio-Temporal Dataset Spanning the Earth

会议:Conference on Neural Information Processing Systems 2024

论文:https://neurips.cc/virtual/2024/poster/97768

数据/代码:https://github.com/CityMind-Lab/NeurIPS24-Terra

年份:2024
单位:香港科技大学(广州)

NeurIPS 2024遥感方向论文合集:NeurIPS024

创新点

  • 覆盖范围广:Terra 数据集提供全球范围内45年的时空数据,涵盖648万个高分辨率网格点。
  • 多模态集成:整合时间序列、地理图像和文本数据,支持多模态分析与高级模型开发。
  • 高分辨率与灵活性:时间分辨率细至3小时,空间分辨率高达0.1°,并支持多尺度聚合。
  • 推动时空智能研究:为多模态学习和时空数据挖掘提供统一平台,填补现有数据集在广度和深度上的不足。


数据

Terra 数据集包括 时间序列数据文本数据图像数据,覆盖广泛的时空范围,具有高分辨率和多样性。

1. 时间序列数据

数据来自 Global Water (GloH2O) Measurement Project,整合了以下两种主要产品。对于降水记录,优先使用 MSWEP 数据,以替代 MSWX 降水数据。
(1)MSWX:一个高分辨率(3小时、0.1°)、偏差校正的气象数据产品,覆盖全球,包含10个变量:
  • 降水量(Precipitation,单位:mm/3h)。

  • 气温(Air temperature,单位:°C)。

  • 日最低气温(Daily minimum temperature,单位:°C)。

  • 日最高气温(Daily maximum temperature,单位:°C)。

  • 地表气压(Surface pressure,单位:Pa)。

  • 相对湿度(Relative humidity,单位:%)。

  • 比湿(Specific humidity,单位:g/g)。

  • 风速(Wind speed,单位:m/s)。

  • 下行短波辐射(Downward shortwave radiation,单位:W/m²)。

  • 下行长波辐射(Downward longwave radiation,单位:W/m²)。
(2)MSWEP:一种结合测站、卫星和重分析数据的全球降水产品,具有更高的降水估算精度,特别适用于测站稀疏或对流主导的区域。
  • 数据量:共有 6.82万亿条记录,并通过空间和时间聚合生成 9 种变体数据集。
  • 覆盖范围:
    • 时间:从 1979 年至 2024 年,跨度 45 年(共计 16,436 天)。

    • 空间:648万个网格,支持 0.1° 的高空间分辨率。
  • 分辨率:
    • 时间分辨率:3小时、1天、1个月。

    • 空间分辨率:0.1°、0.5°、1°。

2. 文本数据

文本数据来源于全球地理和气候数据库:

    • 气候信息:来自 Köppen 气候分类项目,描述了1901年至2010年的气候类型,使用三位字母代码表示气候类别(如“热带”、“干旱”)。
    • 地形信息:来自 ETOPO2v2 数据集,提供地形、海岸线等信息。通过计算每个网格区域的平均值,生成该区域的平均海拔。
    • 土地覆盖信息:来源于 C3S 全球土地覆盖产品(2022年数据),包含38类土地覆盖(如“雨养农田”和“落叶阔叶树”)。
    • 国家归属:基于 world-geo-json 数据。
  • 补充文本生成:
    • 利用大型语言模型(LLM),如 LLaMA3,生成地理相关的补充描述(如区域气候、植被类型等)。
    • 提示工程:采用空间提示工程,为 LLM 提供更精准的查询方向,减少生成文本中的错误信息。
  • 局限性:
    • 文本分辨率较低(未达到 0.1°),生成过程受限于时间和资源成本。

    • 使用 LLM 生成的文本存在一定的陈旧性。

3. 图像数据

基于 Mercator 投影,对地球按不同空间分辨率网格化,使用 GMT 和 PyGMT 工具生成地理图像。
选取常用地理信息图像,包括:
    • 地球地形图:展示地球表面的平均海拔。

    • 重力异常图:归一化后的重力值,用于识别地质结构。

    • 磁异常图:显示地球磁场的局部异常。

    • 地形坡度图:包含地形的高程和推算的重力信息。

    • 水陆特征图:展示水体和陆地的分布。

    • 垂直重力梯度图:用于检测地质结构中的小型地质体。
  • 补充数据:卫星遥感图像:可通过 ArcGIS 平台获取每个网格的相关卫星影像(例如 Sentinel-2 数据)。
  • 局限性:
    • 未达到 0.1° 的图像分辨率,因生成成本高。

    • 卫星图像的更新和分发受限制,可能存在过时的问题。

应用案例

时空分析任务

  • 任务:基于过去的降水数据预测未来降水量(7天、15天、30天)。

  • 模型:
    • 时间序列模型:TimesNet、FEDformer、PatchTST、DLinear。

    • 时空模型:STAEformer、STID、GWNet、STGCN。

    • 专用降水模型:ConvLSTM。

    • 简单基线方法:历史均值(HI)。
  • 结果:
    • TimesNet(时间序列模型)表现最佳,因其有效结合时间嵌入信息。

    • 时空模型未显著优于时间序列模型,可能因为降水数据的非平稳性和极端波动性。

空间分析任务

1) 基于位置的空间变量预测
  • 任务:通过地理坐标预测环境变量(降水、风速、温度)。

  • 模型:

    • SatCLIP(基于卫星预训练)。

    • GeoCLIP(基于地理标记街景图像)。

    • CSP(针对特定任务设计的位置编码模型)。

  • 结果:

    • SatCLIP 表现最佳,因其语义信息更契合环境相关任务。

2) 基于视觉-语言的空间变量预测
  • 任务:利用卫星影像和文本描述,预测空间变量。

  • 模型:

    • UrbanVLP、UrbanCLIP(视觉-语言模型)。

    • CLIP(经典多模态模型)。

  • 结果:

    • 不同国家的性能因地理特性差异而有所波动。

    • UrbanVLP 整体表现较佳,展现了 Terra 数据集在多模态分析中的潜力。

更多图表分析可见原文


欢迎关注会议论文赏读系列

因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。


公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!




问题及讨论可直接在文章下方留言




  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章