NeurIPS24 | GeoPlant: 大型植物物种预测数据集, 含长时间序列卫星数据及土壤气候数据, 托管于Kaggle

文摘   2024-11-08 10:31   荷兰  

 RS   DL 

论文介绍

题目:GeoPlant: Spatial Plant Species Prediction Dataset

会议:Conference on Neural Information Processing Systems 2024

论文:https://arxiv.org/abs/2408.13928

Kaggle:https://www.kaggle.com/datasets/picekl/geoplant

年份:2024
单位:INRIA (法国国家信息与自动化研究所)等

NeurIPS 2024遥感方向论文合集:NeurIPS024

创新点

  • 该研究创建了GeoPlant数据集,这是一个涵盖欧洲10公里空间分辨率的植物物种分布数据集。GeoPlant结合了存在-缺失(PA)和仅存在(PO)数据,填补了当前物种分布数据集的空白,允许模型评估的更全面性。
  • GeoPlant覆盖了欧洲的广泛区域,包括38个国家,涵盖了整个欧洲大陆的主要生物地理区域(如阿尔卑斯、北大西洋和北极地区)。
  • 数据集包含多模态信息,包括多光谱卫星图像、气候和环境栅格数据,为研究物种分布建模(SDM)提供丰富的数据支持。
  • 数据集附带Kaggle基准和预训练模型、基线模型,使研究者可以快速上手并进行新模型的评估。

数据

本文的数据集GeoPlant是一个欧洲尺度的植物物种分布数据集,它包含多个类型的数据,涵盖环境变量、遥感影像、气候数据等。

GeoPlant数据集的主要任务是物种分布建模(Species Distribution Modeling,SDM),具体目标是预测特定位置的植物物种组成。简单来说就是,给定某个地理坐标,利用环境特征和遥感数据,模型需要预测该位置可能存在的植物物种。

1. 物种观察数据

  • 存在-缺失(Presence-Absence, PA)数据:约9万条记录,由专业植物学家在指定小区域内(通常10-400平方米)采集。这些数据通过标准化调查方法记录了某区域内的物种出现与否,代表一个完整的物种清单。
  • 仅存在(Presence-Only, PO)数据:约500万条记录,来源于公民科学平台(如iNaturalist、Pl@ntNet),具有地理坐标,但未提供物种缺失信息。这些记录由于缺乏标准化采样协议而存在偏差,且主要集中在易访问和人口密集的区域。

2. 环境栅格数据

  • 土地利用和人类足迹:包括中分辨率土地覆盖数据和低分辨率人类活动影响数据。土地利用数据源自MODIS,提供欧洲范围的土地覆盖类型及其变化;人类足迹数据则包含不同年份(1993和2009)的人口密度、道路、耕地等指标,能够反映人类活动对物种分布的影响。
  • 土壤属性:来自SoilGrids数据库,包含了pH值、土壤颗粒构成等9种土壤属性的低分辨率栅格,分辨率约1公里。
  • 高程:采用ASTER全球数字高程模型(DEM)提供的高分辨率数据,涵盖整个数据集的空间范围,用于分析地形对物种分布的影响。

3. 卫星图像数据

  • Sentinel-2图像:每个物种观测点周围128×128像素的10米分辨率RGB和NIR图像,用于捕捉该位置的植被和地表信息。图像经过预处理,去除了云和阴影干扰,并使用gamma校正以提高可视化效果。
  • Landsat时间序列:覆盖1999至2020年的每季多光谱数据(包括红、绿、蓝、近红外、短波红外1和2波段),用于追踪植被季节性变化和重大环境事件(如火灾)。

4. 气候数据

  • 月度气候时间序列:2000年至2019年间的气候变量(包括平均温度、最高温度、最低温度和降水量),分辨率约为1公里。
  • 长期气候均值数据:基于1981至2010年的19项气候变量统计数据,如年均温度、降水季节性等,以捕捉长时间气候趋势对物种分布的影响。

5. 数据格式和分布

  • 所有数据均以标准化格式(GeoTIFF和CSV)提供,空间坐标系为WGS84,确保跨数据类型的兼容性。
  • 数据覆盖整个欧洲的38个国家,数据集按10×10公里的网格划分,确保数据在空间上的平衡性,以避免因偏差引起的模型误差。

6. 额外资源

  • GeoPlant还在Kaggle上提供了数据集的基准测试,并发布了用于深度SDM的预训练模型、基线模型等资源,方便研究者在不同数据模态和模型架构之间进行比较和验证。

GeoPlant 基准

GeoPlant数据集在Kaggle上提供了一个基准测试平台,方便研究人员进行物种分布建模(SDM)的评估。这个基准测试具备以下特点:

  • 平台优势:在Kaggle上进行托管,提供了便捷的模型分享和代码开发环境,并且支持免费GPU资源,便于社区成员参与。
  • 评价指标:主要使用样本平均的F1分数作为模型性能的衡量指标。该指标评估了预测的物种集合与实际存在的物种集合的重叠情况,确保测试集上的预测与真实数据一致。
  • 资源支持:除了数据集,基准测试还提供了一系列资源,包括用于深度SDM训练的PyTorch框架(Malpolon)、数据加载器、基准测试的Jupyter Notebook,以及预训练模型。研究者可以直接在Kaggle上使用这些资源进行模型训练和评估。

基准测试

在基准测试中,作者提供了多种不同的基线模型,涵盖了从简单到复杂的模型架构,展示了多模态数据在SDM任务中的潜力,鼓励进一步创新模型的开发

  • 简单基线(Naive Baseline):采用最常见物种的方法,通过选择某一生物地理区的前25个最常见物种进行预测。
  • PA数据实验:使用了三种架构和数据模态,测试了ResNet18、定制的ResNet6、和多层感知器(MLP)在不同模态下的表现。结果表明,定制的轻量级CNN在各项评价指标上表现最佳,尤其在多模态输入(如气候数据、卫星时间序列和图像数据)组合下,取得了更高的F1分数。
  • Top-K预测:开发了一种简单的多标签分类方法,通过引入一个回归步骤来估计每个样本中的物种数,使用最可能的K个物种进行预测。


因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!



问题及讨论可直接在文章下方留言

相关链接:

PNAS | 检测2000多种植物分布! 使用遥感和深度学习监测和预测植物物种分布和快速变化, 结合公民科学数据

论文赏读 | CVPR24 | 多模态学习用于遥感植被状态预测 (NDVI预测)


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章