NeurIPS24 | GeoPlant: 大型植物物种预测数据集, 含长时间序列卫星数据及土壤气候数据, 托管于Kaggle

文摘 2024-11-08 10:31 荷兰

RS DL

论文介绍

题目：GeoPlant: Spatial Plant Species Prediction Dataset

会议：Conference on Neural Information Processing Systems 2024

论文：https://arxiv.org/abs/2408.13928

Kaggle：https://www.kaggle.com/datasets/picekl/geoplant

年份：2024

单位：INRIA (法国国家信息与自动化研究所)等

NeurIPS 2024遥感方向论文合集：NeurIPS024

创新点

该研究创建了GeoPlant数据集，这是一个涵盖欧洲10公里空间分辨率的植物物种分布数据集。GeoPlant结合了存在-缺失(PA)和仅存在(PO)数据，填补了当前物种分布数据集的空白，允许模型评估的更全面性。
GeoPlant覆盖了欧洲的广泛区域，包括38个国家，涵盖了整个欧洲大陆的主要生物地理区域（如阿尔卑斯、北大西洋和北极地区）。
数据集包含多模态信息，包括多光谱卫星图像、气候和环境栅格数据，为研究物种分布建模(SDM)提供丰富的数据支持。
数据集附带Kaggle基准和预训练模型、基线模型，使研究者可以快速上手并进行新模型的评估。

数据

本文的数据集GeoPlant是一个欧洲尺度的植物物种分布数据集，它包含多个类型的数据，涵盖环境变量、遥感影像、气候数据等。

GeoPlant数据集的主要任务是物种分布建模（Species Distribution Modeling，SDM），具体目标是预测特定位置的植物物种组成。简单来说就是，给定某个地理坐标，利用环境特征和遥感数据，模型需要预测该位置可能存在的植物物种。

1. 物种观察数据

存在-缺失（Presence-Absence, PA）数据：约9万条记录，由专业植物学家在指定小区域内（通常10-400平方米）采集。这些数据通过标准化调查方法记录了某区域内的物种出现与否，代表一个完整的物种清单。
仅存在（Presence-Only, PO）数据：约500万条记录，来源于公民科学平台（如iNaturalist、Pl@ntNet），具有地理坐标，但未提供物种缺失信息。这些记录由于缺乏标准化采样协议而存在偏差，且主要集中在易访问和人口密集的区域。

2. 环境栅格数据

土地利用和人类足迹：包括中分辨率土地覆盖数据和低分辨率人类活动影响数据。土地利用数据源自MODIS，提供欧洲范围的土地覆盖类型及其变化；人类足迹数据则包含不同年份（1993和2009）的人口密度、道路、耕地等指标，能够反映人类活动对物种分布的影响。
土壤属性：来自SoilGrids数据库，包含了pH值、土壤颗粒构成等9种土壤属性的低分辨率栅格，分辨率约1公里。
高程：采用ASTER全球数字高程模型（DEM）提供的高分辨率数据，涵盖整个数据集的空间范围，用于分析地形对物种分布的影响。

3. 卫星图像数据

Sentinel-2图像：每个物种观测点周围128×128像素的10米分辨率RGB和NIR图像，用于捕捉该位置的植被和地表信息。图像经过预处理，去除了云和阴影干扰，并使用gamma校正以提高可视化效果。
Landsat时间序列：覆盖1999至2020年的每季多光谱数据（包括红、绿、蓝、近红外、短波红外1和2波段），用于追踪植被季节性变化和重大环境事件（如火灾）。

4. 气候数据

月度气候时间序列：2000年至2019年间的气候变量（包括平均温度、最高温度、最低温度和降水量），分辨率约为1公里。
长期气候均值数据：基于1981至2010年的19项气候变量统计数据，如年均温度、降水季节性等，以捕捉长时间气候趋势对物种分布的影响。

5. 数据格式和分布

所有数据均以标准化格式（GeoTIFF和CSV）提供，空间坐标系为WGS84，确保跨数据类型的兼容性。
数据覆盖整个欧洲的38个国家，数据集按10×10公里的网格划分，确保数据在空间上的平衡性，以避免因偏差引起的模型误差。

6. 额外资源

GeoPlant还在Kaggle上提供了数据集的基准测试，并发布了用于深度SDM的预训练模型、基线模型等资源，方便研究者在不同数据模态和模型架构之间进行比较和验证。

GeoPlant 基准

GeoPlant数据集在Kaggle上提供了一个基准测试平台，方便研究人员进行物种分布建模（SDM）的评估。这个基准测试具备以下特点：

平台优势：在Kaggle上进行托管，提供了便捷的模型分享和代码开发环境，并且支持免费GPU资源，便于社区成员参与。
评价指标：主要使用样本平均的F1分数作为模型性能的衡量指标。该指标评估了预测的物种集合与实际存在的物种集合的重叠情况，确保测试集上的预测与真实数据一致。
资源支持：除了数据集，基准测试还提供了一系列资源，包括用于深度SDM训练的PyTorch框架（Malpolon）、数据加载器、基准测试的Jupyter Notebook，以及预训练模型。研究者可以直接在Kaggle上使用这些资源进行模型训练和评估。

基准测试

在基准测试中，作者提供了多种不同的基线模型，涵盖了从简单到复杂的模型架构，展示了多模态数据在SDM任务中的潜力，鼓励进一步创新模型的开发

简单基线（Naive Baseline）：采用最常见物种的方法，通过选择某一生物地理区的前25个最常见物种进行预测。
PA数据实验：使用了三种架构和数据模态，测试了ResNet18、定制的ResNet6、和多层感知器（MLP）在不同模态下的表现。结果表明，定制的轻量级CNN在各项评价指标上表现最佳，尤其在多模态输入（如气候数据、卫星时间序列和图像数据）组合下，取得了更高的F1分数。
Top-K预测：开发了一种简单的多标签分类方法，通过引入一个回归步骤来估计每个样本中的物种数，使用最可能的K个物种进行预测。

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

公众号欢迎优秀作者投稿！可加入优秀论文作者群：欢迎加入AI遥感优秀论文作者群！

问题及讨论可直接在文章下方留言

ACM MM24 | UrbanCross: 通过跨域适配增强卫星图像-文本检索, 香港科技大学广州分校等团队提出

TGRS | 无需切成小块图像! 金字塔超像素transformer用于高光谱图像分类

NeurIPS24 | M3LEO: 剑桥大学等提出集成干涉SAR和多光谱影像的多模态多标签数据集

TGRS | UBCV2:全球建筑检测和细粒度分类数据集, 光学和SAR影像精准对齐

TIP | 武大团队提出跨模态异常检测模型UniADRS, 用于遥感图像

技术实践 | 如何在YOLO11中训练tif格式4波段遥感图像？

TGRS | U²ConvFormer: 复旦团队提出高光谱图像分类模型, 结合U-Net和Transformer

ISPRS | SoftFormer: 多层次融合处理多模态遥感数据, 土地利用和土地覆盖分类

资讯 | 2024软科世界一流学科排名! 遥感、计算机专业排名

NeurIPS24 | AnyChange, 遥感零样本变化检测！

GSIS综述论文 | 中国遥感卫星, 原来有了这么多应用！对标哨兵和Landsat, 我们有哪些发展？

吉林一号高分辨率遥感数据免费下载！限时24小时！

NeurIPS24 | GeoPlant: 大型植物物种预测数据集, 含长时间序列卫星数据及土壤气候数据, 托管于Kaggle

会议手册 | 2024全国博士生测绘遥感学科学术论坛通知, 于中山大学举办

顶会新方向！全新多模态大模型统一分割框架

看Nature | 全球研究生在学术压力下的心理健康问题: ‘发表或淘汰’文化如何影响新一代学者？

TGRS | 哈工大提出同时处理遥感分类/分割/目标检测的多任务学习框架RSCoTr, 基于Transformer

NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成

NeurIPS24 | OpenSatMap: 细粒度高分辨率卫星数据集, 中科院和腾讯等提出的用于大规模制图的数据集

遥感数据 | FTW全球农田边界数据, 含对应影像数据! 约160万田块边界及7万多个样本

太强了！如何用ChatGPT结合Python处理遥感数据

NeurIPS24 | SolarCube: 马里兰大学等提出高分辨率太阳辐照预测基准数据集, 包含卫星和现场观测数据

TPAMI | 大型城市场景的建筑实例分割和3D重建, 基于航拍图像

TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

遥感竞赛 | 基于无人机航片的玉米异常情况识别, CCF大数据与计算智能大赛

NeurIPS24 | 如何更好地利用地理位置信息来提升模型效果？

NeurIPS24 | FUSU: 香港大学等单位提出多源多时相土地利用变化分割数据集

Python包 | Leafmap: 交互式地理空间分析, 为非GEE用户设计! 含500多个高级地理空间分析工具

论文er们，深度学习+遥感这口饭得趁热吃！

实用工具｜GeoSegment,SAM用于遥感图像分割,网页端操作,下载便捷

RSE | 刚果盆地道路发展监测, 基于深度学习和多源卫星影像

INFUS | STFDiff: 基于扩散模型的遥感图像时空融合

资讯 | 硬刚！被On hold后，eLife期刊正面回应

NeurIPS24 | ETH等提出高分辨率树冠数据集, 实例级标注, 超28万个体树和5.6万树群, 全球+多样化

会议通知 | AI和数字孪生改变城市生活, 英国格拉斯哥大学举办, 可线上免费参加

超强3D人体姿态估计SOTA! 即插即用于各种基于Transformer 3D姿势估计器

遥感数据 | 时间序列农作物分类基准数据集, 跨不同国家和气候区

PNAS | 检测2000多种植物分布! 使用遥感和深度学习监测和预测植物物种分布和快速变化, 结合公民科学数据

NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

IJDE | 综述 | 全面回顾多源遥感影像变化检测, 发展历史, 数据, 方法, 未来展望

实用工具｜适用遥感图像的AI自动标注工具,T-Rex Label, 开箱即用, 检测一切!

论文 | HazyDet: 雾天无人机目标检测开源数据基准, 以及深度感知检测器DeCoDet

TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型

深度｜AI教父Hinton与AI教母李飞飞首次公开对谈：我们必须通过，让懂得数据的人和懂得如何使技术有效的人建立联系来搭建这座桥

RSE | 降低对灾后图像的依赖! 遥感建筑损毁评估模型, 受灾前后样本无需相同位置

TPAMI聚焦, SegNet 高效而精准的图像语义分割网络

完整PPT | 谷歌提出用于遥感大模型的Embedding Fields 模型

会议通知 | 第二届大湾区测绘遥感大会（二号通知）

NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉