RS DL
论文介绍
题目:OAM-TCD: A globally diverse dataset of high-resolution tree cover maps
会议:Conference on Neural Information Processing Systems 2024
论文:http://arxiv.org/abs/2407.11743
数据:https://zenodo.org/records/11617167
代码:https://github.com/Restor-Foundation/tcd
视频介绍
创新点
全球多样化的高分辨率树冠数据集:作者构建了一个新的公开数据集——OAM-TCD,用于个体树冠划分。数据集包括5072张2048x2048像素、分辨率为10cm/px的高分辨率航空影像,标注了超过28万棵个体树和5.6万个树群。数据采样范围广泛,包括不同生态区和城市及自然环境。 实例级标注:与现有数据集多为低分辨率或有限地理覆盖的局限相比,OAM-TCD不仅具备高分辨率,同时也提供了实例级的树冠标注,为研究不同生态环境下的树木结构提供了基础。 开放获取:该数据集、模型和训练代码均通过宽松的开源许可发布,为生态监测和遥感领域的研究人员提供了一个公开且标准化的数据平台。
数据
数据集来源
OAM-TCD数据集:数据集是从OpenAerialMap (OAM)获取的。OAM是一个全球性的航空影像数据平台,包含了各种用户上传的无人机和航空影像。OAM提供的影像通常为开源许可,适用于科学研究。
数据集规模
影像数量和分辨率:OAM-TCD数据集包含5072张影像,每张影像的大小为2048x2048像素,分辨率为10cm/px。这样的高分辨率使得可以精确到个体树冠的水平进行分析。 覆盖面积:数据集中总共包含超过20,000公顷的标注图块。 标注:数据集中标注了超过280,000棵个体树和56,000个树冠区域(树群),所有标注都是实例级的,用不同颜色区分个体和群体。
数据集的地理多样性
全球多样性:为了涵盖全球范围内的树木种类和生态环境,数据集采样范围非常广泛。研究者从不同生态区和地理区域的影像中进行采样,以尽可能捕捉全球树木的多样性。具体而言,数据采样通过在全球1度格网中选择影像区域,并随机裁剪这些影像中的子区域。 生态区分布:研究团队基于WWF的世界生态区分类,将影像按照生态区进行分层采样。数据集涵盖14种主要生态区,但由于OAM影像的地理偏向性,有些生态区(如北方针叶林、洪泛草原和苔原等)在数据集中代表性不足。 标注标签:每个图块会标注所在的生态区类型,这样用户可以根据生态区进行特定区域的研究。
标注和处理
影像标注:OAM-TCD数据集的标注采用了MS-COCO格式,使用了实例分割的方法。标注类别包括两个主要类别:个体树(Individual Tree)和树冠(Canopy,代表树群)。每个类别使用多边形标注的形式,以便捕捉树冠的形状和面积。 影像格式:所有影像都被统一重新采样到10cm/px的分辨率,保存为GeoTIFF格式,使用EPSG:3395 (World Mercator) 坐标参考系统。影像为8-bit三通道RGB格式,JPEG压缩存储。 标注策略:标注团队采用了一种混合方法,初始标注通过Mask-RCNN模型生成,之后再由人工标注人员进行修正。对于难以区分的树木,采用了群体标注策略(即将其标记为"closed canopy")。此外,当树木间距离小于一定阈值时,建议标注为树冠。
数据集的处理
数据分割:数据集按照训练集、验证集和测试集进行分割。10%的数据作为保留测试集,其余90%用于5折交叉验证,以确保不同生态区在训练集和测试集中的分布均衡,避免训练数据泄露到测试集中。 标注质量控制:标注过程包含多轮复审,由生态学专家进行二次审核,以确保标注的一致性和准确性。为了应对标注的成本问题,团队通过多种标注计费模型尝试控制成本,包括按标注时间、每个多边形和每张影像进行计费。
数据集的特点和优势
高分辨率:数据集影像分辨率高达10cm/px,适合用于个体树木和树冠的精细分析。 实例级标注:提供了准确的树冠形状和面积信息,有助于生态监测和树木结构研究。 全球多样性:涵盖了多个生态区和地理区域的数据,使得模型在不同环境下具有更强的泛化能力。
模型训练和测试
1. 语义分割实验
模型选择:文章使用了经典的语义分割模型UNet和更现代的SegFormer模型。UNet采用了ResNet34和ResNet50作为骨干网络,而SegFormer则使用了多种变体(mit-b0到mit-b5)。 实验设计:影像被随机裁剪成1024x1024像素的小块,用于模型训练。这种裁剪方法可以保持较大的空间上下文,同时减小内存需求。所有模型的训练分辨率固定为10cm/px。 数据增强:在训练过程中进行了多种数据增强操作,包括水平和垂直翻转、旋转、模糊和颜色调整(如亮度、色调、饱和度等),以提高模型的鲁棒性。 训练过程:采用5折交叉验证评估模型的性能,数据集按照生态区进行分层采样,确保训练和测试集之间没有影像重叠。最终在训练集上进行全量训练,并在保留测试集上评估。 结果显示SegFormer在语义分割任务中整体表现优于UNet,尤其是随着模型复杂度的增加,模型性能有所提升,但提升幅度逐渐减小。
2. 实例分割实验
模型选择:实例分割采用了Mask-RCNN模型,骨干网络为ResNet50。Mask-RCNN是一种经典的实例分割方法,在检测和分割个体树木时非常有效。 超参数调优:在训练Mask-RCNN时,作者调整了学习率为0.001,采用了分步调度策略,在特定的迭代次数(80000和90000次)降低学习率。由于影像中的目标物体密度较高,模型的预测数增加到了512。 评价指标:使用COCO API计算mAP50(即IoU≥0.5的平均精度)来评估模型的性能。在5折交叉验证和保留测试集上均进行了评估。 结果表明,Mask-RCNN在实例分割任务中表现较好,尤其在个体树木识别和分割方面具有优势
3. 独立数据集验证实验
为了测试模型在实际应用中的表现,作者在两个独立的数据集上进行了实验验证:
a. 苏黎世城市树冠检测实验
数据来源:使用瑞士联邦地形测量局提供的10cm分辨率2022年航空影像数据,并结合苏黎世市的最新树木清单和LIDAR生成的冠层高度模型(CHM)。
实验设计:在整个苏黎世城市(约90平方公里)范围内生成树冠覆盖预测图,并与LIDAR数据进行对比。
结果分析:模型的语义分割结果与LIDAR CHM高度一致,尤其在城市环境中对冠层的描绘更为精确。SegFormer模型能够有效与LIDAR数据互补,用于更精确的树木冠层分割,特别是处理LIDAR可能产生误分类的情况(如街灯)
b. 汤加王国的树冠检测实验
数据来源:使用WeRobotics Open AI Challenge提供的325公顷的正射影像,该影像覆盖汤加王国部分区域,标注了四种树种的中心点,总计13402个关键点。
实验设计:利用OAM-TCD数据集训练的模型进行预测,验证模型对该区域影像的泛化能力。
结果分析:实例分割的召回率在关键点匹配时为0.64,当包括树冠区域时,召回率提高到0.94。这表明模型能够很好地捕捉树木位置,但由于部分树木在该区域密集分布,因此个体树的检测仍存在一定挑战。模型展示了对密集植被的检测能力,但在一些小型和密集分布的树种(如香蕉树)上仍有改进空间。
更多图表分析可见原文
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
相关链接:
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。