论文赏读 | ISPRS | 农作物分类制图, 使用PlanetScope 影像和SAM模型, 并结合谷歌街景视图数据

文摘   2024-12-06 23:56   四川  


 RS   DL 

论文介绍

题目:CropSight: Towards a large-scale operational framework for object-based crop type ground truth retrieval using street view and PlanetScope satellite imagery

期刊:ISPRS Journal of Photogrammetry and Remote Sensing

论文:https://www.sciencedirect.com/science/article/pii/S0924271624002922

数据/代码:https://github.com/rssiuiuc/CropSight/

年份:2024

作者单位:美国伊利诺大学厄巴纳—香槟分校

创新点

  • CropSight:研究提出了CropSight框架,结合Google街景视图(GSV)和高分辨率PlanetScope卫星影像,用于大规模的基于对象的作物类型地面实况检索。这是一种从传统的像素级方法转变为更准确的基于对象的作物分类方法。
  • UncertainFusionNet模型:研究提出了一个名为UncertainFusionNet的贝叶斯卷积神经网络,通过整合不确定性量化进行作物类型分类。这使得系统能够过滤掉低置信度的预测,提升整体分类的可靠性。
  • Segmentation Anything Model (SAM):该研究优化了SAM,用于使用卫星影像进行农田边界的提取,与现有的模型(如Mask-RCNN)相比,提供了更精确的农田边界检测。
  • 影像收集方法:框架包括一个系统化的街景视图农业图像收集方法,通过过滤非农业景观并确保相关高质量作物图像的使用

数据

  • 街景视图和卫星影像:GSV影像用于捕捉详细的路旁农田景观,PlanetScope卫星影像具有3米的空间分辨率和高频率的重访,用于农田边界检测。


  • 研究区域:框架在美国四个农业多样化的地区进行测试,覆盖了伊利诺伊州、南部中西部、得克萨斯州和加利福尼亚州,这些地区主要种植玉米、大豆、棉花、杏仁等作物。



  • 地面实况数据:作者构建了一个地面实况数据集(CropGSV),其中包含带地理标签的田间视图图像,并用于作物类型分类。每个研究区域的数据集中包含超过10,000幅田间视图图像。

方法

整体结构

CropSight框架由三个核心部分组成:
  • 大规模田间视图影像收集方法:从Google街景视图(GSV)中系统性地收集作物田间视图影像。

  • UncertainFusionNet模型:一种结合了不确定性量化的深度学习模型,用于从收集到的田间视图影像中提取高质量的作物类型标签。

  • SAM模型:通过调整Segmentation Anything Model (SAM)从PlanetScope卫星图像中自动提取每个田间视图影像对应的农田边界。

田间视图影像的收集方法

该部分详细描述了如何通过大规模的操作性方法来收集和筛选街景视图中的田间影像,以确保高效、准确地收集农田相关图像。

  • GSV影像采集:首先,在目标区域内收集所有可用的GSV全景图像,这些图像通过其元数据(包括经纬度、方向等)映射到具体的地理点。
  • 影像过滤:为了确保收集到的影像主要聚焦在农田,作者设计了多个过滤步骤:
    • 非农业用地过滤:基于全球土地覆盖数据(WorldCover),筛选出与农业用地相关的GSV点,剔除非农用地的图像。
    • 主要道路过滤和路口过滤:排除主要道路和路口处的图像,保证采集的是与农田最近的影像。
    • 非种植季过滤:根据美国农业部(USDA)的作物进展报告(CPRs),过滤掉非种植季节的图像,避免采集到无作物的影像。
  • 视图转换:从全景图像中提取左右两个路旁视图图像,并推测其对应的农田坐标,以便后续的边界划定。
  • 图像分类与增强:使用VGG16模型对这些路旁视图进行进一步筛选,剔除住宅、商业等非农业场景。随后,通过基于边缘检测的缩放方法对影像进行裁剪,专注于作物的关键部分,增强作物特征的可识别性。

UncertainFusionNet模型

UncertainFusionNet模型设计用于从GSV影像中提取作物类型标签,并通过不确定性量化提高预测的可靠性。

  • 特征融合模块:模型由两个主要分支组成:
    • ResNet-50分支:该分支是一种卷积神经网络,能够有效提取图像的局部特征。通过跳跃连接解决深层神经网络中的梯度消失问题,逐层抽象出复杂的作物特征。
    • ViT-B16分支:Vision Transformer (ViT)将输入图像分割成小块,使用自注意力机制逐块分析图像,从而提取全局特征。它能够捕获田间视图中的大范围空间关系和上下文信息。
    • 特征融合:通过将这两种不同的特征学习模型的输出进行融合,该模型能够同时处理作物图像的局部和全局特征,从而进行更准确的作物分类。
  • 贝叶斯分类模块:该模块通过MC Dropout方法进行贝叶斯推理,生成概率分布,并通过多次前向传递计算出作物类型的预测不确定性。
    • 不确定性量化:使用熵(entropy)和方差(variance)来衡量模型预测的置信度。通过为每张影像设置不确定性阈值,剔除高不确定性的预测结果。
  • 模型训练与优化:UncertainFusionNet在CropGSV数据集上进行训练,并使用交叉熵损失函数结合不确定性信息来优化模型参数,从而减少错误分类和正确分类之间的重叠,提高分类准确性。

基于SAM模型的农田边界划定

为了从卫星影像中提取农田边界,CropSight框架使用了Segmentation Anything Model (SAM)并对其进行了优化。

  • SAM模型结构:
    • 图像编码器:基于ViT的架构,用于从PlanetScope卫星图像中提取视觉特征并生成图像嵌入。
    • 提示编码器:用于处理地理标签等提示信息,并将其嵌入向量中,指导边界划分。
    • 蒙版解码器:使用图像嵌入和提示嵌入生成分割结果(即农田边界),并输出IoU置信度分数,评估边界划定的准确性。
  • SAM优化:为了适应卫星影像中的农田边界划定,研究者使用手工标注的数据集(CropBoundary)对SAM的蒙版解码器进行了微调,冻结了图像编码器和提示编码器部分。优化后的模型能够更精确地划分农田边界。
  • 损失函数:结合Dice损失和置信度损失进行训练,以提高边界划定的精确性。

结果和精度

作物类型识别对比

农田边界分割对比

和CDL的对比

CDL是由美国农业部(USDA)国家农业统计局(NASS)开发的一个大规模作物类型分类产品

CropSight框架生成的作物类型地图

更多分析可见原文


GEE遥感训练营
分享GEE遥感领域实用教程、最新科研成果及资讯,交流、合作等事宜请加V:GeeStudy_2020
 最新文章