本研究从无人机获取高光谱图像并同步进行病害指数(DI)调查开始,每个实验小区的高光谱图像都被分配了唯一的编号,以便与相应的DI匹配,并标记大致边界。为实现精确的小区边界划分并生成像素级DI标注,基于UNet算法训练了一个二分类模型,用于区分小麦和土壤。随后,数据集被分为不同部分用于图像分割、模型训练与验证。最终,构建了端到端像素级定量回归模型,实现对小麦条锈病DI的逆推(图1)。
图1 本研究的整体流程
1.2.研究区域与试验材料
实验区域:研究在河南开封市兴华营镇的中国农业大学开封实验站进行,实验持续时间为2021年至2022年,总实验面积为13,600平方米(200米×68米)。2021年10月15日播种,2022年3月28日和29日分别进行两次孢子喷洒接种,以确保感染的均匀性和充分性(图2)。
小麦品种:研究选用了河南省的1520个小麦品种(960个后代材料和560个主栽品种),涵盖了宽广的病害指数梯度。不同品种表现出差异化的抗病性和光谱特性,这为模型的广泛适应性提供了支持。
条锈菌菌株:条锈菌菌株为中国主要生理小种CYR32、CYR33和CYR34的混合菌株,由甘肃省农科院植保所提供,并由中国农业大学植病流行实验室扩繁。
图2 实验区域的具体分布和小区布局
1.3.数据采集:
高光谱图像采集:研究使用搭载了Gaiasky mini2-VN高光谱成像仪的DJI M600 Pro无人机,获取了400–1000 nm范围内的176个光谱通道数据,光谱分辨率为3–4 nm。飞行高度为100米,地面空间分辨率为4–5厘米/像素,航向和侧向重叠率为70%。数据分别在2022年5月3日、5月13日和5月17日进行采集。
病害指数(DI)调查:按照《小麦条锈病测报技术规程》(GB/T15795-2011),对每个小区的DI进行三次评估。每个小区随机选取三个调查点,每点调查约100片叶片,计算DI的平均值。由于小区面积较小且喷洒均匀,DI在每个小区内相对一致,主要差异来源于品种间的变异性(表1)(图3)。
表1 病害指数描述性统计表
图3 病害指数分布图
2.图像数据预处理与标注
高光谱图像预处理
首先使用SpecView软件对高光谱图像进行了镜头校正、反射率校正和大气校正。校正过程包括镜头校正文件的应用、白板反射率数据和40%反射率灰布值的参照,最终生成反射率影像数据。然后使用HiRegistrar软件进行粗配准和空间校正,配准基于同步拍摄的可见光镜头图像完成。最后利用Agisoft Metashape 2.0.2软件结合POS文件进行图像拼接,过程包括:空中三角测量匹配(align photos),表面模型生成(build mesh),数字高程模型生成(build DEM),正射影像生成(build orthomatic)。
标注和分区
首先每个实验小区的高光谱影像分配唯一的编号(FID),以便在后续分析中与对应的DI匹配。然后使用ArcGIS Pro 2.5软件对影像进行标注,并生成标注图像。此软件能有效处理影像文件较大导致的计算复杂性问题。
精确边界划分
手动精确标注小麦种植区域边界难度较大,因此引入基于UNet算法的二分类模型,利用粗略标注数据训练模型,自动区分小麦和土壤区域,并有效去除土壤与阴影(图4)。这一方法显著提高了标注精度。
数据分块与划分
处理后的图像和标注被裁剪为256x256像素的无重叠小块,并划分为训练集、验证集和测试集。同时在每个数据集中进一步对影像裁剪为128x128像素小块,且有25%的重叠。这种分割策略有效防止了因重叠裁剪导致的标注泄漏问题。
图4 基于UNet模型的土壤和阴影去除
3. 像素级回归模型构建与数据分析
3.1.像素级回归模型的构建
传统语义分割模型通常用于将每个像素分类为离散类别(如健康或病害)。本研究的目标是实现像素级回归,即为每个像素生成一个连续值(0–1范围),以反映小麦条锈病的病害指数(DI)。具体方法如下:
标签映射:将影像标注数据标准化到0–1范围(图5),以适配连续值回归任务。
输出调整:在模型中加入二维卷积层,将输出通道数调整为1,并使用sigmoid激活函数将输出值限制在0–1范围内,与标注标签匹配。
损失函数设计:引入回归损失函数(如L1Loss和MSELoss),计算预测值与真实值之间的误差,并通过梯度下降优化模型参数。
框架灵活性:该模型框架支持多种特征提取网络、语义分割算法以及损失函数的灵活组合,适用于各种回归任务(图6)。
图5 不同波段与病害指数分布可视化
图6 像素级回归模型框架流程图
3.2.数据分析
3.2.1.不同损失函数的比较
在本研究中,不同损失函数在小麦条锈病像素级回归任务中的表现被系统地评估,旨在探索适用于高光谱数据回归的最佳优化方法。实验使用了包含176个波段的高分辨率高光谱图像数据集,并选取HRNet_W48作为模型的骨干网络,通过多种损失函数及其组合进行建模与测试。这些损失函数包括经典的MSELoss、Laplacian Loss,以及二者的组合损失。同时,为了验证不同损失函数的广泛适用性,还尝试了L1Loss和Smooth L1 Loss作为参考。
实验结果显示,不同损失函数对模型性能的影响存在显著差异(表2、表3)。其中,MSELoss作为一种经典的回归损失函数,凭借平滑、连续和可微的曲线表现出良好的稳定性,但其对异常值较为敏感,这种特性可能导致模型在某些正常数据点上的预测精度下降。相比之下,Laplacian Loss通过拉普拉斯金字塔分离局部与全局特征,并实现多尺度损失计算,在捕获细节和优化全局结构上展现出一定优势。然而,单独使用MSELoss或Laplacian Loss,其性能均不及两者的组合损失。在本研究中,Laplacian Loss与MSELoss的混合使用显著提高了模型的整体表现,测试集的决定系数(R²)达到了0.870,均方误差(MSE)降低至0.0142,展现了对细节与全局特征的综合优化能力。
此外,实验还发现,L1Loss未能在训练中成功收敛,表明其在当前像素级回归任务中不适用。尽管Smooth L1 Loss在某些方面改善了L1Loss的局限性,但其表现仍低于MSELoss与Laplacian Loss的组合。从模型的收敛过程来看,使用混合损失函数的模型在训练过程中表现出更快的收敛速度和更高的稳定性。通过对验证集的R²值变化进行分析(图7),可以观察到使用混合损失的模型在多个训练周期中保持了显著优于单一损失函数的预测能力。
表2 不同损失函数的超参数配置
表3 测试集性能对比
图7 不同损失函数模型在训练过程中的验证集R²和损失值变化
3.2.2.不同算法的比较
在本研究中,对DeepLabv3+、HRNet、OCRNet、UNet和UNet3Plus等多种主流图像分割算法进行了比较,目的是识别最适合小麦条锈病像素级回归任务的算法框架。UNet是一种经典的编码器-解码器架构,通过跳跃连接在编码器和解码器之间传递信息,从而保留细节信息,增强上下文语义的捕获能力。改进版本UNet3Plus通过将编码器的低分辨率特征与解码器的高分辨率特征连接,同时引入注意力机制和残差连接,有效提高了特征融合质量,减轻了训练误差。
DeepLabv3+则引入了膨胀卷积的空间金字塔池化模块(ASPP),能够在多尺度范围内捕获上下文信息。同时,其解码器模块改进了边界恢复能力,增强了整体分割性能。HRNet通过高分辨率并行处理技术,在整个网络处理中始终保留高分辨率特征图,从而在细节提取和全局特征融合上表现优异。OCRNet则以HRNet为骨干网络,采用对象上下文表示机制,进一步增强了每个像素的语义描述能力,展现了在多种语义分割数据集上的出色表现。
实验使用包含176波段的原始数据集,并结合LaplacianLoss与MSELoss的混合损失函数进行建模与测试。结果(表4)表明,HRNet_W18表现最优。可视化结果(图8)显示,DeepLabv3+在小麦与土壤混合像素的分割中,尤其在实验小区边界,存在明显错误。而HRNet与UNet框架在边界像素处理方面表现优异,能够更准确地分割锐利的边缘。特别是HRNet_W18,即使层数较少,依然能够完成像素级的小麦条锈病病害指数回归任务,并且在性能上略微优于HRNet_W48。
模型架构如图所示(图9),HRNet_W18与HRNet_W48的架构对比显示,HRNet_W18通过减少特征通道数大幅降低了模型复杂性。具体而言,Stage 2的通道数从[48, 96]减少至[18, 36],Stage 3的通道数从[48, 96, 192]减少至[18, 36, 72],最终融合后的特征通道总数从720降至270。这种调整使模型文件大小从502 MB降至74.7 MB,同时大幅降低了计算复杂度。
表4 不同算法框架的性能对比
图8 不同算法在像素级回归任务中的分割表现
图9 HRNet模型架构
3.2.3. 极化自注意力(PSA)模块的引入
在像素级回归任务中,保持高分辨率特征对于模型性能至关重要。近年来,基于卷积神经网络的像素级分割技术取得了显著进展,其中以HRNet及其变体为代表的模型架构强调了高分辨率信息在像素级预测中的重要性。注意力机制在机器学习领域得到了广泛应用,通过对输入张量进行加权以消除无关信息,显著减少了卷积神经网络的计算复杂度,并提高了模型在多项任务中的性能。然而,传统的注意力机制(如SENet和CBAM)通常在较低的内部分辨率下表现最佳,这限制了其在高分辨率信息处理中的应用能力。
为了解决这一挑战,一种新型的注意力机制——极化自注意力模块(PSA)被开发,用于在细粒度的计算机视觉任务中实现高质量的像素级回归。PSA模块的设计包含两个关键特性:首先,极化过滤确保了在通道和空间注意力计算中保持高内部分辨率,同时对输入张量的相应维度进行充分压缩;其次,增强模块通过非线性函数直接拟合细粒度回归的输出分布。实验结果表明,在二维语义分割基准测试中,PSA模块可以将现有最优模型的性能提高1%至2%。
将PSA模块集成到HRNet骨干网络后,实验表明(表5),无论是HRNet_W18还是HRNet_W48模型,其R²值均有轻微提升。PSA模块的加入显著优化了模型的像素级回归能力,使其能够更高效地利用上下文信息进行预测。通过对测试集的可视化结果(图10)分析,可以看出,与未加入PSA模块的HRNet_W18(图10中D行)相比,加入PSA模块的HRNet_W18_PSA(图10中C行)有效减少了预测图像中的斑点效应。这一结果表明,PSA模块通过对局部和全局特征的进一步优化,改善了病害指数反演的细节质量。综合结果表明,HRNet_W18_PSA模型利用全波段高光谱数据,能够高效完成小麦条锈病病害指数的端到端、定量化像素级反演。具体来说,该模型的测试集R²达到了 0.880,平均绝对误差(MAE)降至 0.0123,展现了极高的预测性能,为农业遥感中的高精度病害监测提供了重要技术支持。
表5 PSA模块对模型性能的影响
图10 HRNet_W18与HRNet_W18_PSA模型的测试集可视化结果
3.2.4. 不同数据集的比较
在本研究中,除了采用全波段建模方法外,还基于前人研究筛选出的最佳指数(BI和DBSI)构建了简化的数据集。BI和DBSI分别利用特定波段之间的比值和差值关系捕捉植被特征,详细计算公式见表述。通过对所有可能的波段组合进行计算和分析,研究选择了性能最优的指数组合,并使用mRMR算法进一步筛选,构建了包含12个、6个和3个特征索引的简化数据集。这些特征索引数据集中的波段选择基于实验小区的平均光谱反射率,显著降低了数据的冗余性和异质性。
对于不同的数据集,研究分别采用了传统机器学习方法(如线性回归和MLP回归器)和深度学习方法(如HRNet_W18_PSA和HRNet_W48_PSA)进行建模。实验结果(表6)表明,传统机器学习算法在仅使用3个特征时表现较差,其R²值仅为0.202(线性回归)和0.322(MLP回归器)。相比之下,深度学习方法展现了显著的性能提升,其中HRNet_W18_PSA和HRNet_W48_PSA在3个特征索引数据集上的R²值分别达到0.813和0.816。类似的趋势也出现在6个和12个特征索引的数据集中,深度学习方法凭借对纹理和光谱特征的联合建模能力,显著优于仅依赖像素波段特征的传统方法。
随着特征数量的增加,模型性能进一步提升。例如,HRNet_W18_PSA算法在6个特征索引的数据集上的R²值从3个特征时的0.813增加到0.829,而使用12个特征时R²值进一步小幅提升至0.830。然而,尽管简化特征集能够取得较高的建模精度,基于全波段数据的建模仍然表现最佳,其R²值达到了0.880。此外,基于简化特征建模的测试集可视化结果(图11)表明,即便使用少量特征索引,也可以实现对小麦条锈病病害指数的像素级定量反演,但模型性能略低于全波段建模。
这些结果强调了特征选择的重要性,并验证了以BI和DBSI为基础的特征索引在简化建模中的有效性。尽管简化特征集能够显著降低计算复杂度,但在追求最高精度的应用中,全波段数据仍然是不可替代的选择。
表6:不同数据集与算法的建模性能对比
图11 不同数据集的测试集可视化结果
4. 总结:
本研究以河南省1520个小麦品种为实验材料,利用无人机高光谱图像和深度学习技术实现了像素级病害指数的定量化反演。在对不同损失函数、算法模型和数据集的效果分析中,发现复合损失函数(LaplacianLoss + MSELoss)表现最佳,HRNet_W18模型在加入PSA模块后达到最高性能(R²=0.880)。尽管特征波段建模能够在一定程度上提高效率,全波段建模在最终精度上更具优势。本研究表明,基于深度学习的全波段端到端建模方法能够显著优化病害指数的反演效果,为精准农业中的病害监测与数据分析提供了可靠的技术支持和理论基础。
注:文献解读主要用于个人学习,也欢迎大家交流,解读有误之处或有侵权请指出,公众号及时修改或删除。