北京师范大学水科学院Yahui Guo及其合作者在International Journal of Applied Earth Observation and Geoinformation期刊上发表了一篇题为Comparison of different machine learning algorithms for predicting maize grain yield using UAV-based hyperspectral images的研究论文。
及时准确地预测玉米籽粒产量有利于确保粮食安全。为了比较多光谱与高光谱的图像、仅敏感波段光谱和高光谱的全光谱以及各种机器学习方法在预测生理特征方面的能力,本研究采集了多光谱和高光谱图像,使用两波段植被指数(VI)和纹理指数(TI)以及5种常用的机器学习方法和5种卷积神经网络,探讨和比较了它们在估计SPAD、反演叶面积指数和预测玉米产量方面能力。
本研究(1)提出了一种使用高光谱全光谱预测玉米产量的新方法(2)比较了机器学习和深度学习算法(3)发现了RDVI 的双波段 (2D) 对玉米产量比 RNDVI 和 RRVI 更敏感(4)随机森林的高光谱全光谱在预测玉米产量方面取得了最高的准确性。
1.实验设计
1.1试验区设置和数据采集
实验站位于中国河北省沧州市南皮县,在 20 个小区中施用不同组合和数量的 N、K、P 肥料。无人机搭载多光谱相机和高光谱相机于两个时间点在玉米的 R4(面团期)进行数据采集,并测量了玉米的SPAD、LAI和产量。
图1:图 1.实验站和仪器的地理位置。(a) 绿点是实验站,绿色阴影区域代表华北平原,(b) 不同样地的玉米高光谱图像,(c) DJI P4 多光谱,(d) 配备 Cubert X20P 高光谱传感器的 M300 RTK 无人机,(e) SPAD 502 Plus 叶绿素仪,以及 (f) LAI-2200C 植物冠层分析仪。
2.研究方法
2.1植被指数和纹理指数的计算
从多光谱和高光谱图像计算出三种双波段 (2D) 光谱,使用灰度共生矩阵计算8个 Tis。通过相关性分析来选择与玉米性状相关的敏感光谱波长。
2.2 使用机器学习和深度学习方法预测玉米籽粒产量
应用 70% 的数据集来校准模型,其余 30% 的数据集用于验证模型。独立应用五种机器学习方法:BP、RF、SVM、PLSR、LightGBM 和五种 CNN 模型(不同数量的卷积核)来构建预测玉米籽粒产量的模型。
图 2.将基于无人机的遥感数据与机器学习和深度学习方法相结合以预测玉米籽粒产量的工作流程。
3. 结果总结
3.1. 用于估计SPAD和 LAI 的多光谱和高光谱图像的比较
基于多光谱的 VI 对SPAD相对高敏感,但对 LAI 不敏感(图3)。RDTI 在与SPAD和 LAI 的相关性方面略优于 RNDTI 和 RRTI。(图4)。相比于多光谱,基于高光谱的 VI 在与SPAD和 LAI 的相关性更好,表明其在解决植被覆盖率高的作物的饱和问题方面具有更大的潜力(图5)。
图 3.多光谱双波段 (2D) VI 与测得的SPAD和 LAI 之间的偏相关分析。
图 4.基于多光谱的双波段 (2D) TI 与测得的SPAD和 LAI 之间的偏相关分析。
图 5.基于高光谱的 VI 与测得的SPAD和 LAI 之间的偏相关分析。
3.2. 预测玉米籽粒产量的多光谱和高光谱图像的比较
9 月 22 日,使用基于高光谱的波段组合的 r 值急剧下降,大多数基于高光谱的 VI 对玉米籽粒产量失去了敏感性(图6)。25 个不同 VI 的 R² 值变化并不明显,这可能表明 VI 预测玉米籽粒产量是稳定可靠的(图7)。玉米 RDVI 和玉米籽粒产量之间的 R2通常高于 RRVI 和 RNDVI。
图 6.多光谱和基于高光谱的 VI 与谷物产量之间的部分相关性。
图 7.高光谱图像的双波段 (2D) VI 与玉米籽粒产量之间的线性回归分析。注意:1-25 表示 VI 的 25 种组合,s1 和 s2 分别表示 9 月 13 日和 9 月 22 日。
3.3. 基于两个不同数据集预测玉米籽粒产量的机器学习方法
准确率前三个排名模型是 RF、LightGBM 和 CNN100。使用 9 月 13 日获取的数据集的 R² 值通常高于 9 月 22 日,这表明 9 月 22 日获取的基于高光谱的 VI 未能捕捉玉米籽粒产量的动态变化(图8、图9)。
图 8.使用机器学习和深度学习方法,基于选定的双波段 (2D) 指数测量和预测玉米籽粒产量的散点图。注意:CNN 后面的数字表示不同的卷积核,s1 和 s2 分别代表 9 月 13 日和 9 月 22 日。
图 9.使用机器学习和深度学习方法,基于高光谱图像的全光谱测量和预测玉米籽粒产量的散点图
4. 讨论
4.1. VI 和 TI 在SPAD和 LAI反演上可能互补
与前人研究一致,SPAD、LAI 和 多光谱VIs之间的相关性相对较低,VI 在高生物量和高植被覆盖率中饱和。VIs 和 TI 都不能准确表达植物的生理特性(SPAD和叶面积指数)。但是,其敏感光谱波长完全不同,它们可能是互补的,可以推导出生理特性。因此,基于多光谱的 VI 和 TI 的组合可能有助于提高生理特性估计(SPAD和 LAI)的准确性,并且可以在未来的分析中探索整合这些指数的潜力。
4.2.高光谱和RF、CNN在产量预测上的优势
高光谱数据的敏感波段与农业产量密切相关的结论再一次在本研究中得到证实。可能的原因是全光谱覆盖了更多的波段,可能包含大量信息,有助于更准确地估计农业性状。而采用敏感波段只能覆盖预测玉米籽粒产量的主要解释因素,而覆盖整个光谱波长的全光谱包含更多有用的信息,可能有助于提高产量预测的准确性。
在预测玉米籽粒产量的准确性上,不同的 ML 方法差异很大,RF 的准确性最高,其次是 LightGBM 和 CNN150。而在玉米籽粒产量预测表现相对较好的是CNN,优于 SVM 和 BP 等传统 ML 方法。
在未来希望能改进数据集以包含更多对产量预测有用的信息,以提高数据的代表性,或者将第一种机器学习方法的输出作为第二种机器学习方法的输入来改进算法。