准确估计作物产量对于了解作物对不同农业管理措施和环境胁迫的反应非常重要。然而,由于植物基因型、气候、环境因素、管理策略以及各种因素之间的相互作用对农业生产系统中作物产量产生了十分复杂的影响。2022年9月23日,由土耳其Ondokuz Mayis大学农业结构与灌溉系农学院的Sevda Taşan及其合作者发表在Computers and Electronics in Agriculture期刊上的题为Estimation of eggplant yield with machine learning methods using spectral vegetation indices的文章基于手持式光谱辐射计获得的VIs,使用5种不同的机器学习方法(人工神经网络(ANN)、支持向量机(SVR)、k近邻(kNN)、随机森林(RF)和自适应增强(AB))确定茄子在田间条件下的产量,并比较这些方法的性能,进而确定在生长季节内土耳其北部半湿润气候地区茄子生产最合适的灌溉方案。灌溉处理共5个,分别为全水(I1:100%)和不同亏缺比例的全水(I2:I1x75%,I3:I1x50%,I4:I1x25%,I5:雨养)。通过相关分析和主成分分析(PCA)确定产量估算模型的输入变量。模型输入为10种不同的VIs、种植后天数(DAP)和施水量系数的不同组合(图1)。
图1,茄子产量估算过程流程图
研究结果:
1.施用灌溉水量和土壤含水量
试验年份的灌溉水总量因处理、气候条件和降水而异。实验年份的平均气温在所有3年中都相似(图2),各灌溉处理在2015、2016、2017生长季60 cm有效根深土壤含水量变化如图3所示。3个生长季节土壤含水量的时间变化表明,从灌溉处理开始,土壤含水量随亏缺灌溉逐渐下降,在I5处理(2015年和2017年I4和I5处理)的生长季节中期后,土壤含水量甚至低于萎蔫点。
图2,研究期间平均气温和光合有效辐射资料的时间序列图
图3,2015、2016、2017生长季各灌溉处理土壤含水量变化
2.不同灌溉处理下茄子的光谱反射率
2015年、2016年和2017年不同灌溉处理下茄子的季节平均光谱反射率如图4所示。全灌和亏缺灌处理植株的光谱反射率在3年内差异均显著。全灌条件下植株的光谱反射率在可见光波段(400 ~ 700 nm)较低,在近红外波段(700 ~ 1100 nm)较高。在水分胁迫处理下,植物在可见光波段的反射率较高,近红外波段的反射率较低(图4)电磁波谱的可见、红边和近红外区域。因此,基于这三个光谱区域有效波长的植被指数可以有效地间接评价不同灌溉处理下茄子的产量。
图4,2015年、2016年和2017年生长期的季节平均光谱反射率(R)
3.相关分析
通过相关分析来评估茄子产量与植被指数、DAP和处理之间的关系。该分析有助于评估每个变量对茄子产量的影响,并最终确定应作为机器学习模型输入的变量。DAP与产量的相关性最高。研究选取了10个与茄子产量极显著相关的光谱指标。此外,植被指数之间也具有高度且显著的相关性。在预测模型中使用高度相关的变量作为输入可能会导致多重共线性问题而PCA可以避免这个问题。
4.主成分分析
主成分分析(PCA)是一种多元统计方法,旨在降低数据集的维数,同时最大限度地减少信息损失。在研究中,通过组合可能相互关联的输入变量,使用PCA来发现少量显著的新变量。每个观测值的分量分数可以用主成分分析法计算,然后将分量分数用作各种预测模型(如人工神经网络)的输入。通过PCA计算各参数的分量得分,然后作为模型的输入。这些分数还用于防止原始数据中的随机误差。PCA技术得到的结果如图5所示。采用12个特征变量进行主成分分析。结果显示,前两个pc(PC1和PC2)可以解释原始数据中88.68%的方差。第一个分量(PC1)解释了总方差的75.902%。第二分量(PC2)解释了总方差的12.96%,产量与DAP呈显著正相关(图5)。
图5,植被指数与产量的主成分分析及相关性研究
5.机器学习方法的性能
在仅使用植被指数作为输入的模型中ANN8模型(1-5-1)的性能最高。在模型中加入时间变量(DAP)和施水量(处理)等与植物生长有关的变量可显著提高模型的性能,ANN17(3-5-1)模型的性能最高。以主成分分析得到的分量系数作为输入的模型中,人工神经网络模型的产量预测性能最好的是ANN23(2-5-1)。使用所有输入变量的ANN24(12-5-1)模型在测试阶段的性能略高于ANN17模型。增加输入变量的数量并没有显著提高模型的性能。之前的一些研究报告称,增加输入数量可能不会提高预测精度。在试验阶段,ANN23模型的性能最好,ANN9模型的性能最差。
6.不同投入组合及预测方法对产量估算的影响
使用24种不同输入组合预测茄子产量的ANN、kNN、SVR、RF和AB模型的性能指标与图6中的热图进行了图形化比较。该图清楚地显示了不同输入组合对模型预测性能的影响。在仅使用植被指数的模型中,kNN7(GI)模型的预测精度最高,其次是ANN8(GVI)、AB8(GVI)、SVR7(GI)和RF7(GI)模型。作物数据与植被指数的整合显著提高了茄子产量预测模型的准确性。结果表明,DAP和灌溉处理是影响茄子产量的重要因素。利用主成分分析得到的分量作为输入,进一步提高了模型的产量预测精度。预测精度最高的是ANN23模型,其次是SVR23、kNN23、AB23和RF23模型。综上所述,使用5种不同的机器学习方法,使用24种不同的输入变量来估计茄子产量。ANN模型的预测精度最高,其次是SVR、kNN、AB和RF模型。
图6,测试阶段不同输入组合对应的模型的测试统计量
试验阶段的测得的产量和估计产量值的散点图如图7所示。图7a为仅使用一个植被指数的模型,图7b为同时使用植被指数和作物数据的模型,图7c为使用主成分的模型,图7d为使用所有变量的模型结果。与其他输入组合相比,使用PCA衍生组件的机器学习模型具有较低的分散程度。与其他模型相比,ANN23模型的产量估计分散较少,拟合线更接近(1:1)线。
图7,利用最优模型绘制了实测和估计产量的散点图。a)输入组合仅包含植被指数,b)输入组合包含植被指数和作物数据,c)输入组合包含主成分,d)使用所有变量的输入组合
构建了箱形图来显示实测值和预测值的分布差异(图8)。结果表明,与其他方法相比,ANN方法在各种输入组合下与实测值的分布相似。人工神经网络模型对ANN23输入组合的产量估计优于其他模型。图形比较证实了表中所列的统计结果。因此,可利用ANN23模型估算茄子产量。
图8,使用不同模型测试阶段的测量产量值和估计产量值的箱形图
泰勒图也被用来评估用机器学习方法开发的产量预测模型。试验期间不同最优输入组合下的茄子产量实测及机器学习模型估计的泰勒图如图9所示。这五种机器学习模型的性能都很好,但ANN23模型的结果比其他模型的结果更接近于测量的产量值。
图9,最佳表现模型的泰勒图
总结:
使用单个VI作为输入的模型预测精度较低。绿色指数(GI)和绿色植被指数(GVI)对茄子产量的影响最大,利用这两个指标估算茄子产量的准确性较高,且对叶绿素吸收敏感。在机器学习模型中使用遥感数据和PCA可以更可靠、更准确地估计区域尺度上的茄子产量。
注:文献解读主要用于个人学习,也欢迎大家交流,解读有误之处或有侵权请指出,公众号及时修改或删除。