近几十年来,为了实现联合国可持续发展目标(UN-SDGs)下的粮食安全,特别是SDG-2“零饥饿”,作物产量估算和建模已引起全球关注。及时准确的产量预测是农学家更好地管理作物和应对气候变化负面影响的主要关注点。自20世纪70年代以来,遥感已广泛应用于测量和估计植被特征、作物生长发育变化、健康状况和产量预测等。2023年4月18日,由巴哈瓦尔布尔伊斯兰大学地理系的Sana Arshad及其合作者发表在European Journal of Agronomy期刊上的题为Applicability of machine learning techniques in predicting wheat yield based on remote sensing and climate data in Pakistan,South Asia的文章利用遥感和气候数据预测了巴基斯坦南部的小麦产量。该研究将绿色归一化植被指数(GNDVI)、归一化植被指数(NDVI)、增强植被指数(EVI)、土壤调整植被指数(SAVI)与最高温度(Tmax)、最低温度(Tmin)、降雨量(R)、相对湿度(RH)和风速(WS)5个气候变量和标准化降水蒸散指数(SPEI)1个干旱指数相结合。在小麦生长的整个季节平均值(WSM)(SC1)和季节平均峰值(POSM)(SC2)两种情景下,构建了8种模型组合。采用随机森林(RF)和支持向量机(SVM)两种非线性机器学习算法和LASSO一种线性模型进行小麦产量预测,寻找两种场景下的最佳组合和机器学习算法(图1)。
图1,采用ML方法预测小麦产量的方法和模型框架
试验结果
1.从EDA输入变量的箱形图和散点图
箱形图和散点图显示了所有变量及其极差、平均值和离群值的时间分布。该地区的平均WS从11月的最小5米/秒增加到4月的最大12米/秒。Tmin在16°C至23°C之间,Tmax在26°C至40°C之间,PET最高。SPEI在作物生长期无显著变化,而相对湿度在季节寒冷月份往往较高。RS指数反映了小麦物候特征,11-12月播种至分蘖期指数最低,1-3月开花至灌浆期指数最高,灌浆至收获期即3-4月指数再次下降(图2)。各预测变量和响应变量的散点图均显示了它们之间的线性关系(图3)。
图2,各预测变量在小麦生长期(11-4月)的时间分布。1)风速(WS)2)平均最低温度(Tmin)3)降雨量4)潜在蒸散(PET)5)SPEI 6)相对湿度(RH)7)平均最高温度(Tmax)8)NDVI 9)EVI 10)SAVI 11)GNDVI
图3,所有预测变量(遥感+气候)与响应变量(小麦产量)的散点图
2.预测因子与响应变量之间的相关性
所有预测因子与响应变量之间相关性的显著性如图7所示。NDVI与GNDVI、EVI、SAVI和小麦产量的相关性为0.87~0.95。植被指数与PET、Tmax、WS呈负相关(0.2~0.45),与Tmin呈极显著正相关(0.47~0.51)。参考作物蒸散量(PET)的影响,将SPEI作为小麦产量预测的重要因子,结果表明,在不同的模型组合下,SPEI也能很好地预测小麦产量(图4)。
图4,所有预测因子与响应变量之间存在显著相关性
3.不同作物生长情景下小麦预测的模型性能
小麦生长WSM的第一个情景表明,在非线性模型中,RF在WSMm8下的表现优于SVM,被证明是小麦产量的最佳预测因子,其次是WSMm1,确定的最不显著的预测因子是WSMm7,此外,线性LASSO在与RF的竞争中也表现较好,然后是WSMm5和WSMm4。小麦生长POSM的第二种情景显示,POSMm8即在产量预测方面表现最好,然后是POSMm4和POSMm1,发现对小麦产量预测最不准确的模型组合是POSMm7。在小麦生长的WSM和POSM情景下,在非线性模型中,RF比SVM对小麦产量的预测效果较好。在4个植被指数中,GNDVI在不同气候变量组合下表现最好,其次是NDVI。而POSM模型组合中的SAVI对产量预测的准确性最低。此外,线性ML算法LASSO也表现出与RF的良好竞争,并证明POSMm5和PSOMm8是小麦产量的最佳预测组合(图5,6,7)。
图5,基于R2的机器学习方法性能评价
图6,所有机器学习方法中所有模型组合的性能,其中a)两种作物生长情景(WSMm1-8)和(POSMm1-8)中所有模型组合的决定系数R2,b)两种作物生长情景(WSMm1-8)和(POSMm1-8)中所有模型组合的均方根误差RMSE,c)两种作物生长情景(WSMm1-8)和(POSMm1-8)中所有模型组合的平均绝对误差(MAE)
图7,观察Vs通过显著的产量预测模型预测小麦产量
总体而言,在RF中,POSMm8和WSMm8是产量预测的最优显著模型。相反,在LASSO中,WSMm1和POSMm 5和8是最好的(图7,8)。
图8,最优模型组合预测小麦产量
结论
及时预测作物产量对于决策者制定更好的战略来应对气候影响和最大限度地提高产量表现具有重要意义。研究结果表明,在SC1中,模型组合(GNDVI+Tmax+Tmin+R+RH+WS)的RF回归优于其他模型。同样,在SC2中,RF回归优于模型组合(GNDVI+Tmax+Tmin+R+RH+WS)的SVM,其次是(GNDVI+SPEI+RH+WS)。有趣的是,在两种情况下,线性LASSSO也与RF表现相同。总的来说,本研究揭示了机器学习技术在作物生长不同阶段及时预测作物产量的重要性和潜力,为该地区的粮食安全提供了坚实的基础。