农林专业顶刊AFM:双重集成方法预测水稻抽穗期

文摘   2024-12-19 15:33   美国  

作物物候是一种重要的生物学表型,主要由作物遗传背景和生长季节气象因子的相互作用决定。物候学可用于预测作物产量和阐明作物对环境变化的响应,因此,准确预测作物物候参数对人类粮食安全具有重要意义。

2023年11月27日,Hiroshi Nakagawa和Satoshi Kawakita等人联合发表在《Agricultural and Forest Meteorology》(中科院一区top)上的题为“Dual ensemble approach to predict rice tiping date by integrating multiple rice phenology models and machine-learning-based genetic parameter regression models”的文章,采用不同物候模型和参数估计方法,考察了抽穗期预测的差异,提出了一种利用物候学和回归模型来估计其参数的双集成模型,比较了该方法与单个物候模型的预测精度。

采用4种水稻物候模型和3种基于机器学习的参数回归方法对4083种集合模式进行了分析,结果表明,双集合方法可以提高作物物候预测的准确性,并体现了集合参数化和组合多种作物模型在整合基因组预测与作物物候模型时的重要性。

研究结果

第一步:利用生育期的管理和气象数据,为144个水稻品种分别校准了4个水稻物候模型(mBeta、SIMRIW、ORYZA2000、Beta),并确定了每个模型的参数。

第二步,进行10次交叉验证,根据试验品种遗传信息和生育期气象资料,将144个选育品种分为训练和测试两大类进行抽穗期预测(图1)。

图1 两步法水稻物候综合模型及其集合模型的校准和验证过程

1、水稻物候模型参数的预测精度

在训练数据中,与支持向量机和岭回归两种机器学习方法相比,随机森林与水稻物候模型参数的相关性最高(图2),测试数据显示,三种回归方法的相关系数差异不大。ORYZA2000的参数估计在水稻物候模型中估计精度最高,相关系数约为0.7,Beta和SIM-RIW的参数估计性能相对较低,在任何回归方法下都小于0.6。

图2 四种水稻物候模型参数的皮尔逊相关系数以及利用遗传信息通过三种回归模型进行估计

2、水稻物候综合模型的预测精度

在训练数据集中的所有水稻物候综合模型中,采用随机森林回归法回归参数的 mBeta 模型的精度最好,RMSE = 4.27,MAE = 3.12,NSE = 0.94(表1),在两组测试数据中,各综合水稻物候模型的预测结果表明,带岭回归的 mBeta 模型(RIm)在已知环境中最准确(RMSE = 6.12、MAE = 4.73 和 NSE = 0.9),而带岭回归的 ORYZA2000 模型(RIo)在未知环境中最准确(RMSE = 6.79、MAE = 5.18 和 NSE = 0.89),综合模型的预测精度随所用物候模型类型的不同而有很大差异,即使使用相同的物候模型,根据所使用的回归方法,准确性也会相差一天或更长时间。

表1 在已知环境和未知环境下训练和测试数据的综合水稻物候模型的RMSE、MAE和NSE

3、水稻物候综合模型集合方法的预测精度

模型间预测精度的差异随着集合成员数量的增加而减小,精度收敛于一个恒定值(图3)。将单个模型的RMSE与集成模型的RMSE进行比较,结果表明,综合模型的RMSE显著降低。已知和未知测试环境下的测试数据,集成模型的平均RMSE分别趋近于6.2和6.8d,而两种测试环境下单个模型的平均RMSE分别约为7.9(±1.4)d和9(±1.94)d,差异较大。

图3 训练和测试数据中,按单个模型和集成综合水稻物候模型所采用的模型数计算的 MAE、RMSE 和 NSE 的平均值和标准偏差

基于RMSE,训练数据集中集合成员数(2 ~ 12个独立模型)预测精度最高的集合模型,组合,所有组合中最准确的模型是RFm,随着集成成员的增加,预测精度持续下降(表2),然而,对于两个测试数据集,预测精度迅速提高,直到集成模型数量增加到2~5。当组合模型的数量从5个增加到10个时,精度相对稳定,但RMSE从11个开始略有增加。

表2 最佳集合模型组合

训练和测试数据中准确率最高的前30个模型,在训练数据中,RFb、RFm、RFo和RIm被选择的频率最高,而在测试数据中,RIo、SVm and SVo被选择为较好的集成成员(图4)。测试数据集中,RFs被选择为较好的集成成员的频率相对较高,在物候模型中,特别是mBeta模型经常被认为是最好的集合成员。mBeta模型对三种不同方法(RFm, RIm, SVm)的参数进行了回归,得出了最好的集合成员预测之一。

图4 在训练数据集和测试数据集上预测准确率最高的30个模型各组成部分的频率分布

4、单一和双重集合方法的比较

使用单回归模型和使用多个物候模型的多元回归模型的最佳模型预测,在训练数据中,采用随机森林的单一集成模型预测精度最好,整体趋势是随着模型数量的增加,采用单一回归方法的集成模型预测精度降低,双集合模型也有类似的趋势,且预测精度优于基于随机森林分析的单集合模型(图5)。然而,在测试数据中,双集成模型在已知和未知测试数据集上都显示出最高的预测准确率。与单集合模型相比,随着集合个体模型数量的增加,双集合模型的RMSE值始终较低。

图5 根据每个集成的模型数量,在已知环境测试和未知环境测试数据集对单个和双集成模型的预测精度

综合水稻物候模型的预测精度取决于不同的物候模型和基于遗传背景信息的物候模型参数估计回归方法。此外,采用双集合方法将多个水稻物候模型与基于遗传信息的模型参数结合起来,利用多元回归方法进行估计,可以提高模型的精度。选择合适的集成成员模型被发现是特别重要的,因为单个集成模型的预测精度可能取决于所使用的回归方法。线性和非线性参数回归方法可以有效地从遗传信息中估计作物生长模型参数。

本研究包含了4000多个集合模式,为利用遗传信息开发综合作物物候模型、选择合适的作物模型和参数化回归方法提供了有用的信息。

注:文献解读主要用于个人学习,也欢迎大家交流,解读有误之处或有侵权请指出,公众号及时修改或删除。

来源:作物功能表型研究

生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章