作物的遗传改良通常采用两种主要方法:基因工程和育种选择。基因工程涉及对植物基因组的某些部分进行人工修改,以增强其在特定环境压力下的抗逆性。而育种选择主要通过高度、生物量、产量以及对生物和非生物应激的抵抗力来衡量表型行为,在多年的各种环境条件下评估数千种基因型。对于大豆而言,产量是其基因型选择的关键表型性状。现有大豆产量预测模型在跨测试地点或地理区域的迁移能力和鲁棒性方面仍面临重大挑战。2024年4月,由圣路易斯大学的Juan Skobalski及合作者发表在ISPRS Journal of Photogrammetry and Remote Sensing(IF=10.6)上的题为"Bridging the gap between crop breeding and GeoAI: Soybean yield prediction from multispectral UAV images with transfer learning"的文章研究了使用迁移学习对开发能够预测不同地点大豆产量基础模型的可行性。1:材料与方法
本研究有六个试验区域,共包含31404个地块,其中4059个地块位于美国,其余27345个地块位于阿根廷(ARG)。使用配备Micasense RedEdge-M多光谱传感器的DJI Matrice 600无人机收集美国地块的遥感数据。RedEdge-M有5个镜头:可捕捉蓝色、绿色、红色、红边和近红外数据。使用配备DJI P4多光谱相机的DJI Phantom 4 Pro无人机采集ARG遥感数据。P4 传感器总共配备了六个镜头:包括蓝色、绿色、红色、红边、近红外和专用 RGB 镜头。
本研究构建了一个深度神经网络(DNN)架构,如图2所示,该架构由10 个完全连接的密集层组成。
图2:DNN 架构示意图。
2:数据迁移
为了确保模型可以应用于不同的ARG区域,本研究使用包含四个位置中的三个的数据集对其进行预训练。之后使用之前训练的模型权重作为基础重新训练模型。通过使用第四个位置的10%、20%和30%的数据对模型进行微调,以研究数据大小对迁移学习的影响。图3:数据层迁移
如图5所示,顶部三张图包含美国数据集的RF回归结果(左)、GB 回归结果(中)和DNN结果(右)。中间的三张图针对的是ARG数据集。底部三张图针对数据混合后的COMB数据集。对于美国数据集,三种算法的总体性能相似,RF的R2为0.57,GB的R2为0.60,DNN的R2为0.55,对于ARG数据集,RF的R2为0.67,GB 的R2为0.67,DNN的R2为0.66,对于COMB数据集,RF的R2为0.76,GB的R2为0.76,DNN的R2为0.74,GB模型在大多数情况下表现稍佳。在预测不同位置时观察到了主要差异。图中可知美国数据集的性能最差,ARG数据集的性能优于美国,COMB数据集获得了最好的预测性能。 图5:模型回归结果
由于育种行业通常优先考虑表现最好的基因型,因此通过分类辨别高产和低产基因型的能力在现实世界中也很有价值。本研究将数据分为四个四分位数来进行分类,即0-25%、25-50%、50%-75%和75-100%。研究结果表明,分类模型在预测顶部和底部四分位数方面最为有效,混合数据集可以显著提高分类精度。图6:美国数据集分类结果
图7:ARG数据集分类结果
图8:混合数据集分类结果
1:本文的研究表明,通过跨区域和跨气候条件的模型迁移,可以显著提升模型的适用性和实用性。然而,如何在环境条件差异较大的情况下进一步改进模型仍然值得我们思考。2:无人机遥感技术为非破坏性作物表型分析提供了高效工具。然而,不同传感器间的校准差异可能会导致数据的一致性问题。如何准确有效的在数据层进行校准,消除数据采集设备之间的差异是未来研究的重点。