亮点
组织大规模基因型-环境-表型公共数据用于基因组预测。 设计了一个基于深度学习的多模态融合框架,用于基因组预测。 Bi-LSTM 和 Transformer 用于处理时间序列环境变量。 广泛的测试表明框架的有效性和优越性。 在可解释性分析中探讨了方法的预测机制。
全球粮食安全挑战日益严峻,全基因组选择(Genomic Selection,GS)已成为提升作物产量与品质的重要技术。尽管传统GS方法在育种中广泛应用,但其在处理非线性遗传效应与高维数据时存在局限。
近年来,深度学习技术通过自动特征提取显著提升了GS预测性能。然而,现有深度学习GS方法面临两大挑战:一是缺乏包含全面基因型、表型和环境信息的大规模作物数据集。现有的深度学习GS方法往往基于小规模数据集进行训练和评估,易导致模型过拟合,从而降低其在新测试样本上的泛化能力。二是如何有效表示环境信息并将其合理整合到基因组预测过程中。现有方法通常通过简单拼接或设计矩阵引入环境信息,但这些方法难以捕捉作物生长周期内环境变量的时间序列特征,也无法预测新环境下的作物表现。
近期,武汉理工大学熊盛武教授课题组和华大生命科学研究院方晓东研究员课题组合作在中科院一区TOP期刊Computers and Electronics in Agriculture上发表了题为Large-scale crop dataset and deep learning-based multi-modal fusion framework for more accurate GxE genomic prediction的研究论文。(点击文末“阅读原文”查看文献)
为了应对作物数据集匮乏的挑战,研究团队整合了国际玉米小麦改良中心的基因型和表型数据资源,并结合AgERA5提供的多种每日气候变量(如降水量、相对湿度、温度等),将气候数据与种植地点和时间相匹配。通过过滤缺失值、异常值及种植周期过长的记录,构建了一个全面的小麦基因型-环境-表型数据集。该数据集包含58,585条产量记录和78,736条株高记录,涵盖全球444个地点17年(2003至2019年)的气候数据,以及1,349种和1,607种独特基因型,分别对应1,946种和2,143种环境。
图1 研究团队整理的数据集中不同试验的全球分布情况
基于这一数据集,研究团队提出了一种基于深度学习的多模态融合框架,用于更准确地预测基因型与环境互作的(G×E)全基因组预测。该框架采用早期融合策略,包括基因型与环境特征提取器、多模态融合模块以及基于卷积神经网络的性状预测网络。基因型特征提取模块采用嵌入层,将离散的单核苷酸多态性(SNP)数据转化为高维嵌入向量,以捕获其语义特性;环境特征提取模块基于双向长短期记忆网络(Bi-LSTM)和Transformer两种方法,挖掘时序环境数据的动态信息。最终,通过多模态融合模块将基因型和环境特征进行联合表征,并输入至预测网络以预测目标性状的表型值。
图2 提出的基于深度学习的多模态融合框架示意图
实验结果表明,论文所提出的框架在所设定的三个不同场景下对产量和株高两个性状的预测中表现出色,优于所比较的多种线性、机器学习及深度学习方法。通过多种实验评估指标(相关性和均方根误差)以及不同视角(表格、箱形图和散点密度图)的展示,验证了该方法在多环境全基因组预测能力和稳定性上的显著优势。
表1 所提出方法在两个性状上的预测性能比较。
图3 三种场景下不同方法预测产量的相关系数和均方误差箱型图
图4 三种场景下不同方法预测株高的相关系数和均方误差箱型图
图5 三种不同训练场景下产量预测的散点密度图
论文还分析了不同环境变量对预测性能的影响。通过测试单一环境变量,发现考虑更多环境变量能明显提升预测准确性,表明在多环境基因组预测中,环境变量的增加对预测性能有积极作用。此外,研究还进行了可解释性分析,通过可视化分析展示了基因型和环境数据对表型预测的贡献。这一分析有助于更好地理解模型的决策过程,并进一步增强了模型的可信度。
图6 三种不同训练场景下株高预测的散点密度图
本文的通讯作者为武汉学院交叉学科数智应用研究院熊盛武教授,武汉理工大学计算机与人工智能学院荣毅副研究员,以及华大生命科学研究院方晓东研究员,武汉理工大学三亚科教创新园邹琪翔博士研究生和三亚华大生命科学研究院太帅帅高级工程师为该论文的共同第一作者。
本研究得到了海南省种业实验室联合揭榜挂帅大数据智能育种项目(B23YQ2001、B23YQ201P)、国家重点研发计划、国家自然科学基金等项目的资助。
文章链接(可点击文末“阅读原文”查看):
https://www.sciencedirect.com/science/article/pii/S0168169924012249