Plant Com | 基于深度学习的作物全基因组表型预测模型Cropformer

文摘   2024-12-31 08:18   湖南  



Abstract

摘 要

2024年12月16日, 中国农科院作科所种质信息课题组和中国农业大学农学院小麦研究中心联合在Plant Communications在线发表了题为Cropformer: An Interpretable Deep Learning Framework for Crop Genome Prediction的研究论文,提出了整合卷积神经网络与多头自注意力机制的全基因组表型预测新模型Cropformer。该模型在多种作物不同表型预测任务上都表现出稳定优异性能,同时可以通过提取关键权重因子辅助基因挖掘,为作物全基因组选则育种、种质资源应用潜力评估等领域提供了新工具。

https://doi.org/10.1016/j.xplc.2024.101223





研究背景



考虑到全球气候变化、人口增加等趋势,加速作物遗传改良,提升选育优异品种效率,是满足世界粮食需求的重要需求。全基因组选择(Genomic Selection, GS)能够通过基因型直接获得表型的预测值,大幅缩短育种周期,实现降本增效。而预测模型的精度是整个GS工作的核心。虽然目前已有多个基于机器学习的模型被广泛应用于GS,但其预测精度和稳定性仍有进一步提升的空间。



研究结果



研究团队整合卷积神经网络与多头自注意力机制,开发了新的深度学习模型框架Cropformer。该模型能够综合卷积网络的特征提取能力和多头自注意力机制的全局信息捕获能力,并表现出了稳定优异的性能(图1)。团队在玉米、水稻、小麦、谷子和番茄五种主要作物的20多种表型性状上利用Cropformer模型训练了预测模型并进行了评估,结果显示其在所有任务中均较其它模型表现出稳定优势(图2)。不仅如此,Cropformer还能够同时应用SNP、InDel等多维度信息,进一步提升预测精度。

图1 Cropformer框架流程图

团队在Cropformer中设计了基于事后解释的基因辅助挖掘策略, 可以评估不同基因组变异与目标性状之间的关联关系。此外,Cropformer在小型数据集上的计算效率与传统预测模型相当,在大规模数据集上表现出明显优势。Cropformer具有高的准确性和计算效率,有望促进作物育种进程。

图2 Cropformer在玉米训练集和测试集上的预测表现



作者简介



中国农科院作科所作物基因资源与育种全国重点实验室、作物种质资源安全保存与信息化创新团队的博士生王浩、助理研究员闫燊,中国农业大学农学院小麦研究中心博士生王文熙为本文的共同第一作者。中国农科院作科所方沩研究员、中国农业大学小麦研究中心郭伟龙教授和作科所曹永生研究员为该论文的通讯作者。中国农科院作科所贺强研究员、李春辉研究员、陈彦清助理研究员和中国农业大学农学院小麦研究中心陈永明博士(现任北京大学现代农业研究院研究员)对该工作提供了帮助。该工作得到了国家自然科学基金、农业科技创新计划和中央公益性科研经费等项目的资助。


来源:MPlant植物科学


生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章