Cell Research | 浙大、农科院和阿里联合开发AI模型DeepFDML破译棉花品种改良“密码本”

文摘   2024-11-08 08:27   湖南  

棉花产量与纤维品质如何受到DNA甲基化调控?在人工智能(AI)的帮助下,中国棉花育种专家成功破译这一“密码本”,并从中找出有望改良棉花品种的关键基因位点。

近日,由浙江大学棉花精准育种团队、中国农业科学院生物技术研究所和湖畔实验室智慧育种团队组成的联合科研团队,综合运用遗传学、生物大数据和AI技术,构建了涵盖207个品种的棉花全基因组DNA甲基化图谱,鉴定了2.87亿个单甲基化多态性(SMP)位点,规模为目前所有作物之最。联合团队从中发现43个潜在参与纤维发育的eQTM基因,为棉花育种提供重要的候选基因列表。相关论文发表在国际期刊《细胞研究》(Cell Research)。

棉花是全球最大的天然纺织纤维来源,需要通过不断聚合优异的基因组遗传位点,进行品种改良。在AI、大数据等技术加持下,农业正在步入“智慧育种”时代,通过综合作物基因型数据、表型数据和环境数据,预测作物性状,精准筛选出优异基因。

此次,联合科研团队聚焦于DNA甲基化对作物的影响。DNA甲基化可以在不改变棉花DNA序列的情况下,影响棉花产量、纤维品质等农艺性状,并通过自然进化和人工选择传递。团队收集了207个品种的棉花全基因组甲基化测序数据、基因组测序数据、转录组测序数据,再结合农艺性状的表型数据,进行关联分析,首次构建起群体尺度的棉花全基因组DNA甲基化图谱,涵盖2.87亿个单甲基化多态性(SMP)位点。其中,仅甲基化测序数据就达到17TB。

湖畔实验室融合AI、并行计算等技术开发了一套新型算法,加速海量遗传数据的分析处理。湖畔实验室智慧育种团队负责人顾斐表示:“相比起传统方法,AI加成的分析计算速度提升近100倍,有助于开展亿级序列对比、群体变异分析和多组学关联分析,在数百个遗传变异、数万个基因以及数亿个甲基化位点之间建立起复杂的映射关系。”联合科研团队进而首次绘制出与棉花纤维发育相关、独立于遗传因素的表观调控网络,揭示了43个潜在参与纤维发育的eQTM基因。其中一个位点已通过基因编辑实验,证实其调控棉花纤维长度的作用。此外,研究人员研发了深度学习模型DeepFDML,基于DNA甲基化位点附近的序列,预测影响基因表达的甲基化位点,未来有望发现更多具有育种价值的信息。

用于功能性 CG 位点预测的卷积神经网络。

开发了一个名为深度功能 DNA 甲基化基因座 (DeepFDML) 的深度学习模型来预测功能性 SMPs,它们是与基因表达变异相关的 SMPs。DeepFDML 模型在与功能性 CG 位点相对应的基因组序列上进行训练,即与 2423 个 CG-eQTM 相关的 2336 个非冗余 CG 位点(即阳性样本)。为保证训练数据的平衡,随机选取另一组 2336 个 CG-SMPs 作为负组。每个 CG-SMP 基因座的侧翼序列通过 one-hot 编码进行转化。

为了评估 DNA 甲基化对基因表达的影响,首先构建了一个卷积模型,该模型由一个卷积层(内核大小为 11,通道大小为 128)和一个全连接层组成。使用五重交叉验证方法对模型进行评估,在受试者工作特征曲线 (ROC) 和精确率-召回曲线 (PRC) 中的准确性都达到了0.65。随后,构建了一个更复杂的 DeepFDML 模型来提高准确性,采用类似于预训练 Enformer 模型的架构作为其支柱。这个先进的 DeepFDML 模型包含一个由 7 个卷积池块组成的卷积部分和一个由 11 个 transformer 编码层组成的 transformer 部分。该模型实现了 0.82 的 ROC 和 0.78 的 PRC,大大超过了卷积模型的性能。基于这些结果得出结论,通过使用深度学习方法的预测模型,可以根据 DNA 序列模式识别功能性 SMP。

“这项研究成果证明了DNA甲基化数据可作为育种资源,为棉花品种改良提供新的思路。”来自浙江大学棉花精准育种团队的方磊表示:“依托生命科学+AI,育种家们将持续挖掘关键基因、预测农艺性状,加速培育‘超级’作物。”

据悉,湖畔实验室(数据科学与应用浙江省实验室)成立于2020年7月,依托阿里巴巴达摩院建设,聚焦数据科学领域的“数据智能”和“新型计算”两大方向。在智慧育种领域,湖畔实验室牵头研发全流程智慧育种平台,为育种家们提供包含育种数据管理和分析、计算加速、AI预测的“中央厨房”,大幅缩短培育新品种的周期。

参考来源:中国科学报

生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章