今天来看一篇综述。
人工智能(AI)的智能源于机器学习(ML),即让计算机无需显式编程即可学习的能力。ML通过推导数据模式,减少理解数据所需的人力。ML算法支持大数据分析[1]。随着多组学技术的进步,植物育种进入“基因组、种质、基因、基因组育种和基因编辑(5G)”时代[2],整合生物知识与组学数据以加速性状改良。ML在5G育种中前景广阔,已应用于组学驱动的基因发现、基因型-表型(G2P)预测、基因组选择(GS)和植物表型组学。然而,植物基础研究与育种实践间仍存在差距[3]。鉴于多组学、基因型、表型和环境数据的高维异质性,需新型ML算法。本文提出克服前沿ML模型应用于植物研究的主要挑战的方法,旨在实现智能便捷的植物育种。
ps:我原先在想要不要把文章中的引用格式删了,后面思考后觉得还是不删了。中文翻译后的句子的引文位置可能有偏差但也大差不差。万一有读者看完某句后需要引用,那就可以去原文的参考文献处找,也方便点。
规模化群体多组学分析用于基因发现
发现农学有用基因是利用自然变异进行标记辅助选择(MAS)或通过基因编辑创造人工突变的前提。常见农艺性状的全基因组关联研究(GWAS)已遇瓶颈,解析复杂多基因性状能力有限。多组学分析聚焦于不同时空条件下的参考种质面板,将细胞生物分子(如RNA转录物、蛋白质、代谢物)视为分子性状(mTraits),可显著提高因果基因和突变的定位分辨率。此外,表型组学已成为多组学另一主要部分,表型数据主要通过计算机视觉技术的高通量成像设备生成。由于表型特征可能反映植物细胞内某些生理活动,此类特征可视为成像性状(iTraits)。
应对“维度诅咒”
规模化多组学数据集通常高维、噪声大、异质性强。通过无监督学习的降维(DR)方法解决“维度诅咒”问题。多组学数据关联研究(MODAS)工具箱应用多种DR算法处理植物基因型和分子性状(mTraits)[4]。对基因型进行DR时,MODAS结合Jaccard相似系数、基于密度的空间聚类应用噪声(DBSCAN)和主成分分析(PCA)算法生成“伪基因型指数”文件,简化基因组变异图谱,提高mTraits定位效率。
mTraits也需降维,因组学数据技术问题和生物通路特性导致高度冗余。例如,代谢物由多基因和通路参与的酶促反应级联产生,通路间常见串扰,最终产品和中间化合物可能重复映射到同一区域。非负矩阵分解(NMF)算法通过分解代谢物(n)×样本(m)矩阵去除冗余,生成元代谢物和元样本维度,反映化合物集总体丰度和基于映射区域单倍型的样本亚组。通过元代谢物与伪基因型指数的GWAS映射贡献于相应生物合成途径的基因组块,再用块内SNP识别因果基因和突变,大幅减少计算时间,节省资源,结果清晰易解。
自动化特征工程
特征集(如SNP、mTraits、iTraits)远大于样本集,增加过拟合风险。需进行特征工程(包括特征选择或特征提取)后再训练模型。特征选择从总特征中选小子集,不改变原特征值,可通过先验知识手动选择或模型训练时自动选择。特征提取通过总结原特征特性创建新特征集,NMF即此类方法。特征工程可嵌入多种机器学习(ML)范式,如深度学习(DL)和集成学习(EL)。DL卷积神经网络在层间信息传递时进行特征提取,LightGBM通过计算信息增益(IG)评分进行特征选择。尽管网格搜索自动调参在植物中广泛应用,自动特征工程常被忽视。近期研究表明,LightGBM选出的高IG评分SNP与GWAS识别的峰值SNP一致[5],表明算法能识别性状相关变异,自动特征选择可用于发现农学重要基因,助力MAS有效分子标记面板设计。除嵌入ML算法的方法外,独立特征工程工具(如Python“Featuretools”库的深度特征合成法)也可用于植物研究。
流形学习用于数据可视化
流形学习通过非线性降维(DR)算法可视化超高维数据集,保持高维数据几何特性。此技术特别适用于单细胞RNA测序(scRNA-seq)数据可视化。多种算法(如t-SNE、UMAP、PHATE)用于研究基于scRNA-seq的异质细胞群体结构。另一策略利用深度神经网络(DNN)提取不同网络层内部节点信息,实现批次校正、聚类、去噪和数据可视化。此DL策略不再被视为“黑盒”,因几何特性反映DNN隐藏层提取的生物特征。SAUCIE同时进行scRNA-seq数据的DR和可视化。单细胞分辨率的其他组学数据生成也面临多层级组学数据对齐和整合的新挑战。
精细定位致病变异
基因发现旨在识别对特定性状有益的等位基因变异。精细定位因果变异(如SNP、InDel、PAV、SV)对精准育种重要,尤其对单基因主导的性状。编码SNP或短InDel仅占性状相关变异的很小部分。定位SV和PAV相关的调控变异需高质量泛基因组序列。多步流程辅助多组学数据:
1)GWAS粗定位;
2)TWAS、MWAS、ChIP-seq或STARR-seq整合分析缩小候选基因;
3)SNP基因型映射泛基因组确定HapMap;
4)统计检验PAV相关HapMap与表型变异一致性。
多组学识别的因果变异需实验验证后才可用于分子设计育种。因果变异精细定位涉及多种群体规模组学数据(泛组学),ML方法整合分析泛组学数据的发展备受期待[6]。
知识驱动型分子设计育种
植物研究知识应促进应用植物育种。明确性状的生物学机制可精准利用因果基因改良性状,但转化知识到育种仍具挑战。GWAS所用种质面板包含野生亲缘、地方品种、淘汰品种和现代品种以确保基因型和表型多样性。但种质中多数突变在现代农业品种中已不存在,因有害等位基因被剔除,有益等位基因被固定。现代育种利用基因少,且这些基因的有利突变在不同群体中各异。前景突变需特定遗传背景才有效,故种质中发现的突变未必适用于现代育种。人工创造突变时,新突变需适应现有基因调控网络。瓶颈不在基因编辑或转基因技术,而在识别可修饰而不影响非目标性状的基因和受体材料。
育种的关键在于“时机”和“平衡”
性状改良本质是精细调控基因网络。杂交通过重组有害和有益等位基因生成新调控模式,筛选最优网络以实现性状改良目标。即使微小表型变化也可能涉及重塑的基因网络,影响基因和通路的复杂互作。有害和有益等位基因的定义基于其对产量的最终影响,且其状态在发育阶段和环境中可互转[7]。育种需平衡两组对抗性等位基因的效果。
ML(机器学习)能整合知识和数据,适用于将基因和机制知识转化为应用育种。例如,ML辅助分子设计育种适于机械收获的玉米品种,需考虑多性状改良,难点在于基因的多效性。TOP(目标导向优先化)算法可学习多性状间的协同或竞争关系,辅助选择优候选[8]。充足基因型和表型数据下,ML模型可建立基因与性状关联,学习最优等位基因组合模式,辅助选择理想单倍型材料以同步改良多性状。
EL面板设计
靶向测序基因分型(GBTS)广泛应用于精准医疗的遗传诊断,但成本高,不适于大规模植物育种。GBTS可用于积累ML训练数据,直到覆盖所有目标基因等位组合。识别最稳定SNP后,可设计低成本SNP面板。基于竞争性等位基因特异性PCR(KASP)的超高通量平台(如Nexar Array Tape系统)可用于大规模样本处理,需高效通用标记。嵌入式特征选择的EL(集成学习)算法(如LightGBM)可筛选高效用SNP,生成高浓缩SNP面板,保持最大预测性[5]。
因果学习路径设计
标记面板涵盖GWAS分析识别的性状相关SNP,而通路面板包含多组学分析识别的调控网络或代谢途径基因变异。设计通路面板需推断基因间因果关系(如转录因子与目标基因)。相比用于改良常规农艺性状的标记面板(含数千SNP),通路面板标记较少,针对特定植物特性(如抗逆性或代谢物含量提升)。孟德尔随机化(MR)用于推断植物中突变、基因、生物分子与性状的因果关系[4],但其基于人类群体遗传学假设,对植物适用性需验证。需寻求独立于遗传假设的新方法。ML与因果推断结合形成“因果学习”领域,使AI更贴近现实决策。如因果表示学习和因果树学习(CART模型改进版)可从多组学数据重构生物网络,推断因果关系表示节点间方向性边缘。
数据驱动的基因组设计育种
工业育种数据包括基因型、表型、环境、气候和田间数据。数据驱动设计(如基因组选择GS[9])无需特定基因机制知识,但受限于基因分型成本。低覆盖度全基因组测序(lcGWS/ulcGWS)成本低,但需高覆盖度参考HapMap(hcGWS)进行基因型数据插补。GS项目通常用20%-25%群体构建训练集,预测精度0.5-0.6,成本降低30%-40%[6]。多群体杂交需注意群体分层和过拟合问题。
多组学数据结合深度学习(DL/DNN)可提高预测精度(如DeepGS、DNNGP[10,11]),但需特征工程降维。迁移学习可整合多组学数据与SNP基因型。商业育种分多阶段,ML在GS中应用广泛,但非万能。GS适于评估杂种优势,不适于精细调控特定性状。基因组优化虚拟仿真(GOVS[12])和表型可塑性模型(G×E[13])为补充方法。ML适于复杂数据,但样本少时统计模型更优。半监督学习和多模态学习(如jDR)可应对样本稀缺问题[14]。
构建植物人工智能育种的生态系统
高质量数据集和标签比ML模型更重要,适用于育种。研究表明无单一GS模型在所有性状和物种中表现最佳[15]。ML在育种中需考虑精度、鲁棒性、扩展性和效率。种子行业期待专用于植物AI育种的ML生态系统,包括数据、模型和应用平台(图1)。数据平台自动化处理基因型和表型数据,模型平台含GS、G2P、G×E等决策模型,应用平台提供用户友好的服务接口。ML生态系统将使植物育种更智能便捷。
文献来源:
Cheng, Q.; Wang, X. Machine Learning for AI Breeding in Plants. Genomics, Proteomics & Bioinformatics 2024, 22, qzae051, doi:10.1093/gpbjnl/qzae051.
PS:文章发在2区,但这篇的参考文献好少,就15篇。作为研究报告和综述来说都很神奇的数量。我少见多怪吧。毕竟传说中有大佬写文章不用参考文献,因为他自己就是参考文献!