GPB | 王向峰综述：机器学习技术驱动植物AI育种

文摘 2024-10-23 08:33 湖南

2024年7月，Genomics, Proteomics & Bioinformatics （GPB）在线发表了由中国农业大学王向峰教授团队撰写的题为“Machine learning for AI breeding in plants”的观点文章。

机器学习（ML）使人工智能（AI）变得智能，ML 先驱 Arthur Samuel 于 1959 年将其定义为“使计算机能够在无需明确编程的情况下学习的研究领域”。ML 可以推断数据模式，而无需像统计学那样依赖先前的假设，从而大大减少了理解数据所需的人力。ML 由一大类算法组成，其中许多算法支持大数据分析。随着多组学技术的飞速发展，植物育种已进入“基因组、种质、基因、基因组育种和基因编辑（5G）”一代，其中生物知识和组学数据相结合，以加速性状改良。ML 在 5G 育种方面前景广阔，许多报道称 ML 在组学驱动的基因发现、基因型到表型（G2P）预测、基因组选择（GS）和植物表型组学中的应用。然而，植物的基础研究和育种实践之间仍然存在差距。鉴于多组学、基因组学、表型和环境数据集已经变得高维度和异构，因此需要新的机器学习算法。因此，我们提出了克服尖端 ML 模型应用于植物研究的主要挑战的方法，最终目标是使植物育种变得智能和简单。

用于基因发现的群体规模多组学分析

发现农艺学上有用的基因是利用自然变异进行标记辅助选择（MAS）或通过基因组编辑产生人工突变的前提。常见农艺性状的全基因组关联研究（GWAS）已达到瓶颈，因为它们剖析复杂多基因性状的能力非常有限。当细胞生物分子（例如 RNA 转录本、蛋白质、代谢物）被视为分子性状（mTraits）时，在不同时空条件下专注于参考种质面板的多组学分析可以大大提高致病基因和突变的定位分辨率。此外，表型组学已成为多组学的另一个主要组成部分，其中表型组学数据主要由使用计算机视觉技术的高通量成像设备生成。由于表型特征可能反映了植物细胞内的某些生理活动，因此这种类型的特征可以被视为成像性状（iTraits）。

应对“维度诅咒”

群体规模的多组学数据集往往是高维、嘈杂和异质的。使用一种称为降维（DR）的无监督学习来解决此问题，以防止“维度诅咒”。多组学数据关联研究（MODAS）工具箱将多种 DR 算法应用于植物的基因型和 mTraits。为了对基因型执行 DR，MODAS 结合了 Jaccard 相似系数、基于密度的应用程序空间聚类与噪声（DBSCAN）和主成分分析（PCA）算法，以生成“伪基因型索引”文件。这个高度简化的变异图谱使用数万个基因组块来表示基因组中数百万个单核苷酸多态性（SNP），从而提高了绘制 mTraits 的分析效率。

mTraits 的维度也必须降低，因为由于技术问题和生物途径的特性，组学数据是高度冗余的。例如，代谢物是由涉及许多基因和通路的一连串酶促反应产生的，并且通路之间的串扰很常见。因此，鉴于它们高度相关的模式，最终产物和中间化合物都可以重复映射到同一区域。非负矩阵分解（NMF）算法通过将样本{{0}{5}{4}{3}} n ) × 代谢物矩阵分解为一个元代谢物维度和一个元样本维度来消除冗余。样品中元代谢物的权重代表一组成簇化合物的总体丰度，元样品的权重反映了根据映射区域的单倍型划分的样品亚组。有助于相应生物合成途径的基因组块通过 GWAS 在代谢物和假基因型指数之间进行映射。然后使用模块内的 SNP 来识别致病基因和突变。此策略大大减少了计算时间并节省了资源，同时提供了清晰、易于解释的结果。

自动化特征工程

另一个常见问题是 SNP、mTraits 或 iTraits 等特征集远大于样本集。这会增加过拟合的风险，因为模型可能会从数据中学习到不正确的特征。因此，在训练模型之前，必须执行特征工程，包括特征选择或特征提取。特征选择倾向于从总特征中选择一小部分，而不更改原始特征值。这可以通过基于先验知识的手动选择或通过在训练模型时了解特征的重要性来自动选择来实现。相比之下，特征提取通过汇总原始特征的特征来创建一小组新特征。NMF 是一种特征提取形式，因为代谢物是从更大的代谢物集衍生的新功能。特征工程可以嵌入到许多 ML 范式中，例如深度学习（DL）和集成学习（EL）。DL 卷积神经网络算法在网络层之间传输信息时执行特征提取。Light Gradient Boosting Machine （LightGBM）通过计算信息增益（IG）分数来选择高重要性特征来执行特征选择。

尽管使用网格搜索的自动超参数调整在工厂中得到广泛实施，但自动化特征工程在很大程度上被忽视了。在最近的一项研究中，LightGBM 选择的具有高 IG 分数的 SNP 特征与从 GWAS 中鉴定的峰值 SNP 一致，表明算法能够识别与特征相关的变异。它表明自动特征选择也可用于发现农艺上重要的基因，并促进汇编与 MAS 目标性状相关的有效分子标记的面板设计。除了嵌入在 ML 算法中的方法外，许多专为特征工程设计的独立工具也可以在工厂中使用，例如 Python “Featuretools” 库中的深度特征合成方法。

流形学习用于数据可视化

流形学习使用非线性 DR 算法来可视化具有超高维数的数据集，这有助于保持高维数据的几何属性，即使映射到低维空间也是如此。该技术对于可视化单细胞 RNA 测序（scRNA-seq）数据特别有用。基于 scRNA-seq 数据研究了异质细胞群的结构，包括 t 分布随机邻域嵌入（t-SNE）、统一流形近似和投影（UMAP）以及基于亲和力的轨迹嵌入的热扩散潜力（PHATE）。另一种策略利用深度神经网络（DNN）从不同网络层的内部节点提取信息，在统一模型下同时实现批量校正、聚类、去噪和数据可视化。使用这种策略的 DL 不再被视为“黑匣子”，因为几何特性可能反映了 DNN 隐藏层提取的生物特征。用于无监督聚类、插补和嵌入的稀疏自动编码器（SAUCIE）同时执行 scRNA-seq 数据的 DR 和可视化。其他组学数据类型也以单细胞分辨率生成。对齐和整合相同细胞群的多个水平组学数据已成为一项新的挑战。

致病变异的精细定位

从本质上讲，基因发现是为了识别对指定性状有益的等位基因基因组变异。因此，致病变异的精细定位，包括 SNP、插入和缺失（InDels）、存在和不存在变异（PAV）以及导致直接功能变化的各种结构变异（SVs），对于精确设计的育种非常重要。对于改善由具有重大影响的单基因决定的定性性状尤其如此。然而，涉及编码 SNP 或替代蛋白质功能的短 InDel 的致病变异仅占性状相关变异的很小一部分。归因于 SV 和 PAV 的调控变异的定位非常困难，因为它需要来自代表性核心种质的从头组装的高质量泛基因组序列。

为了实现这一目标，需要由不同类型的组学数据辅助的多个步骤。它首先通过对目标性状进行 GWAS 分析，对基因组区间进行粗略定位，通常以兆碱基为单位;然后，对转录组关联研究（TWAS）、代谢组关联研究（MWAS）和其他类型的技术生成的各种数据集进行综合分析，通过染色质免疫沉淀测序（ChIP-seq）或自转录活性调节区测序（STARR-seq）分析顺式调节元件，以进一步缩小候选基因或基因组区域的列表;第三，将候选基因和区域中 SNP 的基因型映射到泛基因组组装，以确定与每个 SV 或 PAV 相关的单倍型图谱（HapMap）;最后，进行统计检验以检查 PAV 相关的 HapMap 是否与表型变异显著一致。

然而，值得注意的是，这些从多组学分析中鉴定的所谓致病变异只是候选基因或变异。它们是否直接参与导致性状变化的功能变异仍然需要严格的实验验证，然后才能最终将该功能标记用于分子设计育种。由于致病变异的精细定位涉及多种形式的群体规模组学数据，这些数据最近被 Weckwerth 等人定义为泛组学，因此高度期待开发解决泛组学综合分析的 ML 方法。

知识驱动的分子设计育种

植物研究的知识最终应该促进应用植物育种。通过明确了解性状背后的生物学机制，致病基因可以精确地用于性状改进。然而，将生物学知识转化为育种仍然具有挑战性。例如，用于 GWAS 的种质面板通常由野生亲缘种、地方品种、过时的栽培品种和现代栽培品种组成，以确保基因型和表型的多样性。然而，种质中定位的大多数突变在现代栽培品种中已不再存在，因为有害等位基因已被人工选择去除，有益等位基因已被固定。因此，现代育种中使用的基因相对较少，并且这些传达理想性状的基因的突变通常因种群而异。前景突变仅在特定的遗传背景下才能正常工作;因此，即使从种质中发现的突变具有潜在价值，它也可能无法直接用于现代育种系统。同样，在产生人工突变时，新突变必须适应现有的基因调控网络。因此，瓶颈不在于基因组编辑或转基因技术，而在于需要识别可以在不影响非靶性状的情况下进行修饰的基因和受体材料。

育种就是 “时机 ”和 “平衡”

性状改良本质上是微调基因调控网络的过程。杂交通过重组有害和有益的等位基因产生新的基因调控模式。这个过程提供了选择最佳网络的机会，其中涉及调控途径的基因满足性状改进的育种目标。因此，即使是很小的表型变化也可能涉及重塑的基因调控网络，影响基因和通路之间的复杂相互作用。阐明有害和有益等位基因的定义也很重要。也就是说，没有等位基因是绝对有害或有益的：等位基因是根据它们对产量的最终影响来定义的。然而，有害和有益的状态可能是可以相互转换的，具体取决于发展阶段和/或环境。例如，营养生长的有益等位基因有利于生物量积累，但可能会对生殖发育产生负面影响，从而对产量相关性状有害。因此，育种不能简单地理解为一种去除有害等位基因或金字塔式有益等位基因的方法;相反，必须平衡两组抵消等位基因的作用。

我们如何有效地将对基因和机制的了解转化为育种应用？ML 之所以适合完成这项任务，是因为它能够整合知识和数据。为了说明这一点，考虑 ML 促进的分子设计来培育适合机械收获的玉米品种。这需要考虑多种改良性状，包括植物紧凑度、籽粒脱水率、开花和成熟时间、茎秆刚度和强度以及玉米壳形态。最大的困难是处理基因的多效性效应：改变一个性状可能会影响其他性状。面向目标的优先级排序（TOP）是一种最近开发的综合多特征 ML 算法，它以数学方式学习多个特征之间的协同或竞争关系，以做出选择优秀候选株的凝聚力决策。只要获取到足够的基因型和表型数据，ML 模型就可以根据知识图谱建立基因和性状之间的相关性。指定育种种群的目标基因可以组装为 ML 算法的面板，以学习等位基因组合的最佳模式。然后，该模型有助于选择具有所需单倍型的材料，以同时改善多个性状。

采用 EL 的面板设计

通过靶向测序（GBTS）进行基因分型可捕获含有 SNP 的区域用于基因面板测序，广泛用于精准医学中的基因诊断。典型的 GBTS 检测组合包含数千到数万个 SNP，涵盖数十到数百个基因，允许对数百个样本进行多重分析以进行基因分型。然而，由于需要处理数万个样本，植物育种的每个样本基因分型成本仍然相对较高。尽管如此，GBTS 是积累 ML 训练数据的好方法，直到种群足够大以覆盖目标基因的所有可能的等位基因组合。只要确定了最稳定的 SNP，就可以设计一个包含数十个 SNP 的新型低成本 panel。

然后可以使用基于竞争性等位基因特异性 PCR （KASP）的超高通量、可扩展平台，例如 Nexar Array Tape 系统。这些平台每次运行可对数万个样品进行多重检测，但标记物必须具有高度的通用性和有效性。然后，可以利用 EL 中嵌入的特征选择来选择标记。EL 是一系列 ML 算法，包括随机森林、梯度提升决策树（GBDT）、极端梯度提升（XGBoost）、分类提升（CatBoost）和轻梯度提升机（LightGBM），它们汇集了来自多个弱学习器的结果以增强可预测性。LightGBM 生成逐叶树并识别“最佳叶子”，在这种情况下，这些叶子是分类性状具有高效用的 SNP。这种能力由 IG 分数表示，它类似于从 GWAS推断的 SNP效应。因此，LightGBM 是通过自动特征选择编译高度浓缩的 SNP 面板的理想工具，同时保持最大的可预测性。

通过因果学习设计通路

虽然标记面板涵盖与 GWAS 分析中确定的相关性状相关的 SNP，但通路面板可能包含与形成调节网络的基因相关的变异，或位于从多组学分析中确定的代谢生物合成途径中的变异。因此，设计通路面板需要推断两个基因（例如转录因子和靶基因）之间的“因”和“果”关系。与通常用于改善涵盖数千个 SNP 标记的常规农艺性状的标记面板相比，通路面板可能包含与基因相关的标记要少得多，这些标记用于改善植物的特定特性，例如抗应激功能或增强某些代谢物化合物的含量。推断的因果关系可以用作通过对功能相关基因进行聚类来设计性状面板的规则。孟德尔随机化（MR）最近被用于根据群体规模多组学分析的总结结果推断植物突变、基因、生物分子和性状之间的因果关系。然而，MR 的假设是基于人类群体遗传学的。该工具是否适用于所有植物物种需要验证，因为驯化植物是人工选择而不是自然选择的结果。因此，有必要寻求独立于遗传假设的新方法。事实上，ML 和因果推理是两个具有不同方法系统的独立领域：ML 根据数据相关性预测结果而不解释因果关系，而因果推理则确定变量的“原因”和“效果”的作用。数据科学家正在尝试将这两个系统结合起来。“因果学习”这一新领域赋予了 ML 模型解释潜在原因的能力，从而使 AI 更接近现实世界的决策。例如，因果表示学习旨在根据低级观察发现高级因果变量。因果树学习是分类和回归树（CART）模型的修改版本，用于估计树拆分过程中的因果关系。这些方法可用于从多组学数据中重建生物网络，其中推断的因果关系代表节点之间的方向边缘。

数据驱动的基因组设计育种

从工业育种计划中获得的数据可以包括基因、表型、环境、气候和任何类型的田间数据。与知识驱动设计不同，数据驱动设计不需要了解性状背后的特定基因和机制。相反，它使用统计或 ML 模型来推断数据之间的相关性，如 GS 所示。然而，基因分型成本仍然是阻碍 GS 在植物育种行业广泛应用的主要因素。GBTS 的一个有前途的替代品是低覆盖度全基因组测序（lcGWS）或超低覆盖度全基因组测序（ulcGWS），它们分别以 1.5× 或 0.5× 的预期覆盖度对基因组 DNA 进行随机测序。lcGWS 的基因分型成本远低于 GBTS，因为它跳过了捕获靶向 DNA 片段的步骤。然而，由于 DNA 片段是通过 lcGWS 随机测序的，因此 SNP 可能无法一致地被所有基因分型样本覆盖。一种可能的解决方案是首先构建一个由所有精英自交系组成的参考 HapMap，其中通常包括 50 到 100 个品系，这些品系经常用作创始品系，以在育种项目中生成双倍单倍体（DH）品系。然而，参考 HapMap 必须通过高覆盖率全基因组测序（hcGWS;即 30×）构建，以便它可以用于对由 HapMap 中包含的创始系生成的 DH 系的基因型数据进行填补。通过这种方式，可以推断出相对一致的 SNP 面板来执行 GS 预测。值得注意的是，由于通过插补推断的 SNP 基因型可能包括一小部分不可估量的错误，因此 DH 系是 HapMap 中包含的创始系的更好后代或近亲，并且在进行插补之前必须进行严格的 SNP 过滤，以最大限度地减少错误基因型信息的比例。

在决策模型的帮助下，来自人类经验的输入在育种管道中在很大程度上被最小化。主要目的是降低成本，精度不是重中之重。因此，在实际育种实践中必须考虑成本和精度之间的平衡。由于基因分型和表型分析的成本占育种项目总费用的主要比例，因此 GS 项目通常使用整个种群的 20%–25% 来获取基因型和表型数据来构建训练数据集。在这个训练和测试样本的比率下，根据 Pearson 相关系数的评估，预测精度可以达到 0.5 到 0.6，但总成本可以降低大约 30% 到 40%。例如，一个试点玉米育种项目使用 ∼ 9000 个杂交种来训练 GS 模型，并预测了 ∼ 34,000 个未经测试的杂交种的性状表现，为后续育种周期提供了对优势和杂交组合遗传机制的深入了解。GS 中的另一个常见问题是当多个远缘种质面板参与杂交时，种群分层。必须仔细考虑训练样本和预测样本的正确划分，以防止严重的过拟合。

越来越多的研究说明了整合多组学数据以进一步提高基于 DL 或 DNN 的预测精度以促进 GS 或基因组预测（GP）的可行性，例如 DeepGS 和 DNNGP 的工具。然而，在训练 GS 模型时直接使用多组学数据是有风险的，因为由于特征集的极高复杂性，它可能会导致不可估量的过拟合。因此，在模型训练之前，必须利用上述针对 mTraits 或 iTraits 的特征工程来降低数据维度。然后，将维度向量视为特征，与 SNP 的基因型相结合以训练 GS 模型。此外，生成多组学数据的成本很高，并且不可能为每个育种周期中的每个样本生成 RNA 测序（RNA-seq）或代谢组分析。我们应该只利用从一组多组学数据中得出的生物信息，这本质上是不同组学数据集的先天相关性。因此，使用可解释 DL 框架进行迁移学习有望将源自多组学数据的网络层转移到 SNP 特征的基因型中。通过这种方式，测序成本和数据复杂性问题都可以得到妥善解决。

商业育种管道可以分为多个阶段，每个阶段都可能生成用于构建决策模型的数据。理论上，统计模型解决的任何问题也可以由 ML 解决。然而，到目前为止，只有 GS 是使用 ML 方法实现的，大多数其他研究都是基于统计数据的。由于在现代玉米工业中使用单杂交育种，GS 被广泛用于玉米育种：在这种情况下，对亲本自交系进行基因分型可以推断 F1 基因型，大大降低基因分型成本。然而，应注意 GS 对育种目标的效用。GS 适用于使用全基因组遗传背景询问两个亲本池之间的一般结合能力或杂种优势效应性能，因为优势是由基因组亲缘关系而不是几个标记决定的。因此，GS 的最终目标是加速利用计算机预测的遗传增益进展，以降低田间成本。然而，如果目标是微调特定性状，例如抗逆能力，则 GS 是不合适的，而理想的解决方案是在致病基因定位后使用一小组性状相关标记（也称为遗传前景）进行分子设计育种。

由于 GS 可能无法解决育种中遇到的所有问题，因此已经开发了互补模型。例如，通过虚拟模拟（GOVS）进行基因组优化利用最小二乘法来推断对谷物产量有有益影响的基因组片段，并将所有有益片段的组装模拟为优化的基因组。模拟基因组有助于根据有益片段的数量而不是预测的表型来选择优势品系。GOVS 还有助于识别具有互补有益片段集的品系。这些互补的系可以杂交，双倍单倍体技术可用于精确金字塔状有益片段。

对植物响应环境的表型可塑性进行建模是促进育种过程中决策的另一种重要方法。表型可塑性是基因型-环境相互作用（G×E）的结果。G×E 模型有助于确定实现最高产量生产力的最佳生态范围，并估计不同生态区的产量稳定性。如果考虑更复杂的气候因素，该模型还有助于估计气候变化对产量性能和谷物质量的影响，并确定适应气候变化的最佳基因型。然而，大多数模拟 G×E 的方法都是基于线性回归算法来推断产量性能与一些环境因素之间的相关性。统计模型已不适合对日益复杂的基因、表型、环境和气候数据集进行建模，因此需要 ML 方法。模拟表型可塑性的另一个关键问题是自交系和杂交种之间的异质可塑性，这严重影响模型精度，在使用 ML 方法预测从自交系到杂交系的环境特异性性状时必须考虑这一点。

虽然从理论上讲，统计解决的所有问题都可以通过 ML 解决，但 ML 并不总是最佳选择。如果问题是 “白盒”，则应使用统计数据，尤其是当显式标记的样本数量不足以涵盖 ML 模型可以学习的所有模式时。如果训练数据集小于测试数据集，则 ML 模型的预测精度通常低于统计模型。标记样本的稀缺是育种中的一个常见问题，不仅因为表型分析成本高且劳动密集，还因为某些性状难以明确定义和准确测量，例如生物和非生物胁迫相关性状。半监督学习是解决这个问题的一种很有前途的方法，包括正无标签学习、生成对抗网络、对比学习和迁移学习，但在其应用中需要谨慎。如果数据分布不均匀，则可能会发生不可估量的过拟合，因为偏差将被预测的标签放大。另一种选择是多模态学习，它将互补信息集成到多种模态中，以发现数据的潜在表示。联合 DR （jDR）被有效地用于整合来自同一样本的多源转录组、拷贝数变异（CNV）、 microRNA 和甲基化组数据，用于人类癌症预测和分类。随着植物种质中组学数据的快速生成，也许这种多模态学习算法可用于解决模型训练样本量有限的问题。

构建植物 AI 育种生态系统

一个普遍的共识是，高质量的数据集和标签比 ML 模型本身更重要。这条规则也适用于育种。最近的一项研究通过预测 6 种植物物种的 18 个性状来评估 12 个 GS 模型，结果表明没有一种方法在所有性状和物种中表现最佳。超参数优化对于使用 ML 实现最佳性能至关重要。这项研究揭示了将 ML 应用于植物育种的复杂性，这可能是由于遗传物质的复杂组成和环境对表型的影响。因此，在将 ML 应用于育种时，精度并不是唯一的目标：还必须考虑模型的稳健性、可扩展性和效率。专为植物 AI 育种而设计的 ML 生态系统受到种子行业的高度期待。这个生态系统必须包含三个主要组成部分：数据、模型和应用程序平台（图1 ）。数据平台应由统一的管道组成，用于自动收集、处理、分析和存储基因型和表型数据，并由基于云的计算提供便利。该模型平台将包括 GS、G2P、G×E 和其他使用 ML 和统计方法开发的决策模型，以及用于模型选择、特征工程和超参数调整的自动化模块。该应用程序平台将由从预测模型实现的工具组成，并配备用户友好的界面，以向最终用户提供服务和报告结果。这样的 ML 生态系统将使植物育种在这个 AI 时代更智能、更轻松。

作者自己介绍：GPB | 机器学习技术驱动植物AI育种

http://mp.weixin.qq.com/s?__biz=MzI0NzA3MTk2NQ==&mid=2662940390&idx=1&sn=a7361cbce4872cbf27841e16fb1272f2

生物信息与育种

致力将生信、AI、大数据、云计算等技术应用于现代生物育种