2024年,奥地利自然资源与生命科学大学计算生物学研究所Felix Sandell在Plant Biotechnology Journal上发表了一篇题为“Genomic basis of seed colour in quinoa inferred from variant patterns using extreme gradient boosting”的研究论文。该研究通过机器学习(极端梯度提升XGBoost)方法识别预测了藜麦种子颜色的遗传变异,并表明极端梯度提升方法在性能上优于传统全基因组关联分析。展示了现代机器学习方法从大规模测序数据集中提取有效生物学信息的强大功能。
藜麦(Chenopodium quinoa)是一种重要的农业作物,原产于南美洲中部的安第斯山脉。其最重要的表型性状之一是种子颜色。种子颜色变化由甜菜碱的丰度决定。这是一类具强抗氧化和自由基清除功能的色素,仅在石竹目植物中合成。然而,藜麦种子中有关这些色素的遗传基础仍有待研究。
随着大规模基因组重测序的普及,机器学习算法在生物数据分析中越来越重要。它不仅能够从大规模、噪声较大的数据中构建高度准确的预测模型,还能通过特征重要性分析揭示关键遗传变异,从而辅助功能验证。尤其是梯度提升树在多位点性状分析中表现优异,可处理复杂特征交互,无需依赖遗传假设。机器学习为遗传性状研究提供了一种强大的工具,是传统单变量全基因组关联研究(GWAS)的强有力替代方法。
1.藜麦材料的重测序
作者对来自玻利维亚和秘鲁的106份藜麦种质进行了测序,并结合之前已测的50份种质数据。156份种质的平均测序覆盖深度为5.2倍。这些种质的选择基于IPK基因库的数据信息,旨在通过不同的采样地点和种子颜色最大化多样性。接着,研究人员对测序数据进行了质控和过滤,并将所有材料比对到玻利维亚白籽参考基因型CHEN125的组装基因组“RefCHEN125”上,进行变异检测。随后,对所有种质进行了联合基因分型,过滤了次等位基因频率和测序覆盖深度后,生成了基因型矩阵。经过过滤,在参考基因组上总共检测到3,943, 156个变异,平均每245 bp有一个变异位点(每千碱基对约4个变异)。平均每份种质有842, 731个纯合变异位点。
2.玻利维亚参考基因型的基因注释和功能注释
研究人员使用AUGUSTUS流程,结合表达数据,构建了玻利维亚参考基因组RefCHEN125的基因集“gsCHEN125”,包含50,163个基因。基因平均长度为5,736 bp,转录本平均长度为1,494 bp,编码序列(CDS)平均长度为1,198 bp。每个转录本平均含有5.98个外显子,鉴定出6,934个单外显子基因(表1)。该基因集具有极高的完整性,检测到99.6%(254/255)的核心真核基因和94.8%(2,206/2,326)的核心双子叶植物基因(表2)。与智利藜麦品种QQ74和玻利维亚品种“Real”的基因集相比,gsCHEN125在基因数量和注释完整性上均表现更优,成为目前最完整的藜麦基因集。
3.种子颜色的表型分析
156个藜麦材料在IPK种质库数据中有初始种子颜色信息。研究人员通过目测检查每个材料的种子样本(每个材料约20-50颗种子),将原有的13种颜色重新分类为9个不同的种子颜色组(表3;图1)。
部分颜色(如白色、米色、橙色,图1a、b、f)较为均匀,而其他组(如黄色)呈现不同程度的颜色变化。一些组(如绿色红色和混合颜色)样本较少,导致数据集不平衡。名为“绿色-红色”的组包含具有相似种子结构和大小的材料,每个样本内呈现红色和绿色混合色调。此外,还有一个种子颜色多样的组,称为“混合颜色”(表3)。作者选择米色、橙色和白色三个组进行初步分析,因为它们颜色清晰可区分,并且具有较大的样本量。结合每个材料的基因组变异模式,该数据集被用于筛选预测藜麦种子颜色的SNP标记。
4.识别藜麦中的变异模式
研究人员将156个藜麦材料中种子颜色分类为米色(27份)、橙色(23份)和白色(45份)的95份样本用于分析。通过与参考基因组 RefCHEN125 比较,共检测到390万个变异位点,其中233个位点在所有样本中共有。为探究遗传变异与种子颜色性状之间的潜在复杂关系,作者采用一种白箱机器学习模型,以预测种子颜色并识别重要的基因组变异位点。研究使用极端梯度提升算法(XGBoost)基于 RefCHEN125 的 SNP 模式预测种子颜色。面临特征与样本数量比例较高和数据集不平衡等挑战,研究假设有多个基因参与了调控种子颜色的花青素合成路径,至少三种酶促反应合成红色花青素,两种酶促反应合成黄色花黄素,并可能有其他基因调控其表达。
初步模型训练选择了米色、橙色和白色三种较一致的颜色组,以减少变异并简化影响种子颜色的变异模式的识别。每组分别使用80%的材料(20个米色,17个橙色,34个白色)作为训练集,其余20%作为测试集,采用四折交叉验证优化超参数。为减少数据不平衡带来的偏差,对较少样本的组增加权重。最终模型在测试集上的交叉验证ROC曲线下面积(AUC)为0.82,预测准确率为88%,F1得分为86%(表4)。这一结果显著优于基线准确率(35.6%),表明模型可以基于全基因组测序数据的变异模式有效预测种子颜色。
接着,研究人员通过提取“特征重要性”值,识别对模型性能最重要的SNP(视为“特征”)。确定了有123个变异位点对模型预测准确性至关重要,可能在控制藜麦种子颜色方面发挥了关键作用。随后,使用主成分分析(PCA)和线性判别分析(LDA)对数据集进行降维,验证模型能力。初步分析显示,完整的390万个变异位点无法清晰区分三种种子颜色组,但在筛出的123个位点中,三种颜色组的分离有所改善。为验证结果的稳健性,作者计算了100个随机选择训练集(80%样本)和测试集(20%样本)的模型。结合特征重要性分数,最终确定了129个重要SNP位点。PCA和LDA图(图2)显示,三个组之间的分离比最初模型中确定的123个变异明显更好,后者与最终变异集共享19个SNP。
使用129个位点作为输入特征重新训练模型后,AUC提高至0.95,准确率达到96%。研究人员发现,LDA 作为一种有监督方法,表现优于 PCA,对初始模型和最终特征集均实现了三组种子颜色的完美区分(图 2)。通过重新检查样本颜色后,调整了“白色”组中两份材料被重新归类为“米色”。由此,作者确认从重测序样本中识别出的 SNP 集可以预测藜麦种子颜色的变异。此外,梯度提升算法结合 PCA 和 LDA 等降维技术,是分析复杂遗传性状的可行工具。作者进行了对其他种子颜色的分析。当纳入黄色种子样本时,LDA 能清晰地将黄色种子与其他三组种子分开,尽管黄色种子的颜色特征远不如其他组一致。在 PCA 中,黄色种子未形成明确的聚类(图 3)。
进一步分析 129 个变异位点在米色、橙色和白色种子组中的基因型发现这些变异的模式能清晰区分三组种子颜色(图 4)。接下来,将剩余的黑色、红色、棕色和绿红色的小种子组(每组6-7份种子)纳入LDA。根据之前确定的129个变体集,聚类结果清楚地将所有8个颜色组彼此分开(图5)。但对于混合颜色组,模型未能将其归为具体类别。作者表示,种子颜色由多基因的复杂变异模式决定,而非单一位点。
5.与单变量全基因组关联分析 (GWAS) 比较
研究人员将这些结果与使用线性混合模型 (LMMs) 在 GEMMA 软件中实现的经典单变量 GWAS 进行了比较。作者表示,所有常见的单变量 LMM 算法都不支持对非序数性状的多类别分类数据进行分析(通常这些算法被用于二元分类问题或定量性状分析)。因此,作者通过对三种主要种子颜色(米色、橙色和白色)的所有可能组合进行成对比较,进行了多轮 GWAS。随后,对多次测试结果应用严格的 Bonferroni 校正,但即使校正后,GWAS 仍识别出 1073 个显著变异位点(是 XGBoost 方法找出的 6.8 倍)。此外,研究人员对样本进行了有意义的分组,例如将分离白色种子的变异位点与其他种子区分开来,将深色种子的变异位点与浅色种子区分开,以及其他不同的二元颜色组合,以涵盖经典 GWAS 的多样化分析。然而,这些模型未能生成具有实用价值的 PVE(解释方差比例)估计值。
最后,作者还基于 LMM 预测的 1073 个 SNP 使用 XGBoost 训练了新的模型,这些模型的平均预测准确率为 76%,其中最佳模型达到了 92% 的预测准确率。通过单变量 GWAS 检测到的 1073 个变异位点与 240 个基因相关,其中 7 个基因与通过梯度提升算法(XGBoost)检测到的基因一致。对 LMM 检测到的显著变异进行主成分分析 (PCA) 进一步证实,与单变量 GWAS 方法相比,极限梯度提升模型检测到的变异在区分三个亚群方面显示出明显的增强效果。最终研究确认 XGBoost 方法发现的 129 个 SNP 在解释藜麦种子颜色变异方面最具预测力,并据此继续探索控制藜麦种子颜色相关基因。
6.参与种子色素沉着的候选基因
在成功筛选出129个能够根据种子颜色区分种群的SNP后,研究人员分析了这些SNP的基因组位置,以寻找与种子色素沉积相关的候选基因。进一步筛选出与这些候选基因高度共线的29个SNP,共获得158个相关变异位点。其中,54个SNP位于41个基因或其1000 bp的侧翼区域,最初的129个SNP定位于40个基因或其侧翼区域。在这41个候选基因中,40%与繁殖或种子发育直接相关。研究人员使用已公开的蛋白质组学和转录组学数据,评估了41个候选基因的表达。结果表明,其中27个候选基因可在蛋白组中检测到,39个可在转录组中检测到。通过RNA-seq数据,研究人员计算了候选基因的每千碱基外显子模型每百万映射reads值(RPKM)。在黄色、红色和橙色种子之间观察到RPKM值的显著差异,表明至少部分候选基因的调控机制有所不同。接着,研究人员将候选基因与倍果酶合成途径中的7个已知基因进行了KEGG数据库比较,发现其中两个基因的变异对种子颜色分化具有重要作用:编码DOPA 4,5双加氧酶的DODA基因和邻苯二酚O-甲基转移酶基因。
SNP结果认为,分离种子颜色的关键位点接近位于藜麦染色体CquChr18上的基因g47234和g47235,且这两个基因属于细胞色素P450基因家族,并与种子发育相关。根据已有研究,CYP76AD1是细胞色素P450家族的一个成员,已知它在甜菜根和藜麦茎中控制甜菜红素的形成。研究发现,种子颜色与一个不涉及CYP76AD1的全新细胞色素P450基因簇相关。最后,研究测试了与甜菜素生物合成途径相关的五种变异和新发现的细胞色素P450基因在预测藜麦种子颜色方面的作用。使用这些SNP重新计算100个模型后,平均预测精度从71%提高至73%。然而,129个SNP组合的预测精度最高,达到了82%。值得注意的是,两个最重要的位点——DOPA 4,5双加氧酶(DODA)和细胞色素P450基因簇,都在通过单变量GWAS和XGBoost方法共同检测到的6个位点中,进一步证实了它们在控制藜麦种子颜色中的关键作用。
这篇文章演示了应用机器学习方法(极端梯度提升XGBoost)识别预测藜麦种子颜色的遗传变异的结果,了解了藜麦种子颜色的分子基础,并表示机器学习方法优于传统的全基因组关联分析(GWAS)方法。利用156份南美藜麦种质的全基因组重测序数据,通过广泛的超参数调整和使用不同的训练和测试数据集,研究人员最终将模型的分类准确率提高至88%,并筛选出了129个对种子颜色高度预测的关键变异位点。所识别的129个SNP位点对不同藜麦种群的种子颜色具有高度的预测能力,可以直接应用于选择性育种。接着,作者确定了多个与甜菜碱合成途径相关的候选基因,包括新发现的细胞色素P450基因簇和已知的甜菜碱合成途径中的关键基因。此外,还识别了与种子发育相关的基因。总的来说,此研究展示了现代机器学习方法在解析复杂植物基因组数据中的强大潜力,并为藜麦种子颜色的遗传研究和育种计划提供了重要见解。
评论人:曲木欣尔
编辑:马新