研究背景
研究结果
2、减少标记数量与利用泛基因组辅助识别因果变异
育种家更倾向于开发与理想性状相关的标记,而不是识别表型背后的实际因果突变(CM)。因为标记主要用于基因组选择(GS)建模,并通过计算个体的遗传值达到育种目的。由于遗传值是个体相对于其可观察性状的遗传组成,GS 中使用的标记通常涵盖复杂的多基因性状。与控制质量性状的简单显性基因不同,复杂性状是由独立的基因座累积控制的,每个基因座携带多个具有不同等位基因效应的基因。因此,为 GS 开发的标记在识别复杂性状的单个小效应基因方面不是最优的。
最近的经验表明,数据生成速度快于数据利用率会导致总体数据可用性下降,因此GS 现在的趋势是减少分析中的标记数量,同时根据周围基因的功能注释或这些基因与标记的接近程度来识别 CM。然而,分析中较低的标记密度引发了一个问题,即 CM 与相关标记之间的距离可以有多远。最近的研究表明,可以利用从低密度基因型获得的标记来补充其他研究中重测序数据集缺失的表型,从而有助于更精确的 CM 预测。
在一个独立的育种计划(BP)中,与表型显著相关的标记仅能部分预测另一个BP的相同表型(图2)。这表明,测试群体的相似遗传背景可能导致高估所采用标记预测其他遗传相关性较低的BP中表型的效率。因此,有必要通过准确性测试来验证标记与变体位置或表型之间对应关系的有效性。此外,由于单一线性参考基因组无法捕获物种内的多样性,并可能扭曲我们对性状的基因组基础的理解,因此以泛基因组作为新参考来增加标记数量逐渐成为分子标记辅助育种的新方法。
3、应对罕见表型和多等位基因的策略
GWAS 在很大程度上依赖于样本量、基因型质量和表型分布。克服这一限制的一个趋势性方法是最大化输入数据。已有研究通过整合多个重测序数据集成功实现 GWAS 下游因果突变的识别。利用广泛的自然变异不仅能够发现可能被忽视的稀有变异,也增加了单基因中多个因果突变的检测机会,新开发的 MADis 工具可有效地识别单个基因中的多个等位基因,包括在数据集中仅出现一次的罕见等位基因。
4、GWAS 中的机器学习和人工智能
机器学习(ML)算法在 GWAS 数据的多个阶段都能发挥作用。数据预处理阶段可以对表型和基因型数据进行降维;GWAS 分析中可使用 ML 模型;GWAS 下游分析阶段有助于基因优先级确定和表型预测。不同类型 ML 算法适用于不同数据结构和分析需求,能处理复杂数据集,提升因果基因识别效率。
5、GWAS 下游分析常用工具
本文整理了用于作物和模式物种数据的 GWAS 后分析的可用工具和平台(图3)。迄今为止最全面的组学数据平台是玉米的 MODAS,它与 QTL-Finder 一样是少数具有基于 ML 分析能力的工具之一。像 MBKbase 和 Soyomics 这样的平台在组学数据类型上有限,但它们都支持分析输出的可视化。而Milletdb、BnIR 和 BnaOmics 的优势是整合了表观基因组学数据。
总结与讨论
GWAS 下游分析在减少假阳性、助力因果基因识别方面发挥关键作用。通过整合多组学数据、利用现有数据进行因果突变识别、利用广泛的遗传多样性以及运用机器学习和人工智能等手段,作物育种有望变得更加精准高效。