原创解读 Curr Opin Plant Biol | GWAS下游分析的新视角:从分子标记到因果基因,以实现更精准的作物育种

学术   2024-12-04 00:01  

研究背景

全基因组关联研究(GWAS)是一种强大的统计方法,有助于揭示基因组变异与重要表型之间的关联。尽管 GWAS 确定了与性状有统计学关联的相关基因组区域,但这些区域并不总是因果性的。因为 GWAS 中的最高关联 SNP 通常不是因果 SNP,而是与因果遗传特征处于连锁不平衡(LD)状态。GWAS 之后可以使用许多不同的方法来缩小相关变体位置的范围,从而发现因果基因。传统的 GWAS 下游分析方法是精细定位,这需要对大群体进行密集的表型分析或测序。然而,通过整合多组学数据以及机器学习确定基因优先级已经变成近些年常用的方法。
2024年11月15日,Current Opinion in Plant Biology 在线发表了题为“New perspectives of post - GWAS analyses: From markers to causal genes for more precise crop breeding”的综述。这篇文章强调了利用广泛的公共数据集评估变异位点的重要性,并整理了用于因果突变识别和等位基因变异探索的生物信息学工具和基因组策略的最新进展。

研究结果

1、GWAS下游分析中多组学数据的整合
GWAS 下游分析常结合多组学数据以降低假阳性并更精准识别因果变异(图1)。例如转录组关联研究(TWAS)可探寻基因表达变化与表型的关联,类似的方法包括代谢组(mGWAS)、表观基因组(EWAS)和蛋白质组(PWAS)关联研究。但单一类型组学数据或小样本量仍易导致假阴性增加。整合多种组学数据能进一步减少假阳性和假阴性的可能性。另一种方法是结合 eQTL 和 GWAS,首先进行精细定位以识别候选变体,然后使用共定位方法评估 GWAS 和 eQTL 信号是否重叠。然后使用功能注释对候选基因进行优先级排序和验证,并通过植物转化和基因编辑等方法进一步进行实验确认。
将参考基因组、泛基因组和多组学数据整合到统一的数据库中对于增强数据交互和提高 GWAS 下游预测准确性至关重要。目前在作物育种方面已经有了大量的多组学资源,如大豆的 SoyOmics、棉花的 CottonMD 数据库、芸薹属的 BnIR、玉米的 ZEAMAP、Gramene 和 Phytozome。
图1:GWAS下游分析的常用方法

2、减少标记数量与利用泛基因组辅助识别因果变异

育种家更倾向于开发与理想性状相关的标记,而不是识别表型背后的实际因果突变(CM)。因为标记主要用于基因组选择(GS)建模,并通过计算个体的遗传值达到育种目的。由于遗传值是个体相对于其可观察性状的遗传组成,GS 中使用的标记通常涵盖复杂的多基因性状。与控制质量性状的简单显性基因不同,复杂性状是由独立的基因座累积控制的,每个基因座携带多个具有不同等位基因效应的基因。因此,为 GS 开发的标记在识别复杂性状的单个小效应基因方面不是最优的。

最近的经验表明,数据生成速度快于数据利用率会导致总体数据可用性下降,因此GS 现在的趋势是减少分析中的标记数量,同时根据周围基因的功能注释或这些基因与标记的接近程度来识别 CM。然而,分析中较低的标记密度引发了一个问题,即 CM 与相关标记之间的距离可以有多远。最近的研究表明,可以利用从低密度基因型获得的标记来补充其他研究中重测序数据集缺失的表型,从而有助于更精确的 CM 预测。

在一个独立的育种计划(BP)中,与表型显著相关的标记仅能部分预测另一个BP的相同表型(图2)。这表明,测试群体的相似遗传背景可能导致高估所采用标记预测其他遗传相关性较低的BP中表型的效率。因此,有必要通过准确性测试来验证标记与变体位置或表型之间对应关系的有效性。此外,由于单一线性参考基因组无法捕获物种内的多样性,并可能扭曲我们对性状的基因组基础的理解,因此以泛基因组作为新参考来增加标记数量逐渐成为分子标记辅助育种的新方法。


图2:两个不同育种程序(BP)的理想标记鉴定及其预测产量的效率示意图


3、应对罕见表型和多等位基因的策略

GWAS 在很大程度上依赖于样本量、基因型质量和表型分布。克服这一限制的一个趋势性方法是最大化输入数据。已有研究通过整合多个重测序数据集成功实现 GWAS 下游因果突变的识别。利用广泛的自然变异不仅能够发现可能被忽视的稀有变异,也增加了单基因中多个因果突变的检测机会,新开发的 MADis 工具可有效地识别单个基因中的多个等位基因,包括在数据集中仅出现一次的罕见等位基因。

4、GWAS 中的机器学习和人工智能

机器学习(ML)算法在 GWAS 数据的多个阶段都能发挥作用。数据预处理阶段可以对表型和基因型数据进行降维;GWAS 分析中可使用 ML 模型;GWAS 下游分析阶段有助于基因优先级确定和表型预测。不同类型 ML 算法适用于不同数据结构和分析需求,能处理复杂数据集,提升因果基因识别效率。

5、GWAS 下游分析常用工具

本文整理了用于作物和模式物种数据的 GWAS 后分析的可用工具和平台(图3)。迄今为止最全面的组学数据平台是玉米的 MODAS,它与 QTL-Finder 一样是少数具有基于 ML 分析能力的工具之一。像 MBKbase 和 Soyomics 这样的平台在组学数据类型上有限,但它们都支持分析输出的可视化。而Milletdb、BnIR 和 BnaOmics 的优势是整合了表观基因组学数据。

图3:当前常用的GWAS下游分析的计算工具

总结与讨论

GWAS 下游分析在减少假阳性、助力因果基因识别方面发挥关键作用。通过整合多组学数据、利用现有数据进行因果突变识别、利用广泛的遗传多样性以及运用机器学习和人工智能等手段,作物育种有望变得更加精准高效。

原文链接
https://doi.org/10.1016/j.pbi.2024.102658

扫描二维码关注我们
小麦族多组学网站:http://wheatomics.sdau.edu.cn
投稿、合作等邮箱:shengweima@icloud.com
微信群: 加群点击小麦研究联盟交流群

小麦研究联盟
本公众号意在分享小麦组学研究和生物信息学领域相关的知识,包括相关软件,方法,文章,编程相关的知识。bioinformatics
 最新文章