GATK joint calling的逻辑、原理与优势

文摘   2024-09-13 07:42   湖南  

GATK(Genome Analysis Toolkit)中的joint calling是一种变异检测策略,它允许同时对多个样本进行变异位点的分析,以提高变异检测的准确性和效率。

以下是joint calling的一些关键原理和优势:

  1. 数据共享:在joint calling过程中,信息在所有样本间共享。这意味着如果一个样本在某个位点的测序覆盖度较低,其他样本中相同位点的高置信度变异可以辅助调用,从而提高低频变异的检测能力。

  2. 区分能力:joint calling能够更清晰地区分纯合参照位点和缺失数据位点。这是因为在joint calling中,只要调用集中的任何一个个体在某个位点有变异证据,就会在该位点输出基因型调用。

  3. 减少假阳性:joint calling通过使用统计模型对大量数据进行变异过滤,提高了过滤假阳性的能力。这种过滤通常比单独分析每个样本更有效,因为它可以在整个样本集上应用统一的过滤标准。

  4. 灵活性和扩展性:GATK 3.0及以上版本引入了增量joint calling的概念,即先对每个样本单独调用变异(生成GVCF文件),然后对所有样本的GVCF文件进行joint genotyping。这种方法解决了传统joint calling在计算资源和时间上的不足,同时保持了joint calling的优势。

  5. 处理大规模样本集:joint calling通过GenomicsDBImport工具和GenotypeGVCFs工具,可以高效地处理大规模样本集,使得对大型队列的研究成为可能。

  6. 解决N+1问题:在传统的joint calling中,每当有新的样本加入时,需要重新对所有样本进行分析。而增量joint calling允许对新样本进行单独分析,然后将其添加到现有的GVCF数据集中,无需重新分析所有旧样本。

总的来说,joint calling通过在多个样本间共享信息和统计数据,提高了变异检测的准确性,尤其是在检测低频变异和处理大规模样本集时。这种方法在基因组研究中被广泛应用,尤其是在寻找与疾病相关的稀有变异时。

参考自:https://gatk.broadinstitute.org/hc/en-us/articles/360035890431-The-logic-of-joint-calling-for-germline-short-variants

生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章