DRAGEN 基因组变异检测 《nature biotechnology 》期刊2024年10月25日发表了一篇题为“Comprehensive genome analysis and variant detection at scale using DRAGEN”的论文,主要介绍了新的基因组测序数据分析工具DRAGEN。它使用多基因组比对与泛基因组为参考,基于硬件加速和机器学习算法进行变异检测。 DRAGEN 能够检测大部分常见变异类型(单核苷酸变异、插入或缺失、短串联重复序列、结构变异和拷贝数变异),速度和准确性方面优于当前主流方法。今天围绕这篇文献进行解读学习,希望能通过该方法提高对群体基因组测序数据的理解和探索。 研究背景 过去十年间,基因组测序作为基因组学、遗传学和生物学应用中的常用方法,已经促进了对人类疾病、动植物遗传多样性、选择进化机制和作物抗病育种策略的多重发现和见解。这在很大程度上得益于测序技术(例如Illumina)在成本、数据质量和可扩展性方面的改进。 目前用于检测单核苷酸变异(SNVs)和较小(<50 bp)插入或缺失(indels)的高精度方法已成为变异检测和解释的前沿。尽管SNVs受到了广泛关注,它们并非是区分两个基因组的唯一变异类型。 近年来,越来越多的研究开始将结构变异(SV) 纳入分析中。SV通常被定义为50bp或更大,并导致基因组的删除、插入、扩增或重排。拷贝数变异(CNV) 是另一种源自特定DNA片段的删除(拷贝数减少)或重复(拷贝数增加)的基因组变异。短串联重复(STR) 扩增是另一种未被充分研究的变异类型,主要通过其低序列熵/复杂性定义。 这些变异类型已与许多生物学机制、遗传多样性和进化模式相关联。它们的检测和解释仍然具有挑战性,但已经提出了多种专门的方法。 尽管这些变异类型普遍存在于基因组中,许多研究通常只关注SNVs或关注部分变异类型,这是由于联合检测和准确发掘各类变异的挑战所致。基因组高度多样化和重复区域难以有效分析。尽管这些变异类型可能相互作用,但当独立分析时这些关系就会丢失。因此,需要更全面的方法来进行扩展。 结构变异识别的方法之一是通过专用的测序技术,即长读长测序技术,如纳米孔技术(ONT)或PacBio测序技术。这些技术在过去几年中已大幅成熟,并且变得越来越普遍。然而,长读测序技术仍然常常受到其成本、数据质量和可扩展性的限制,更多时候是由于它们对样本的数量和质量的要求。这常常阻碍了它们在群体水平大规模应用! 有趣的是,使用长读测序可以识别的等位基因,也往往存在于短读长中并可被识别。这在使用图基因组对结构变异进行基因分型时效果很好。图基因组方法已被证明可以提高结构变异基因分型和短读序列的比对成功率。 尽管如此,这些方法在大规模应用时常常存在挑战,因此通常只用于重新识别特定等位基因(即基因分型),使得它们的实用性非常有限。单独的改进需要共同作用,才能完全解开个体甚至是群体层面复杂的基因组变异情况。 当前研究趋势不仅仅是识别和解释基因组编码区域的变异,而且利用全基因组测序(WGS)研究整个基因组中的变异影响,这增加了由于重复性(片段重复)、复杂多态性以及缺乏变异注释所带来的挑战的复杂性。 解决这些挑战的核心问题:改进变异类型的识别模式,挖掘新的等位基因位点,更加全面获取基因组变异信息。 为了应对这一问题,常用方法是增加样本的数量,以获得多样化的群体等位基因变异池。这促进了多个大规模群体基因组学研究(例如人类基因组计划),聚焦于Illumina测序,说明短读测序作为基因组学和遗传学的主力军的角色。但是还需要一个可扩展和统一的软件框架,全面识别所有类型的变异(SNVs、indels、SVs、CNVs和重复序列等),这个目标尚未实现。 在这篇文章中,作者介绍了基因组学测序数据分析工具(DRAGEN)及其在SNV和indel检测方面的优化,另外检测其他变异(CNVs、SVs、重复扩展等)的能力。 研究结果 大规模精准基因组学算法 作者提出了一个软件框架(DRAGEN v.4.2.4),用于识别所有类型的基因组变异,下图提供了DRAGEN主要组件的简要概述: 首先,每个样本被比对到一个泛基因组上,该参考基因组由一个参考序列和若干个组装体组成,例如GRCh38以及附加的64个单倍型(32个样本),并结合以前报道的参考基因组校正错误。泛基因组包含来自多个基因组的变异,以更好地代表群体中个体间的序列多样性。 简而言之,这种比对方法考虑了泛基因组中的主要和次要连体。对齐过程通过已建立的主次连体关系进行控制,并相应调整映射质量和评分。 DRAGEN 的比对过程利用 35X 全基因组测序(WGS)双末端测序数据集,使用服务器大约需要8分钟的计算时间。泛基因组可以随着技术进步进行更新,可以实现短读长序列更精确和全面的比对。 为了识别单核苷酸变异(SNVs)和小的插入/缺失(indels,小于50个碱基对),Dragen通过使用de Bruijn图来组装含有变异的区域,然后将这些区域输入到一个隐马尔可夫模型中,该模型使用了之前估计的每个样本的噪声和错误水平,输出是一个gVCF文件。 在初始变异检测完成之后,使用机器学习框架重新评分,以进一步减少假阳性小变异(包括SNVs和indels)并恢复错误丢弃的假阴性。 一些重要基因由于其与假基因序列的高度相似性、重复区域和多态性而难以进行基因分型。为了克服这些挑战,Dragen集成了九个变异检测器,用于准确基因分型相关基因。总的来说,Dragen使用群体中常见的SNVs来区分基因目标和它们的旁系同源基因,为每个单倍型提供拷贝数估计。此外,Dragen识别出不符合一般模式的reads,并报告导致这些reads的重组事件。作者举例GBA是一个重要的目标基因,因为变异增加了帕金森病、高雪病和路易体痴呆症的风险。该基因位于一个10kbp的片段重复中,与假基因GBAP1共存。GBA/GBAP1中的高序列同源性驱动同源重组,可能导致致病基因转换或CNVs。 HLA编码的蛋白质对免疫调节和反应至关重要,在与自身免疫疾病和癌症疫苗和免疫疗法相关的研究中具有巨大作用。Dragen包括一个专门的变异检测器,用于识别HLA类不同等位基因。 全基因组评估检测SNVs、indels、STRs、SVs和CNVs,使用服务器对 35× WGS样本分析大约需要30分钟的计算时间。这将生成SNVs和indels的gVCF文件。Dragen 流程能够捕获从单个变异到整个基因组范围内较大的变异,并在标准化的VCF文件中准确记录,作者在文章中举出了多个相关实际分析案例,展示了Dragen具有优于其他方法的表型,在这里不过多赘述。 Dragen变异检测性能测试 全基因组变异的召回率在99.76%到99.87%之间,精确度在99.90%到99.93%之间。对于SNVs和indels,平均F-measure分别为99.80%和99.87%。 这表明在识别SNVs和indels方面,所有样本的性能都显示出非常高的一致性。然后,将Dragen的SNV调用性能与使用BWA和Giraffe比对的GATK和DeepVariant检测性能进行了比较,使用了所有样本的GIAB基准测试。在所有变异检测器和样本中,F-measure均显示低于Dragen(GATK:99.10%到99.28%;DeepVariant+BWA:99.61%到99.71%)。较高的F-measure主要归因于改进的SNVs和indels检测方法。通过与Giraffe+DeepVariant变异检测流程相比,Dragen在联合SNVs和indels上检测的平均错误减少了44.33%,SNVs上的平均减少了45.57%,indels上的平均减少了39.19%。此外,作者评估了泛基因组对Dragen变异检测性能的影响,发现泛基因组将样本的SNVs和indels的检测错误减少了54.20%,SNVs上的平均减少了57.74%,indels上的平均减少了29.52%左右,整体效果比较理想。 这些结果表明,Dragen在不同样本和群体中的变异检测性能具有高度的准确性和一致性,并且在使用泛基因组作为参考时,能够显著降低错误率,提高变异检测的精确度。这进一步证明了Dragen作为一个强大的基因组分析工具,能够在大规模基因组研究和群体遗传研究中提供高质量的变异检测结果。 群体水平的大规模变异检测 在对1kGP样本中的3,202个高覆盖度(35×)样本测序数据进行Dragen分析时,作者进行了多种变异类型检测(包括SNVs、indels、SVs、STRs和CNVs),并展示了Dragen的可扩展性。在队列水平上,Dragen识别了116,346,215个SNVs和24,979,420个indels。 通过主成分分析(PCA)图可以看到不同亚群的变异形成了明显的聚类,这表明样本之间存在共享的遗传祖先。在群体水平上,SNVs和indels的分布显示AFR亚群拥有最高的SNVs和indels数量,这可能是由于AFR群体的多样性更高,但也可能受到队列中AFR样本数量较多的影响。每个样本的平均SNVs数量从EUR的3,930,793到AFR的4,771,879不等,符合预期的多样性 。EAS群体的小插入(<50 bp)数量(521,068)最低,而AFR群体最高(626,296)。 有趣的是,当评估小片段删除(<50 bp)时,情况则相反,AFR群中观察到最高的单体型比例(28.7%),这也与之前的发现一致。然而,与其它群相比,EAS群的平均单体型数量最高。 结构变异大规模检测 作者研究了Dragen识别大片段结构变异的能力,包括STRs(50,069个区域)、SVs和CNVs。将所有大型变异类型合并到一个VCF文件中。在整个1kGP数据集中,鉴定了409,033个STRs和1,013,541个SVs(包括200,713个缺失、450,581个插入和28,574个串联重复,以及其他类型的SV 333,673个)和9,216个CNVs(5,322个缺失和3,894个重复)。 首先进行PCA分析,总体而言,观察到在PC1和PC2上清晰地遵循群体结构的分离。大型变异PCA的结构与小型变异PCA观察到的结构非常相似,这种聚类关系可能也是由于我们在AFR群中观察到的变异数量高于其他祖先群体,这与我们在小型变异PCA中观察到的结构也相似。 这些结果表明,Dragen在识别大规模结构变异方面具有较高的准确性和一致性,并且这些变异在不同亚群中的分布也反映了遗传多样性和群体结构。通过将大型变异与小型变异的分析结果结合起来,Dragen能够提供一个全面的基因组变异全景图,这对于理解群体遗传多样性和相关性至关重要。 DRAGEN 软件使用方法 DRAGEN是Illumina开发的生物信息学平台,旨在加速和改进基因组测序数据的分析流程。DRAGEN使用可编程门阵列技术来加速序列比对、变异识别和基因组数据分析中常见的其他计算密集型任务。DRAGEN支持广泛的应用场景,包括WGS重测序、外显子测序、RNA测序、单细胞、宏基因组学等。 该平台的设计具有高度可扩展性,使其能够快速有效地处理大量数据,并且针对高通量测序环境进行了优化。 Mapping and variant calling dragen \ --ref-dir <path-to-hg38-alt_masked.graph.cnv.hla.rna_v3> \ --fastq-file1 <path-to-R1-fastq> \ --fastq-file2 <path-to-R2-fastq> \ --enable -map-align true \ --enable -map-align-output true \ --output-format CRAM \ --enable -duplicate-marking true \ --enable -variant-caller true \ --vc-emit-ref-confidence GVCF \ --vc-enable-vcf-output true \ --enable -cnv true \ --enable -sv true \ --vc-ml-enable-recalibration true \ --repeat-genotype-enable true \ --repeat-genotype-use-catalog expanded \ --enable -targeted true \ --enable -pgx true \ --cnv-enable-self-normalization true \ --intermediate-results-dir /scratch \ --output-file-prefix <sample-name> \ --output-directory <output-path-directory> \ --force
上述代码命令执行SNV和indel变异检测,包括机器学习重新校准、CNV检测、SV检测、STR检测和靶向检测。 bwa mem -M -t 4 -R "@RG\tID:0\tSM:${sample} \tLB:${sample} \tPU:${sample} _38\tCN:BCM\tDT:2023-04-10T00:00:00-0600\tPL:Illumina" ${REF} ${F1} ${F2} | ${samtools} view -hb -@ 8 - > ${sample} _hg38.bam
如果基于BWA-bam的比对流程的数据,首先,使用BWA将来自所有样品的测序数据比对到参考基因组,然后再进行分析。
singularity run \ --bind "${INPUT_DIR} :/mnt/input,${REF_DIR} :/mnt/reference,${OUTPUT_DIR} :/mnt/output,${BIND_TMPDIR} :/tmp" \ deepvariant_1.5.0.sif \ /opt/deepvariant/bin/run_deepvariant \
对于SNV和插入缺失变异检测,使用GATK(v.4.2.5.0)Haplotypecaller进行分析,使用singularity下载DeepVariant(v.1.5.0),使用参考基因组进行分析,并使用BWA-MEM生成比对文件(即BAM文件)。 使用sambamba v.0.8.1对输出BAM进行排序,并使用samtools v.1.15.1进行索引,方法如下: sambamba sort \ -t 32 \ -o HG002.giraffe.grch38.minaf.0.1.sort.bam \ HG002.giraffe.grch38.minaf.0.1.bam samtools index \ -@ 32 \ HG002.giraffe.grch38.minaf.0.1.sort.bam
bamleftalign < HG002.giraffe.grch38.minaf.0.1.sort.bam \ > HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.bam \ --fasta-reference hprc-v1.0-mc-grch38-minaf.0.1.fa \ --compressed
使用GATK v.3.8.1和bedtools v.2.21.0鉴定插入缺失: java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator \ --remove_program_records \ -drf DuplicateRead \ --disable_bam_indexing \ -nt 32 \ -R hprc-v1.0-mc-grch38-minaf.0.1.fa \ -I HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.bam \ --out HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.intervals awk -F '[:-]' 'BEGIN { OFS = "\t" } { if($3 == "") { print $1, $2-1, $2 } else { print $1, $2-1, $3}}' HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.intervals > HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.intervals.bed && \ bedtools slop -i HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.intervals.bed \ -g hprc-v1.0-mc-grch38-minaf.0.1.fa.fai \
java -Xmx16G -jar abra2-2.23.jar \ --targets HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.intervals.widened.bed \ --in HG002.giraffe.grch38.minaf.0.1.sort.left.shifted.bam \ --out HG002.giraffe.grch38.minaf.0.1.sort.indel.realigned.bam \ --ref hprc-v1.0-mc-grch38-minaf.0.1.fa \ --index \ --log warn \ --threads 32
DRAGEN能够准确、全面、高效的分析基因组测序数据,更多使用方法和技巧请查询官方说明文档,由于时间有限,本文只分享部分代码。未来随着基因组测序技术的普及,大规模群体遗传解析将会在动植物研究中发挥重要作用,尤其是在动植物遗传育种领域,可以帮助育种家实现精准基因型鉴定和群体特征解析,相信高质量的基因型数据将极大促进分子设计育种,发挥重要应用价值。 参考链接 https://www.nature.com/articles/s41587-024-02382-1
https://www.illumina.com.cn/products/by-type/informatics-products/dragen-secondary-analysis.html
来源: 小麦研究联盟
本公众号免费发布 招聘信息 和宣传 科研成果
已推送文献可提供PDF,如有需要,文章后留言即可
欢迎联系微信: 506911145 或邮箱 506911145@qq.com