NC | 基于长读长的结构变异检测工具VolcanoSV

文摘   2024-08-23 08:49   湖南  

基于长reads进行结构变异的工具有很多,很多文章也进行过综合比较。今天分享一个新工具VolcanoSV。



Github

https://github.com/maiziezhoulab/VolcanoSV


结构变异(SV)对人类基因组多样性有重要贡献,并在精准医学中发挥关键作用。尽管单分子长读序列测序的进步为SV检测提供了突破性的资源,但准确且稳健地识别SV断点和序列仍然具有挑战性。本研究介绍了VolcanoSV,这是一种创新的混合SV检测管道,它利用参考基因组和局部denovo 组装生成相位二倍体组装。VolcanoSV使用相位SNP和独特的k-mer相似性分析,使精确的相位解决SV发现成为可能。VolcanoSV擅长构建包括SNP、小插入缺失和所有类型SV的综合遗传图谱,使其非常适合人类基因组学研究。大量测试实验表明,VolcanoSV在插入和缺失SV检测方面优于现有的基于组装的工具,表现出在各种数据集(包括低覆盖度(10x)数据集)中的优越召回率、精确度、F1得分和基因型准确性。VolcanoSV在复杂SV(包括易位、重复和倒位)的识别方面也优于基于组装的工具,在模拟和真实癌症数据中表现出色。此外,VolcanoSV对各种评估参数具有鲁棒性,并且能够准确识别断点和SV序列。

Figure 1 VolcanoSV整体流程


要点

研究者首先使用四种基于组装的方法(VolcanoSV (v1.0.0)、PAV (freeze2)、SVIM-asm (v1.0.2) 和 Dipcall)在14个PacBio Hifi、CLR和ONT数据集、9个模拟长读序列数据集和两个成对的肿瘤-正常CLR和ONT数据集中进行了SV检测研究。对于Hifi数据,三种基于组装的SV调用器(PAV、SVIM-asm和Dipcall)可以使用hifiasm (v0.16)的二倍体组装结果作为输入。对于CLR和ONT数据,使用Flye (v2.9-b1768)加上HapDup (v0.5-iss10)生成三种基于组装的工具的双重组装。选择hifiasm和Flye加HapDup生成组装,因为它们提供了最佳的SV调用组装结果。VolcanoSV使用其自己的相位感知组装组件(VolcanoSV-asm)生成二倍体组装。为了进一步证明VolcanoSV在不同SV评估阈值下的鲁棒性能,作者比较了四种基于组装的方法在断点识别和SV序列准确性方面的SV调用结果。在14个长读序列测序数据集中,五个PacBio HiFi数据集分别称为Hifi_L1、Hifi_L2、Hifi_L3、Hifi_L4和Hifi_L5,它们的覆盖率分别约为56×、30×、34×、28×和41×。三个PacBio CLR数据集分别称为CLR_L1、CLR_L2和CLR_L3,它们的覆盖率分别为89x、65x和29x。作者还使用了六个ONT数据集,分别称为ONT_L1、ONT_L2、ONT_L3、ONT_L4、ONT_L5和ONT_L6,它们的覆盖率分别约为48×、46×、57×、36×、47×和51×。VolcanoSV利用参考基因组和长读序列数据生成高质量的相位解决二倍体组装。使用该组装,可以全面检测所有类型的变异。VolcanoSV管道如图1和图2所示。

Figure 2 VolcanoSV-vc流程


为了评估插入和删除SV检测的性能,研究者在HG002的14个长读序列库中应用了四种基于组装的工具,VolcanoSV、PAV、SVIM-asm和Dipcall。作者将它们的结果与GIAB SV黄金标准进行了比较。SV基准测试工具Truvari (v4.0.0)被用于将每个工具的SV调用与GIAB SV黄金标准进行比较。Truvari通过分析在指定区域内所有SV对的四个基本相似性指标(参考距离、互相重叠、大小相似性、序列相似性),同时确保比较的SV对之间的SV类型和基因型匹配,来评估VCF中的SV。

作者首先确定了四种基于组装的工具在不同PacBio Hifi、CLR和ONT数据集中的平均性能。在Hifi数据集中,VolcanoSV在插入和删除的平均F1(91.03%和94.19%)和基因型准确性(98.32%和99.01%)方面取得了最佳成绩。在CLR数据集中,VolcanoSV在插入和删除的平均F1(89.72%和93.70%)和基因型准确性(97.07%和98.58%)方面也取得了最佳成绩。在ONT数据集中,VolcanoSV在插入和删除的平均F1(90.10%和93.13%)和基因型准确性(98.00%和99.06%)方面同样表现优异。

当作者检查每个数据集时,VolcanoSV始终优于所有其他工具,在所有14个库中插入和删除的F1得分最高。在五个Hifi数据集中,VolcanoSV在所有性能指标方面排名最高。具体来说,在插入方面,VolcanoSV在所有指标上均优于其他工具,F1得分、召回率、精确度和GT一致性分别比排名第二的工具高出平均1.29%、0.67%、1.92%和0.59%。在删除方面,VolcanoSV保持了优势,F1得分、召回率、精确度和GT一致性分别比排名第二的工具高出平均1.07%、0.48%、1.52%和0.53%。

在三个CLR数据集中,VolcanoSV在所有指标和库中都是表现最佳的,在插入方面,VolcanoSV的性能指标(包括F1得分、召回率、精确度和GT一致性)分别比排名第二的工具高出3.30%、0.87%、4.61%和4.20%。同样,在删除方面,VolcanoSV比排名第二的工具在F1得分、召回率、精确度和GT一致性方面平均分别高出4.87%、6.19%、3.19%和1.71%。值得注意的是,CLR数据的错误率显著较高,约为10%到20%。与Hifi数据集相比,PAV、SVIM-asm和Dipcall在PacBio CLR中表现明显较差。有效消除假阳性调用是SV检测过程中的一个关键步骤。VolcanoSV在其工作流程中包含了精确的SV过滤程序和先进的GT预测模型,从而显著提高了性能,优于所有其他工具。

Figure 3 多个数据集进行benchmark


在六个ONT数据集中,VolcanoSV仍然保持了显著的领先地位。在插入方面,VolcanoSV在F1得分和精确度方面分别比排名第二的工具高出平均1.5%和2.68%。在插入召回率方面,在ONT_L3-5中,VolcanoSV的召回率平均比排名第二的工具高0.38%。在ONT_L1和L6中,VolcanoSV表现为第二高的召回率,仅比最高召回率平均低0.14%。然而,在ONT_L2中,VolcanoSV仅表现为第三高的召回率,比最高召回率低1.03%。

总之,VolcanoSV在不同的长读序列数据集中成为基于组装的SV检测的顶级选择,特别是在PacBio HiFi和CLR数据集中,其F1得分、召回率、精确度和GT一致性表现出色且一致。对于ONT数据集,VolcanoSV在F1得分、精确度和GT一致性方面仍然展示了其优越性。对于插入和删除的召回率,VolcanoSV在6个数据集中有3-4个数据集中达到了最佳召回率。


文献来源

Luo, C., Liu, Y.H. & Zhou, X.M. VolcanoSV enables accurate and robust structural variant calling in diploid genomes from single-molecule long read sequencing. Nat Commun 15, 6956 (2024).


来源:基预科技

生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章