Title | Utility of long-read sequencing for All of Us |
---|---|
Online | https://www.nature.com/articles/s41467-024-44804-3?fromPaywallRec=false |
研究背景
“All of Us”(AoU)项目是美国国立卫生研究院(NIH)发起的一项大规模基因组测序计划,旨在对超过一百万美国人进行基因组测序,以推动个性化医疗的发展。该项目的主要目标是通过对不同种族背景的个体进行基因组分析,构建一个多样化的健康数据库,从而为基因组研究提供支持。然而,传统的短读长测序技术(如Illumina)在检测复杂基因组变异(如结构变异,SVs)时存在局限性。因此,该研究旨在评估长读长测序技术(如Pacific Biosciences的HiFi和Oxford Nanopore Technologies的ONT)在AoU项目中的实用性,特别是在检测复杂医学相关基因变异方面的表现。
研究方法
样本:研究团队首先对来自HapMap项目的四个细胞系样本(NA24385、HG00514、HG00733、NA19240)进行了长读长和短读长测序的比较分析。随后,研究团队还分析了AoU项目中的两个控制样本(T662828295和T668639440),使用不同的组织来源(白细胞和全血细胞)和提取方法(Chemagen和Autogen)进行测序。
测序:
数据分析流程:对于 PacBio 测序数据,采用 pbmm2 比对,ONT 测序用minimap2 比对。
call SNV突变:先用 Clair3 call germline mutation,对于 Pacific 数据,再用 PEPPER-Margin-DeepVariant 变异分析流程。对于 ONT 数据,再用 PEPPER 的变异分析流程。最后用 SnpEff 注释和过滤。
call SV:采用Sniffles call SV,然后用 vcfanno 注释和过滤。
研究结果
基因组覆盖率和读长:长读长测序技术(ONT和HiFi)在基因组覆盖率和读长方面表现出色。ONT的平均覆盖率为45.29×,而HiFi为35.70×。ONT的读长较长,平均N50为20 kbp,而HiFi为11 kbp(图2a)。这些结果表明,长读长测序技术在覆盖复杂基因组区域方面具有显著优势。
SNV和indel检测:在SNV和indel检测方面,长读长测序技术表现优异。结合Clair3和DeepVariant的HiFi数据在SNV检测中的F-score达到了99.87%,而ONT的F-score为98.74%(图2b)。长读长测序技术在检测复杂变异(如插入和缺失)方面表现尤为突出。
结构变异(SV)检测:长读长测序技术在SV检测方面显著优于短读长测序。HiFi和ONT的SV检测F-score分别为0.93和0.91,而Illumina的F-score仅为0.45(图2c)。长读长测序技术能够更准确地检测到较大的插入、缺失和其他复杂的结构变异。
不同变异调用方法比较:总体而言,使用 PacBio HiFi 数据的 Clair3 和 DeepVariant 的组合在该覆盖率水平上实现了最佳的 F 分数 (99.87%). 对于 ONT,合并 Clair3 和 DeepVariant 的结果的 F 分数为 98.74%。
医学相关基因的覆盖:长读长测序技术在覆盖医学相关基因方面表现良好。特别是在386个高度复杂的医学相关基因中,ONT和HiFi的覆盖效果优于Illumina(图3a)。长读长测序技术能够更好地覆盖这些复杂基因,尤其是在重复序列较多的区域。
临床意义:长读长测序技术在检测与疾病相关的变异方面具有显著优势。例如,在ClinVar数据库中报告的致病性变异中,长读长测序技术能够更全面地覆盖这些变异位点,尤其是在复杂基因区域(图4a)。此外,研究还发现,长读长测序技术在检测高影响变异(如停止增益和移码变异)方面表现优异(图4b)。
总结
长读长测序技术在检测复杂基因组变异方面具有显著优势,特别是在结构变异和复杂基因区域的检测中表现突出。尽管长读长测序技术的成本较高,但其在医学相关基因的覆盖和变异检测方面的优势使其在个性化医疗和基因组研究中具有重要价值。研究团队开发的云计算流程为大规模长读长测序数据的分析提供了高效的工具,能够显著提高变异检测的准确性和效率。
尽管长读长测序技术在AoU项目中展示了巨大的潜力,但其在大规模应用中的成本、通量和数据分析的复杂性仍然是需要解决的问题。未来的研究应进一步优化长读长测序技术,降低成本并提高数据分析的自动化水平,以便在更大规模的基因组研究项目中推广应用。此外,长读长测序技术在检测甲基化和其他表观遗传标记方面的潜力也值得进一步探索。
本研究通过对比长读长和短读长测序技术在AoU项目中的表现,展示了长读长测序技术在检测复杂基因组变异方面的显著优势。研究结果表明,长读长测序技术能够更全面地覆盖医学相关基因,并更准确地检测到与疾病相关的变异。随着技术的不断进步,长读长测序有望在未来的基因组研究和个性化医疗中发挥越来越重要的作用。