小麦结构变异解析
的最佳工作流程
结构变异(SVs)具有更高的复杂性——插入、缺失、重复、反转和易位,大小从50 bp到数百兆碱基(Mb)不等,广泛存在于植物基因组中,构成了高度多样化的遗传多样性。由于频繁的基因组复制和转座事件,SVs会影响50%的植物基因组,在植物表型性状中起着关键作用,如重要农艺性状:玉米开花时间(Vgt1、ZmCCT)、水稻产量(GW5和GL7)等。
然而,由于其复杂性和早期基因组技术的限制,大多数SV的NGS检测效果不佳。第三代测序技术的最新进展,特别是新的PacBio循环一致性测序(CCS,又称HiFi测序)在低错误率(< 0.2%)和长读长(> 10 kb)之间取得了完美的平衡,以90%≥Q30的长读长数据大大提高了SV检测的性能。
2024年9月6日,中国科学院遗传与发育生物学研究所鲁非研究组在The Plant Journal在线发表题为“Structural variation discovery in wheat using PacBio high-fidelity sequencing”的研究论文。该论文选取高转座元件含量(约85%)的六倍体面包小麦及其祖先供体为研究对象,对小麦材料进行了利用PacBio HiFi测序,并通过对主流长读长对齐算法和SV调用算法的评估,提供了使用HiFi reads进行SV基因分型的最佳工作流程;并从低深度HiFi(skim HiFi)测序中发现SV的显著准确性,表明skim HiFi测序在群体水平上是有效和优选的策略。该研究将有助于小麦和其他植物中SV的发现和生物学功能的破译。
结果与讨论
小麦SV参考数据集
SV参考数据集对于测试SV分析算法方法至关重要。为了解决小麦缺乏SV参考数据集的问题,研究人员从头开始构建一个稳健的小麦SV参考数据集,这个过程包括三个步骤(图1)。①生成候选SV调用集:基于HiFi测序通过长读长对齐算法和调用算法生成了全面的SV调用集。②构建参考数据集:利用深度NGS对所有候选SV进行验证(缺点:识别大型SV的完整结构方面存在局限性)而形成参考数据集。③验证参考数据集:采用从头组装、PCR扩增和Sanger测序来评估SV参考数据集的完整性。
图1. 参考数据集构建流程。
长读长对齐算法-SV调用算法组合的性能比较
研究人员对面包小麦及其祖先供体野生二粒小麦 (Triticum turgidum ssp. dicoccoides)和节节麦(Aegilops tauschii ssp. strangulata)进行了HiFi测序,三份样品的测序覆盖率分别为1.7×、2.7×和6.6×,基于此生成小麦SV调用集(图2)。然后对上述3份小麦材料进行全基因组测序,测序深度分别为17x、14x和25x(图2c, f),结合Sanger测序(图2g, h)一同验证其SV检测的准确性。
图 2. 验证SV参考数据集。参考数据集中缺失和插入的数量(a, d)和基因组分布(b, e)。SV参考数据集中共有91.76%的缺失和81.71%的插入通过基于组装的SV调用集 (c、f) 进行验证。Sanger测序结果显示了两个250 bp缺失和270 bp插入的例子,具有精确的SV断点(g, h)。
然后对主流长读长对齐算法(pbmm2、NGMLR、Winnowmap2和Minimap2)和SV调用算法(pbSV、cuteSV、SVIM、SVDSS和Sniffles2)在SV检测中的表现进行了全面评估。结果表明,缺失检测的准确性受到调用算法的显著影响,占方差的87.73%,而插入检测的准确性同时受对齐算法(38.25%)和调用算法(49.32%)的影响。对齐算法中,Winnowmap2和NGMLR分别在检测缺失和插入方面表现突出(图3c, f)。对于SV调用算法,SVIM的性能最好(图3)。研究人员证明,结合上述对齐算法和调用算法是SV检测的最佳选择。
图 3. 长读长对齐算法和SV调用算法组合的性能表现
用于SV发现的skim HiFi测序
由于测序覆盖率和SNP调用准确性之间存在公认的权衡,因此使用NGS检测SNP的高准确性需要足够高的覆盖率来保证。然而,考虑到PacBio长读长测序的随机插入错误在HiFi测序模式中已经得到解决,研究人员推测HiFi测序的覆盖范围可能不会强烈影响SV调用的假阳性率。为了验证这一假设,研究人员对以6.6 x覆盖率测序的二倍体节节麦(Aegilops tauschii ssp. strangulata)的HiFi reads进行了下采样,以检验20个对齐算法-调用算法组合(ACCs)在不同测序深度水平(从0.33X到6.60X)下的表现。通过将这些SV调用集与SV参考数据集进行基准测试,结果表明召回率随着测序深度的增加而提高(图4a,c)。然而,对于所有20个ACCs,精度并没有随着覆盖范围的增加而增加。相反,随着覆盖率的增加,有些ACCs的精度略有下降(图4b,d),这可能是由于单个reads的对齐不一致造成的。这些发现表明,虽然skim HiFi测序可能会出现技术数据缺失(单个样本SV检测不全),但它不会影响检测到的SV的有效性。
考虑到许多遗传变异(包括SVs)是个体间是共有的,在一个个体中未检测到的SVs可以在群体中其他个体中检测到。因此,skim HiF测序成为在种群水平上研究SV的理想方法。
图4. 评估用于 SV 发现的低覆盖度 HiFi 测序。精确率 (a, c) 和召回率 (b, d) 显示了从0.33X到6.60X的测序深度的影响。
敲重点!
长读长测序的高覆盖率对于高置信度SV的发现至关重要。例如,ONT测序需要至少8倍的人类基因组覆盖率才能达到0.8的准确率。相比之下,HiFi测序以其高度准确的reads(90%≥99.9%)彻底改变了该领域,显着增强了SV检测。尽管如此,HiFi 测序的高成本为其在群体规模上的应用带来了挑战,特别是对于小麦等大型和复杂的基因组。因此,低覆盖度HiFi测序成为一种有吸引力的解决方案,支持在大量群体中进行SV研究。
讨论
该研究首次展示了在植物中使用HiFi测序进行主流SV对齐算法和调用算法的评估。通过引入广泛适用的工作流程来评估SV检测算法,发现
1)用每种SV类型得到最佳对齐算法和调用算法的组合可以提高SV发现的准确性;
2) 低覆盖率HiFi测序可以在SV检出中提供高精度SV的检测,这表明skim HiFi测序对于大规模、群体水平的SV研究是可行的。
综上所述,本研究的见解有望促进对小麦和其他植物中SV功能的研究。
参考文献:Zhang, Z., Zhang, J., Kang, L., Qiu, X., Xu, S., Xu, J., Guo, Y., Niu, Z., Niu, B., Bi, A., Zhao, X., Xu, D., Wang, J., Yin, C. and Lu, F. (2024), Structural variation discovery in wheat using PacBio high-fidelity sequencing. Plant J. https://doi.org/10.1111/tpj.17011
关于我们
基因有限公司作为PacBio公司的中国区合作伙伴,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。
关于基因
基因有限公司成立于1992年,是一家提供生命科学科研仪器、试剂耗材和技术服务的综合服务商。基于“Gene Brightens Every Life • BioTech Connects the World”——“基因燃亮生命 • 生物技术连接世界”的愿景,专注于生命科学领域前沿技术的引进和推广,致力于推动该领域国内科研机构硬件水平及实验方案的革新与升级。同时,公司也一直致力于自主品牌的科研设备的研发与生产,拥有一系列通用性强、互补性高的自主品牌产品。
基因的服务网络遍及全国各地十多个大中城市,拥有包括仪器销售,试剂销售,市场与技术支持,维修,客服,物流等多个部门组成的完整服务体系。
我们希望通过不懈努力,为您的成功铺路搭桥,也为中国的生命科学事业赶超世界先进水平尽一己之力。欲了解更多信息,请访问www.genecompany.cn。