宏基因组测序允许研究微生物群落,而不需要培养微生物,但低丰度生物体的基因组组装困难。现有的参考基因组比对方法可以识别微生物并量化其丰度,但常面临精度和效率问题。Sylph是一种基于k-mer缩略的工具,使用零膨胀泊松统计模型解决了低覆盖率条件下的ANI估算问题。与其他分析工具不同,sylph能够同时估算基因组间的ANI和物种丰度,提供更加多样的信息,并且在大规模数据集上表现出更高的准确性和速度。然而,当环境中缺乏物种水平的代表基因组时,sylph的敏感性可能降低,但其灵活的数据库选择功能为研究未充分表征的微生物群提供了潜力。
01 Sylph方法详细概述
Sylph是一种基于k-mer的宏基因组分析工具,主要通过零膨胀泊松k-mer统计模型估算基因组与宏基因组样本之间的含量平均核苷酸同一性(ANI)。其关键步骤和创新之处如下(图1):
图 1:sylph的算法概述
k-mer抽样和构建草图
Sylph首先对每个参考基因组或宏基因组样本进行k-mer抽样(k=31),并使用FracMinHash方法随机抽取部分k-mer(默认抽样率为1/200),形成压缩的k-mer集合,称为“草图”。这一草图代表了基因组在宏基因组中的存在性。
计算含量ANI
Sylph通过计算参考基因组的草图在宏基因组草图中的“含量”(containment)来估算ANI。传统的k-mer方法可能因低覆盖率而低估ANI,而Sylph通过创新的零膨胀泊松统计模型来纠正这一问题。该模型假设k-mer在宏基因组中的分布遵循零膨胀泊松分布,并通过推算有效覆盖率参数λ来修正低覆盖率带来的误差。
零膨胀泊松模型的应用
该模型引入了零膨胀的概念,即由于参考基因组与宏基因组之间的一致性差异,一些k-mer在宏基因组中并不存在(零膨胀),这与随机测序错误无关。通过推算有效覆盖率λ,Sylph能够修正含量估算,从而得出准确的覆盖率调整后的ANI。
含量ANI校正与重新分配
Sylph能够直接输出初步估算的ANI结果,但这并不代表完整的宏基因组分析。由于不同基因组之间共享k-mer,可能会模糊具体基因组的存在性和丰度计算。为解决此问题,Sylph通过重新分配共享的k-mer给拥有最高ANI的基因组,并重新计算调整后的ANI和丰度,最终输出含量ANI大于95%的基因组及其相对丰度。
计算效率与准确性
Sylph在处理低覆盖率数据时表现出色,例如在低至0.008×覆盖率的情况下仍能校正出高达95%以上的ANI。Sylph相较于其他方法,如Kraken,能够在低资源消耗下更快速、更精确地完成宏基因组物种水平的定量和物种识别分析。
通过这些步骤,Sylph不仅提供了基于ANI的精确物种检测,还能快速、高效地处理大规模的宏基因组数据,尤其适用于低丰度物种的检测。
02 与MetaPhlAn4和mOTUs3比较
Sylph在真实的肠道宏基因组样本中表现优异,尤其在与其他主流方法MetaPhlAn4和mOTUs3的比较中显示了其速度和准确性的优势。
在超高深度的肠道宏基因组样本中,Sylph与MetaPhlAn4平均检测到的物种数量相似(分别为545和554种),而mOTUs3检测的物种数量更多,平均为616种。Sylph与MetaPhlAn4的组合在物种和属级别上有最低的L1距离,表明这两者的结果更为一致。
对于>50Gbp的深度测序数据进行10倍降采样后,Sylph与MetaPhlAn4的结果保持高度一致(Spearman相关系数分别为0.99和1.00),而mOTUs3的结果一致性较差(Spearman相关系数为0.83),表明mOTUs3对测序深度更加敏感。
对50个随机选取的人类肠道宏基因组样本的分析显示,Sylph比其他两种方法快50倍以上,并且其丰度和覆盖率估算与读序比对结果高度一致(Pearson相关系数分别为0.95和0.98)。在这50个样本中,Sylph、MetaPhlAn4和mOTUs3检测到的物种和属的数量分别为132、140和152种物种,84、87和91个属。Sylph与MetaPhlAn4的组合在物种层面上相关性最高。
总得来说,Sylph相比于MetaPhlAn4和mOTUs3,在速度和准确性方面表现出显著优势,尤其适用于大规模的宏基因组数据处理。
03 菌株水平上的分析
Sylph被用于对帕金森病(PD)患者的肠道宏基因组进行菌株水平的广泛关联研究(MWAS)。不同于传统的相对丰度分析,Sylph通过使用基因组相似性的ANI作为协变量,提供了更精确的菌株检测,特别是在低覆盖率下也能生成准确结果。相较于相对丰度,ANI不依赖物种级别的归纳,因此简化了统计分析。在对724个样本进行的MWAS中,Sylph在短时间内处理了超过28万基因组,识别出了与PD显著关联的细菌菌株,包括与短链脂肪酸生产相关的菌株,如Blautia wexlerae和Roseburia intestinalis。通过这种方法,Sylph为进一步的菌株研究提供了有力的候选目标。
04 可以自定义数据库
Sylph的一个主要优势是它能够使用任意基因组数据库,而不是依赖固定的数据库,这使得其在分析未充分研究的微生物群落、病毒和真核生物时具有更大的灵活性。Sylph可对皮肤宏基因组进行分析,探讨与特应性皮炎(AD)相关的真菌,如Malassezia restricta和Malassezia globosa,结果表明Sylph在捕捉低覆盖率真核物种方面具有良好的表现。同时,Sylph在对病毒进行分析时,尽管对小型基因组的覆盖调整敏感性较低,但其准确性仍然很高。在对不同数据库的分析中,Sylph能够有效检测到人类和小鼠肠道样本的物种水平的读取比例,表现优于传统数据库。此外,Sylph支持通过添加组装的微生物基因组(MAGs)来增强对未充分研究微生物群落的检测能力。例如,在对生物絮凝体宏基因组进行分析时,通过将MAGs纳入数据库,Sylph的物种水平检测读取比例显著提高,表明其在自定义数据库方面的高效性。总体而言,Sylph为未充分研究的微生物群落的深入研究提供了强大的工具,尽管仍需解决物种水平分析的数据库不完整性问题。