NC | 湖南大学罗宵团队联合德国比勒菲尔德大学Alexander Schönhuth团队开发低覆盖深度宏基因组菌株感知组装方法

文摘   科学   2024-10-09 23:50   湖南  


二代测序 (NGS) reads低错误率和低成本,但由于太短难以解析复杂的基因组区域;三代测序(TGS)reads较长,但容易出现更高的错误率或需要更昂贵费用。降低TGS reads覆盖深度可以减少费用但是会导致组装质量降低。如何同时利用NGS和TGS数据,综合两者的优点产生长而准确的基因组序列至关重要,这将是实现高质量组装的基础。


2024年10月7日,湖南大学生物学院罗宵教授和德国比勒菲尔德大学Alexander Schönhuth教授合作在Nature Communications杂志在线发表题为“HyLight: Strain aware assembly of low coverage metagenomes”的研究论文, 该文章提出了HyLight,这是一个混合组装工具,专为宏基因组和多倍体基因组设计。它结合了NGS和TGS数据的优势,采用菌株分辨率的重叠图(overlap graph, OG)准确重建微生物群落中的个体菌株。HyLight解决了之前的方法在菌株感知能力、准确性、成本过高方面可能存在的问题。广泛基准测试实验表明,HyLight能够以最小的误差产生菌株感知和连续的组装,同时利用低覆盖率的TGS数据显著降低成本。HyLight在保持与真实菌株一致的表现平均提升了19.05%,并在不同的数据集上展现了几乎完整的菌株识别能力。与现有工具相比,由于结合了NGS和TGS数据的优势,HyLight显著提高了菌株感知能力、contigs的连续性和准确性。



原文链接:https://doi.org/10.1038/s41467-024-52907-0

研究内容总结


  • 在以往的所有方法中,通常使用短读长(short reads)或长读长(long reads)作为主要组装数据,而将另一种类型数据用作辅助数据。HyLight提出了一种混合组装方法,将short readslong reads同时用作主要(组装)和次要(辅助)数据。换而言之,它本质上是一种“交叉混合”的方法。

  • HyLight是首次提出的一种具有菌株感知的混合宏基因组组装方法。

  • HyLight首次在混合组装中使用重叠图(overlap graph, OG)来捕捉与short reads组装相关的效果。

  • HyLight不需要高覆盖深度的long reads或复杂的测序方案即可实现菌株感知的组装。

  • HyLight在组装质量方面优于所有现有的方法,显著提高了菌株识别能力、contigs的连续性和准确性


HyLight 介绍


HyLight是一个混合组装工具,专为宏基因组和多倍体基因组设计。它基于重叠图(overlap graph, OG)方法,结合NGS和TGS数据的优势,从而在低覆盖度宏基因数据中实现菌株感知的基因组从头组装。


Github:https://github.com/LuoGroup2023/HyLight


图1. HyLight工作流程

输入数据由两个fastq文件组成,long reads和short reads。输出是一个fasta文件,其中包含组装好的contigs。整个过程可分为三个主要步骤(模块)。首先,使用菌株分辨率的OG组装long reads。随后,构建另一个OG来组装short reads。最后,构建一个contig OG,以延长从long readsshort reads的组装结果中获得的contigs,最终得到更长的contigs。


HyLight工作流程:

第一个模块:long read组装

这一模块的主要目的是从long reads中得到出菌株感知且无错误的contigs。

  • 步骤 1,使用基于FM索引和de Bruijn graph的方法(如FMLRC2)利用short reads对long reads进行校正。

  • 步骤 2,使用minimap2利用校正后的long reads构建OG。

  • 步骤 3,通过检查SNP模式,识别出连接来自不同菌株的long reads之间的重叠,并删除在OG中连接不同菌株的long reads的边。结果是由多个连通分量组成的long reads OG,每个连通分量只包含来自单个特定菌株的long reads。也就是说,每个连通分量都反映了一个单倍体基因组中的long reads集合。步骤3-4可如图2所示。

  • 步骤 4 ,基于生成的菌株分辨率的OG使用Miniasm对long reads进行组装。结果生成的每个contig都来自一个特定的菌株。

  • 步骤 5,重新将long reads与生成的菌株感知的contig进行比对。

  • 步骤 6,基于重新比对的结果,构建了第二个改进的long reads OG,这个改进后的OG是菌株感知的。

  • 步骤 7基于改进的菌株感知的OG,使用Racon去除long reads中残留的错误,最终得到菌株感知且无错误的long read contigs。

图2. long reads的组装

long reads的不同颜色表示它们各自的菌株起源。


第二个模块:short read组装

这一模块的主要目的是独立地组装覆盖率较高的short reads,并利用这些组装结果来填补基于long reads的组装中的gaps,甚至从生成的contigs中识别出额外的菌株。

  • 步骤 1,使用Miniasm将short reads与在第一个模块中生成的菌株感知且无错误的long read contigs进行比对。步骤1-8可如图3所示。

  • 步骤 2short reads与long read contigs的比对生成了short reads的OG。

  • 步骤 3,类似于第一个模块,检查short reads重叠部分中的SNP模式。基于这些SNP模式,识别出连接来自不同菌株的两个short reads之间的重叠区域。

  • 步骤 4 ,由此能够识别出那些SNP模式与其long read contigs的初始比对结果相矛盾的short reads。这里的见解是,当short reads之间的重叠区域全部与同一个long read  contig对齐时,打破这些重叠区域会形成多个类别的short reads集合。只有一个类别的short reads集合真正与其对应的long read contig一致(图3中的黄色short reads)。

  • 步骤 5,其他类别的short reads集合不再与其SNP模式真正匹配long read contig的short reads存在重叠区域,因为它不是与该long read contig来自同一个菌株(图3中的蓝色short reads)。

  • 步骤 6,收集所有未与任何long read contig比对上的short reads(图3中的灰色short reads)。

  • 步骤 7丢弃所有与long read contig完全一致对齐的short reads(图3中的黄色short reads)。

  • 步骤 8最后使用StrainXpress,将那些与其long read contig比对结果不完全一致的short reads(图3中的蓝色short reads)以及完全比对不上的short reads(图3中的灰色short reads)进行组装,结果得到菌株感知的short read contigs。

图3. short reads的组装

short reads的不同颜色表明了它们各自的菌株起源。


第三个模块:合并long read和short read组装

这一个模块的目的是得到一个尽可能完整的统一组装结果。

  • 步骤 1,收集第一个模块和第二个模块的输出,即long read和short read的contigs,并计算它们之间的重叠,以建立一个全面的菌株感知的OG。

  • 步骤 2,识别OG中只有一条特定路径通过的节点(“简单路径”)。

  • 步骤3,沿着识别出的“简单路径”延长contigs。最后得到的延长的contigs即为最终输出。


组装结果评估


在文中作者使用多个数据集,清楚地展示了HyLight显著提高了菌株感知能力、contigs的连续性和准确性


在这里由于篇幅有限,我们简要展示一下宏基因组中HyLight的组装质量

测试数据集:

测试数据集作者选用了5个模拟宏基因组数据与5个真实的宏基因组数据集,每个数据集都同时包含NGS和TGS数据。

合成数据集:

  • 模拟数据集1(3 Salmonella strains):由 3 种沙门氏菌菌株组成的20X Illumina reads和10X PacBio CLR reads;

  • 模拟数据集2(20 bacterial strains):由来自10个物种的20个菌株组成的20X Illumina reads和10X PacBio CLR reads

  • 模拟数据集3(100 bacterial strains):由来自30个物种的100个菌株组成的20X Illumina reads和10X PacBio CLR reads;

  • 模拟数据集4(210 bacterial strains由来自100个物种的210个菌株组成的20X Illumina reads和10X PacBio CLR reads

  • 菌株混合spike-in数据集(10 Salmonella strains spike-in):10个高度相似的沙门氏菌菌株掺入6个真实宏基因组样本中。固定10X PacBio CLR reads,spiked-in NGS reads从5X到30X,步长为5X。因此这包含36个子数据集。


真实数据集

1. Bmock12数据集:包含9个物种的11个菌株。

2. NWC数据集:包含了3种细菌物种(Streptococcus thermophilus、Lactobacillus delbrueckii、Lactobacillus helveticus),每种物种有两个菌株。这些菌株之间的平均核酸相似性指数(Average Nucleotide Identity,ANI)分别是99.99%,99.24%和98.03%。

3. Three yeast strains数据集:3个酵母Saccharomyces cerevisiae strain S288C, S. cerevisiae CICC-1445和S. pombe FLO-DUT对应测序平台的测序数据进行混合。


  • 真实数据集1(Bmock 12 PacBio):数据集Bmock 12对应的22.11X PacBio CLR reads和275X NGS reads

  • 真实数据集2(Bmock12 ONT):数据集Bmock 12对应的18.1X ONT reads275X NGS reads

  • 真实数据集3(NWC PacBio):数据集NWC对应的127.2X PacBio CLR reads和35.62X NGS reads

  • 真实数据集4(NWC ONT):数据集NWC对应的89.01X ONT reads35.62X NGS reads

  • 真实数据集5 (Three yeast strains):BGISEQ short reads, 10X ONT reads, PacBio HiFi reads


方法分类

根据宏基因组组装方法的特点可分为三类:第一类是混合非菌株感知组装方法,如MetaPlatanus, Unicycler, OPERA-MS, hybridSPAdes;第二类是菌株感知非混合方法,如Strainberry(TGS), StrainXpress(NGS);第三类是仅基于PacBio HiFi数据的非混合组装方法,如Hifiasm-meta, MetaMDBG。


合成数据集

    在所有的合成数据集中,HyLight在所有指标上都优于混合组装非菌株感知方法,特别是contigs的长度和连续性。如表1,在3 Salmonella strains数据集中,与次优混合组装方法MetaPlatanus相比,HyLight覆盖了更多的菌株序列(HyLight: 96.03%; MetaPlatanus: 72.25%),仅缺失了4%的菌株特异性序列。HyLight将NGA50提升了5倍(HyLight: 351,848; MetaPlatanus: 68,613),indel error rate降低了24倍(HyLight: 0.85/100 kbp,MetaPlatanus:20.56/100 kbp),mismatch error rate降低了13.7倍(HyLight: 23.56/100 kbp;MetaPlatanus: 324.99/100 kbp),MC降低了8.4倍(HyLight: 0.19%;MetaPlatanus: 1.6%)。与菌株感知非混合组装方法相比,HyLight在contigs长度和准确度上同时具有优势,并且在GF具有极高的竞争力。如表1,在复杂的210 strains的数据集上,方法的优缺点更加明显。虽然Strainberry在错误率方面存在缺点,但StrainXpress在contigs连续性方面明显落后,而HyLight在这些指标中明显优于这两种方法。

表1. PacBio CLR模拟数据集组装的基准测试结果

基因组分数(GF):反映了每个菌株特异性基因组中有多少被contigs覆盖。NGA50是当累积长度超过参考基因组50%的部分时对应的contig的长度,它和N50类似。Indels/100 kbp:每100,000个比对碱基indel errors的平均数。Mismatches/100 kbp:每100,000个比对碱基mismatch errors的平均数。N/100 kbp:表示contigs中每100,000个碱基的未召回碱基(N)的平均数。MC:错误组装contigs的比例。每个指标的最佳分数用粗体表示


    菌株混合spike-in数据集用于研究NGS reads覆盖深度对混合组装方法的影响。结果如图4所示,HyLight在不同的覆盖深度范围内表现均优于其他方法。例如,HyLight的平均基因组分数比其他方法高出至少28.81%(24.65%~26.93%)。

4. 10 Salmonella strains spike-in



真实数据集

    在真实数据集上,相比于其他方法,HyLight在整体上同样具有优势。当菌株非常相似和/或菌株受到低TGS reads覆盖时,HyLight实现了其最显著的优势,它能重建最多的菌株特异性基因组序列。如表2所示,在Bmock12 ONT数据集中,与混合非菌株感知组装方法相比,HyLight的GF比次优的MetaPlatanus高4.4%(99.77% vs. 95.37%)。MetaPlatanus实现了最大的NGA50(789,960 vs. 281,944),但这可以通过其contig中异常多的N解释,这些N的主要目的是强行连接和延长contigs,而没有提供缺失序列上下文的reads证据。与其他方法相比,HyLight在indel和mismatch errors方面的改进超过了一个数量级。HyLight的indel error rate仅为次优的OPERA-MS的6.9%(1.43 vs. 20.78每100kbp),而HyLight的mismatch error rate仅为次优的MetaPlatanus的5.4%(3.58 vs. 66.81每100kbp)。与菌株感知非混合方法相比,HyLight在GF的表现优于StrainXpress(99.77%),并极优于Strainberry(67.60%)。在这里,同样反映Strainberry和StrainXpress固有趋势,虽然Strainberry在错误率方面存在缺点,但StrainXpress在contigs连续性方面明显落后


表2. 真实数据集组装的基准测试结果


    在Bmock 12ONT数据集中,检查mock community中每个菌株的组装状态,各个菌株的GF如表3所示。除了两个ANI达到99%的Halomonas菌株外,所有方法对于所有菌株特异序列的重建率均至少达到(大约)99%。特别是对于Halomonas sp.HL-4,HyLight的GF比MetaPlatanus高7.58%,比Opera-MS高8.93%(HyLight: 99.36; MetaPlatanus: 93.05; OperaMS: 90.7)。这表明HyLight是唯一一个即使在菌株间的ANI高达99%时仍能以菌株感知的方式运行的混合宏基因组组装方法

表3. Bmock 12 ONT数据集中每个菌株的基因组分数(GF)


混合组装与仅基于PacBio HiFi数据组装方法的比较


    对三种酵母菌株组装基因组的评估显示,HyLight在完整性和错误率方面均优于HiFiasm-meta和MetaMDBG需要指出的是,HyLight结合了NGS和ONT数据,而HiFiasm-meta和MetaMDBG则仅设计用于高精度的HiFi reads。

表4. 3个酵母真实数据集组装的基准测试结果

完整性(Completeness)表示被组装的contigs覆盖的基因组比例。QV是一种基于k-mer的度量,用于量化组装contigs的质量。错误率(Error rate)表示组装contigs中存在的错误碱基的比例。每个指标的最佳分数用粗体表示


感谢阅读!

欢迎批评指正。



撰文|张文海


计算基因组学课题组简介

课题组PI:罗宵,生物信息学博士,湖南大学生物学院教授、博士生导师。近年来开发了一系列全基因组解析与预测的计算方法和软件,主要研究成果以(共同)第一作者或通讯作者发表于 Nature Machine Intelligence, Nature Communications, Genome Biology, Nucleic Acids Research等专业领域主流期刊。本课题组以 “干实验” 为主,围绕 “基因型如何决定表型” 这个核心生物学问题,开发及应用前沿的生物信息学、人工智能算法和工具,整合挖掘基因组学等多组学大数据,解析表型形成的遗传基础与分子机制,应用于疾病防治、作物育种等领域。主要包括但不限于:单倍型基因组组装;图泛基因组;人工智能与大模型驱动的生物复杂表型预测与解读等。详细介绍请参考:https://grzy.hnu.edu.cn/site/index/luoxiao2

招聘招生

本课题组长期招聘博士后,有生物学、基因组学、计算机科学、应用数学或其他相关专业背景,具备一定生信分析经验者优先。提供具有竞争力的薪酬待遇,表现优秀者提供去国外优秀实验室访学交流的机会。更多详细信息可参考:https://mp.weixin.qq.com/s/S3Hjx7N9prXo7V9y-elkGg

境外博士可以申请湖南大学“赫曦博士后”(薪酬不低于47万元/年+学院及导师配套+高水平成果、科技成果转化等科研奖励+长沙市人才补贴和购房补贴13-20万,可申请编制内教学科研岗位),详见:https://mp.weixin.qq.com/s/NV0jBxZX5xR15FcO9MoLeg

常年招收博士研究生、硕士研究生,接收本科生、联合培养研究生等进行科研训练。表现优秀者可推荐至国外优秀实验室联合培养或继续深造。

本课题组拥有高性能计算平台和良好的办公环境,学术氛围宽松自由,优秀者可自带课题加入。课题组成员拥有多学科背景,鼓励思维碰撞。诚邀有志于从事基因组学、生物信息学等领域研究的人才加盟,共谋发展。特别欢迎有计算机科学、数学等相关专业背景的人才加入!

有意者请将简历及相关证明材料发送至:xluo@hnu.edu.cn, 谢谢!

计算基因组学
分享计算基因组学与生物信息学相关的知识,研究进展等