二代测序 (NGS) reads低错误率和低成本,但由于太短难以解析复杂的基因组区域;三代测序(TGS)reads较长,但容易出现更高的错误率或需要更昂贵费用。降低TGS reads覆盖深度可以减少费用但是会导致组装质量降低。如何同时利用NGS和TGS数据,综合两者的优点产生长而准确的基因组序列至关重要,这将是实现高质量组装的基础。
2024年10月7日,湖南大学生物学院罗宵教授和德国比勒菲尔德大学Alexander Schönhuth教授合作在Nature Communications杂志在线发表题为“HyLight: Strain aware assembly of low coverage metagenomes”的研究论文, 该文章提出了HyLight,这是一个混合组装工具,专为宏基因组和多倍体基因组设计。它结合了NGS和TGS数据的优势,采用菌株分辨率的重叠图(overlap graph, OG)准确重建微生物群落中的个体菌株。HyLight解决了之前的方法在菌株感知能力、准确性、成本过高方面可能存在的问题。广泛基准测试实验表明,HyLight能够以最小的误差产生菌株感知和连续的组装,同时利用低覆盖率的TGS数据显著降低成本。HyLight在保持与真实菌株一致的表现平均提升了19.05%,并在不同的数据集上展现了几乎完整的菌株识别能力。与现有工具相比,由于结合了NGS和TGS数据的优势,HyLight显著提高了菌株感知能力、contigs的连续性和准确性。
原文链接:https://doi.org/10.1038/s41467-024-52907-0
研究内容总结
在以往的所有方法中,通常使用短读长(short reads)或长读长(long reads)作为主要组装数据,而将另一种类型数据用作辅助数据。HyLight提出了一种混合组装方法,将short reads和long reads同时用作主要(组装)和次要(辅助)数据。换而言之,它本质上是一种“交叉混合”的方法。
HyLight是首次提出的一种具有菌株感知的混合宏基因组组装方法。
HyLight首次在混合组装中使用重叠图(overlap graph, OG)来捕捉与short reads组装相关的效果。
HyLight不需要高覆盖深度的long reads或复杂的测序方案即可实现菌株感知的组装。
HyLight在组装质量方面优于所有现有的方法,显著提高了菌株识别能力、contigs的连续性和准确性。
HyLight 介绍
HyLight是一个混合组装工具,专为宏基因组和多倍体基因组设计。它基于重叠图(overlap graph, OG)方法,结合NGS和TGS数据的优势,从而在低覆盖度宏基因数据中实现菌株感知的基因组从头组装。
Github:https://github.com/LuoGroup2023/HyLight
图1. HyLight工作流程
输入数据由两个fastq文件组成,long reads和short reads。输出是一个fasta文件,其中包含组装好的contigs。整个过程可分为三个主要步骤(模块)。首先,使用菌株分辨率的OG组装long reads。随后,构建另一个OG来组装short reads。最后,构建一个contig OG,以延长从long reads和short reads的组装结果中获得的contigs,最终得到更长的contigs。
HyLight工作流程:
第一个模块:long read组装
这一模块的主要目的是从long reads中得到出菌株感知且无错误的contigs。
步骤 1,使用基于FM索引和de Bruijn graph的方法(如FMLRC2)利用short reads对long reads进行校正。
步骤 2,使用minimap2利用校正后的long reads构建OG。
步骤 3,通过检查SNP模式,识别出连接来自不同菌株的long reads之间的重叠,并删除在OG中连接不同菌株的long reads的边。结果是由多个连通分量组成的long reads OG,每个连通分量只包含来自单个特定菌株的long reads。也就是说,每个连通分量都反映了一个单倍体基因组中的long reads集合。步骤3-4可如图2所示。
步骤 4 ,基于生成的菌株分辨率的OG使用Miniasm对long reads进行组装。结果生成的每个contig都来自一个特定的菌株。
步骤 5,重新将long reads与生成的菌株感知的contig进行比对。
步骤 6,基于重新比对的结果,构建了第二个改进的long reads OG,这个改进后的OG是菌株感知的。
步骤 7,基于改进的菌株感知的OG,使用Racon去除long reads中残留的错误,最终得到菌株感知且无错误的long read contigs。
图2. long reads的组装
long reads的不同颜色表示它们各自的菌株起源。
第二个模块:short read组装
这一模块的主要目的是独立地组装覆盖率较高的short reads,并利用这些组装结果来填补基于long reads的组装中的gaps,甚至从生成的contigs中识别出额外的菌株。
步骤 1,使用Miniasm将short reads与在第一个模块中生成的菌株感知且无错误的long read contigs进行比对。步骤1-8可如图3所示。
步骤 2,short reads与long read contigs的比对生成了short reads的OG。
步骤 3,类似于第一个模块,检查short reads重叠部分中的SNP模式。基于这些SNP模式,识别出连接来自不同菌株的两个short reads之间的重叠区域。
步骤 4 ,由此能够识别出那些SNP模式与其long read contigs的初始比对结果相矛盾的short reads。这里的见解是,当short reads之间的重叠区域全部与同一个long read contig对齐时,打破这些重叠区域会形成多个类别的short reads集合。只有一个类别的short reads集合真正与其对应的long read contig一致(图3中的黄色short reads)。
步骤 5,其他类别的short reads集合不再与其SNP模式真正匹配long read contig的short reads存在重叠区域,因为它不是与该long read contig来自同一个菌株(图3中的蓝色short reads)。
步骤 6,收集所有未与任何long read contig比对上的short reads(图3中的灰色short reads)。
步骤 7,丢弃所有与long read contig完全一致对齐的short reads(图3中的黄色short reads)。
步骤 8,最后使用StrainXpress,将那些与其long read contig比对结果不完全一致的short reads(图3中的蓝色short reads)以及完全比对不上的short reads(图3中的灰色short reads)进行组装,结果得到菌株感知的short read contigs。
图3. short reads的组装
short reads的不同颜色表明了它们各自的菌株起源。
第三个模块:合并long read和short read组装
这一个模块的目的是得到一个尽可能完整的统一组装结果。
步骤 1,收集第一个模块和第二个模块的输出,即long read和short read的contigs,并计算它们之间的重叠,以建立一个全面的菌株感知的OG。
步骤 2,识别OG中只有一条特定路径通过的节点(“简单路径”)。
步骤3,沿着识别出的“简单路径”延长contigs。最后得到的延长的contigs即为最终输出。
组装结果评估
在文中作者使用多个数据集,清楚地展示了HyLight显著提高了菌株感知能力、contigs的连续性和准确性。
在这里由于篇幅有限,我们简要展示一下宏基因组中HyLight的组装质量。
测试数据集:
测试数据集作者选用了5个模拟宏基因组数据与5个真实的宏基因组数据集,每个数据集都同时包含NGS和TGS数据。
合成数据集:
模拟数据集1(3 Salmonella strains):由 3 种沙门氏菌菌株组成的20X Illumina reads和10X PacBio CLR reads;
模拟数据集2(20 bacterial strains):由来自10个物种的20个菌株组成的20X Illumina reads和10X PacBio CLR reads;
模拟数据集3(100 bacterial strains):由来自30个物种的100个菌株组成的20X Illumina reads和10X PacBio CLR reads;
模拟数据集4(210 bacterial strains):由来自100个物种的210个菌株组成的20X Illumina reads和10X PacBio CLR reads。
菌株混合spike-in数据集(10 Salmonella strains spike-in):10个高度相似的沙门氏菌菌株掺入6个真实宏基因组样本中。固定10X PacBio CLR reads,spiked-in NGS reads从5X到30X,步长为5X。因此这包含36个子数据集。
真实数据集:
1. Bmock12数据集:包含9个物种的11个菌株。
2. NWC数据集:包含了3种细菌物种(Streptococcus thermophilus、Lactobacillus delbrueckii、Lactobacillus helveticus),每种物种有两个菌株。这些菌株之间的平均核酸相似性指数(Average Nucleotide Identity,ANI)分别是99.99%,99.24%和98.03%。
3. Three yeast strains数据集:3个酵母Saccharomyces cerevisiae strain S288C, S. cerevisiae CICC-1445和S. pombe FLO-DUT对应测序平台的测序数据进行混合。
真实数据集1(Bmock 12 PacBio):数据集Bmock 12对应的22.11X PacBio CLR reads和275X NGS reads
真实数据集2(Bmock12 ONT):数据集Bmock 12对应的18.1X ONT reads和275X NGS reads
真实数据集3(NWC PacBio):数据集NWC对应的127.2X PacBio CLR reads和35.62X NGS reads
真实数据集4(NWC ONT):数据集NWC对应的89.01X ONT reads和35.62X NGS reads
真实数据集5 (Three yeast strains):BGISEQ short reads, 10X ONT reads, PacBio HiFi reads
方法分类
根据宏基因组组装方法的特点可分为三类:第一类是混合非菌株感知组装方法,如MetaPlatanus, Unicycler, OPERA-MS, hybridSPAdes;第二类是菌株感知非混合方法,如Strainberry(TGS), StrainXpress(NGS);第三类是仅基于PacBio HiFi数据的非混合组装方法,如Hifiasm-meta, MetaMDBG。
合成数据集
在所有的合成数据集中,HyLight在所有指标上都优于混合组装非菌株感知方法,特别是contigs的长度和连续性。如表1,在3 Salmonella strains数据集中,与次优混合组装方法MetaPlatanus相比,HyLight覆盖了更多的菌株序列(HyLight: 96.03%; MetaPlatanus: 72.25%),仅缺失了4%的菌株特异性序列。HyLight将NGA50提升了5倍(HyLight: 351,848; MetaPlatanus: 68,613),indel error rate降低了24倍(HyLight: 0.85/100 kbp,MetaPlatanus:20.56/100 kbp),mismatch error rate降低了13.7倍(HyLight: 23.56/100 kbp;MetaPlatanus: 324.99/100 kbp),MC降低了8.4倍(HyLight: 0.19%;MetaPlatanus: 1.6%)。与菌株感知非混合组装方法相比,HyLight在contigs长度和准确度上同时具有优势,并且在GF具有极高的竞争力。如表1,在复杂的210 strains的数据集上,方法的优缺点更加明显。虽然Strainberry在错误率方面存在缺点,但StrainXpress在contigs连续性方面明显落后,而HyLight在这些指标中明显优于这两种方法。
表1. PacBio CLR模拟数据集组装的基准测试结果
基因组分数(GF):反映了每个菌株特异性基因组中有多少被contigs覆盖。NGA50是当累积长度超过参考基因组50%的部分时对应的contig的长度,它和N50类似。Indels/100 kbp:每100,000个比对碱基indel errors的平均数。Mismatches/100 kbp:每100,000个比对碱基mismatch errors的平均数。N/100 kbp:表示contigs中每100,000个碱基的未召回碱基(N)的平均数。MC:错误组装contigs的比例。每个指标的最佳分数用粗体表示。
菌株混合spike-in数据集用于研究NGS reads覆盖深度对混合组装方法的影响。结果如图4所示,HyLight在不同的覆盖深度范围内表现均优于其他方法。例如,HyLight的平均基因组分数比其他方法高出至少28.81%(24.65%~26.93%)。
图4. 10 Salmonella strains spike-in
真实数据集
在真实数据集上,相比于其他方法,HyLight在整体上同样具有优势。当菌株非常相似和/或菌株受到低TGS reads覆盖时,HyLight实现了其最显著的优势,它能重建最多的菌株特异性基因组序列。如表2所示,在Bmock12 ONT数据集中,与混合非菌株感知组装方法相比,HyLight的GF比次优的MetaPlatanus高4.4%(99.77% vs. 95.37%)。MetaPlatanus实现了最大的NGA50(789,960 vs. 281,944),但这可以通过其contig中异常多的N解释,这些N的主要目的是强行连接和延长contigs,而没有提供缺失序列上下文的reads证据。与其他方法相比,HyLight在indel和mismatch errors方面的改进超过了一个数量级。HyLight的indel error rate仅为次优的OPERA-MS的6.9%(1.43 vs. 20.78每100kbp),而HyLight的mismatch error rate仅为次优的MetaPlatanus的5.4%(3.58 vs. 66.81每100kbp)。与菌株感知非混合方法相比,HyLight在GF的表现优于StrainXpress(99.77%),并极优于Strainberry(67.60%)。在这里,同样反映Strainberry和StrainXpress固有趋势,虽然Strainberry在错误率方面存在缺点,但StrainXpress在contigs连续性方面明显落后。
表2. 真实数据集组装的基准测试结果
在Bmock 12ONT数据集中,检查mock community中每个菌株的组装状态,各个菌株的GF如表3所示。除了两个ANI达到99%的Halomonas菌株外,所有方法对于所有菌株特异序列的重建率均至少达到(大约)99%。特别是对于Halomonas sp.HL-4,HyLight的GF比MetaPlatanus高7.58%,比Opera-MS高8.93%(HyLight: 99.36; MetaPlatanus: 93.05; OperaMS: 90.7)。这表明HyLight是唯一一个即使在菌株间的ANI高达99%时仍能以菌株感知的方式运行的混合宏基因组组装方法。
表3. Bmock 12 ONT数据集中每个菌株的基因组分数(GF)
混合组装与仅基于PacBio HiFi数据组装方法的比较
对三种酵母菌株组装基因组的评估显示,HyLight在完整性和错误率方面均优于HiFiasm-meta和MetaMDBG。需要指出的是,HyLight结合了NGS和ONT数据,而HiFiasm-meta和MetaMDBG则仅设计用于高精度的HiFi reads。
表4. 3个酵母真实数据集组装的基准测试结果
完整性(Completeness)表示被组装的contigs覆盖的基因组比例。QV是一种基于k-mer的度量,用于量化组装contigs的质量。错误率(Error rate)表示组装contigs中存在的错误碱基的比例。每个指标的最佳分数用粗体表示。
感谢阅读!
欢迎批评指正。
撰文|张文海
计算基因组学课题组简介
课题组PI:罗宵,生物信息学博士,湖南大学生物学院教授、博士生导师。近年来开发了一系列全基因组解析与预测的计算方法和软件,主要研究成果以(共同)第一作者或通讯作者发表于 Nature Machine Intelligence, Nature Communications, Genome Biology, Nucleic Acids Research等专业领域主流期刊。本课题组以 “干实验” 为主,围绕 “基因型如何决定表型” 这个核心生物学问题,开发及应用前沿的生物信息学、人工智能算法和工具,整合挖掘基因组学等多组学大数据,解析表型形成的遗传基础与分子机制,应用于疾病防治、作物育种等领域。主要包括但不限于:单倍型基因组组装;图泛基因组;人工智能与大模型驱动的生物复杂表型预测与解读等。详细介绍请参考:https://grzy.hnu.edu.cn/site/index/luoxiao2
招聘招生
本课题组长期招聘博士后,有生物学、基因组学、计算机科学、应用数学或其他相关专业背景,具备一定生信分析经验者优先。提供具有竞争力的薪酬待遇,表现优秀者提供去国外优秀实验室访学交流的机会。更多详细信息可参考:https://mp.weixin.qq.com/s/S3Hjx7N9prXo7V9y-elkGg
境外博士可以申请湖南大学“赫曦博士后”(薪酬不低于47万元/年+学院及导师配套+高水平成果、科技成果转化等科研奖励+长沙市人才补贴和购房补贴13-20万,可申请编制内教学科研岗位),详见:https://mp.weixin.qq.com/s/NV0jBxZX5xR15FcO9MoLeg
常年招收博士研究生、硕士研究生,接收本科生、联合培养研究生等进行科研训练。表现优秀者可推荐至国外优秀实验室联合培养或继续深造。
本课题组拥有高性能计算平台和良好的办公环境,学术氛围宽松自由,优秀者可自带课题加入。课题组成员拥有多学科背景,鼓励思维碰撞。诚邀有志于从事基因组学、生物信息学等领域研究的人才加盟,共谋发展。特别欢迎有计算机科学、数学等相关专业背景的人才加入!
有意者请将简历及相关证明材料发送至:xluo@hnu.edu.cn, 谢谢!