NC | 湖南大学罗宵团队联合德国比勒菲尔德大学Alexander Schönhuth团队开发低覆盖深度宏基因组菌株感知组装方法

学术 2024-10-11 07:02 广东

二代测序 (NGS) reads低错误率和低成本，但由于太短难以解析复杂的基因组区域；三代测序（TGS）reads较长，但容易出现更高的错误率或需要更昂贵费用。降低TGS reads覆盖深度可以减少费用但是会导致组装质量降低。如何同时利用NGS和TGS数据，综合两者的优点产生长而准确的基因组序列至关重要，这将是实现高质量组装的基础。

2024年10月7日，湖南大学生物学院罗宵教授和德国比勒菲尔德大学Alexander Schönhuth教授合作在Nature Communications杂志在线发表题为“HyLight: Strain aware assembly of low coverage metagenomes”的研究论文，该文章提出了HyLight，这是一个混合组装工具，专为宏基因组和多倍体基因组设计。它结合了NGS和TGS数据的优势，采用菌株分辨率的重叠图（overlap graph, OG）准确重建微生物群落中的个体菌株。HyLight解决了之前的方法在菌株感知能力、准确性、成本过高方面可能存在的问题。广泛基准测试实验表明，HyLight能够以最小的误差产生菌株感知和连续的组装，同时利用低覆盖率的TGS数据显著降低成本。HyLight在保持与真实菌株一致的表现平均提升了19.05%，并在不同的数据集上展现了几乎完整的菌株识别能力。与现有工具相比，由于结合了NGS和TGS数据的优势，HyLight显著提高了菌株感知能力、contigs的连续性和准确性。

原文链接：https://doi.org/10.1038/s41467-024-52907-0

研究内容总结

在以往的所有方法中，通常使用短读长（short reads）或长读长（long reads）作为主要组装数据，而将另一种类型数据用作辅助数据。HyLight提出了一种混合组装方法，将short reads和long reads同时用作主要（组装）和次要（辅助）数据。换而言之，它本质上是一种“交叉混合”的方法。
HyLight是首次提出的一种具有菌株感知的混合宏基因组组装方法。
HyLight首次在混合组装中使用重叠图（overlap graph, OG）来捕捉与short reads组装相关的效果。
HyLight不需要高覆盖深度的long reads或复杂的测序方案即可实现菌株感知的组装。
HyLight在组装质量方面优于所有现有的方法，显著提高了菌株识别能力、contigs的连续性和准确性。

HyLight 介绍

HyLight是一个混合组装工具，专为宏基因组和多倍体基因组设计。它基于重叠图（overlap graph, OG）方法，结合NGS和TGS数据的优势，从而在低覆盖度宏基因数据中实现菌株感知的基因组从头组装。

Github：https://github.com/LuoGroup2023/HyLight

图1. HyLight工作流程

输入数据由两个fastq文件组成，long reads和short reads。输出是一个fasta文件，其中包含组装好的contigs。整个过程可分为三个主要步骤（模块）。首先，使用菌株分辨率的OG组装long reads。随后，构建另一个OG来组装short reads。最后，构建一个contig OG，以延长从long reads和short reads的组装结果中获得的contigs，最终得到更长的contigs。

HyLight工作流程：

第一个模块：long read组装

这一模块的主要目的是从long reads中得到出菌株感知且无错误的contigs。

步骤 1，使用基于FM索引和de Bruijn graph的方法（如FMLRC2）利用short reads对long reads进行校正。
步骤 2，使用minimap2利用校正后的long reads构建OG。
步骤 3，通过检查SNP模式，识别出连接来自不同菌株的long reads之间的重叠，并删除在OG中连接不同菌株的long reads的边。结果是由多个连通分量组成的long reads OG，每个连通分量只包含来自单个特定菌株的long reads。也就是说，每个连通分量都反映了一个单倍体基因组中的long reads集合。步骤3-4可如图2所示。
步骤 4 ，基于生成的菌株分辨率的OG使用Miniasm对long reads进行组装。结果生成的每个contig都来自一个特定的菌株。
步骤 5，重新将long reads与生成的菌株感知的contig进行比对。
步骤 6，基于重新比对的结果，构建了第二个改进的long reads OG，这个改进后的OG是菌株感知的。
步骤 7，基于改进的菌株感知的OG，使用Racon去除long reads中残留的错误，最终得到菌株感知且无错误的long read contigs。

图2. long reads的组装

long reads的不同颜色表示它们各自的菌株起源。

第二个模块：short read组装

这一模块的主要目的是独立地组装覆盖率较高的short reads，并利用这些组装结果来填补基于long reads的组装中的gaps，甚至从生成的contigs中识别出额外的菌株。

步骤 1，使用Miniasm将short reads与在第一个模块中生成的菌株感知且无错误的long read contigs进行比对。步骤1-8可如图3所示。
步骤 2，short reads与long read contigs的比对生成了short reads的OG。
步骤 3，类似于第一个模块，检查short reads重叠部分中的SNP模式。基于这些SNP模式，识别出连接来自不同菌株的两个short reads之间的重叠区域。
步骤 4 ，由此能够识别出那些SNP模式与其long read contigs的初始比对结果相矛盾的short reads。这里的见解是，当short reads之间的重叠区域全部与同一个long read contig对齐时，打破这些重叠区域会形成多个类别的short reads集合。只有一个类别的short reads集合真正与其对应的long read contig一致（图3中的黄色short reads）。
步骤 5，其他类别的short reads集合不再与其SNP模式真正匹配long read contig的short reads存在重叠区域，因为它不是与该long read contig来自同一个菌株（图3中的蓝色short reads）。
步骤 6，收集所有未与任何long read contig比对上的short reads（图3中的灰色short reads）。
步骤 7，丢弃所有与long read contig完全一致对齐的short reads（图3中的黄色short reads）。
步骤 8，最后使用StrainXpress，将那些与其long read contig比对结果不完全一致的short reads（图3中的蓝色short reads）以及完全比对不上的short reads（图3中的灰色short reads）进行组装，结果得到菌株感知的short read contigs。

图3. short reads的组装

short reads的不同颜色表明了它们各自的菌株起源。

第三个模块：合并long read和short read组装

这一个模块的目的是得到一个尽可能完整的统一组装结果。

步骤 1，收集第一个模块和第二个模块的输出，即long read和short read的contigs，并计算它们之间的重叠，以建立一个全面的菌株感知的OG。
步骤 2，识别OG中只有一条特定路径通过的节点（“简单路径”）。
步骤3，沿着识别出的“简单路径”延长contigs。最后得到的延长的contigs即为最终输出。

组装结果评估

在文中作者使用多个数据集，清楚地展示了HyLight显著提高了菌株感知能力、contigs的连续性和准确性。

在这里由于篇幅有限，我们简要展示一下宏基因组中HyLight的组装质量。

测试数据集：

测试数据集作者选用了5个模拟宏基因组数据与5个真实的宏基因组数据集，每个数据集都同时包含NGS和TGS数据。

合成数据集：

模拟数据集1（3 Salmonella strains）：由 3 种沙门氏菌菌株组成的20X Illumina reads和10X PacBio CLR reads；
模拟数据集2（20 bacterial strains）：由来自10个物种的20个菌株组成的20X Illumina reads和10X PacBio CLR reads；
模拟数据集3（100 bacterial strains）：由来自30个物种的100个菌株组成的20X Illumina reads和10X PacBio CLR reads；
模拟数据集4（210 bacterial strains）：由来自100个物种的210个菌株组成的20X Illumina reads和10X PacBio CLR reads。
菌株混合spike-in数据集（10 Salmonella strains spike-in）：10个高度相似的沙门氏菌菌株掺入6个真实宏基因组样本中。固定10X PacBio CLR reads，spiked-in NGS reads从5X到30X，步长为5X。因此这包含36个子数据集。

真实数据集：

1. Bmock12数据集：包含9个物种的11个菌株。

2. NWC数据集:包含了3种细菌物种（Streptococcus thermophilus、Lactobacillus delbrueckii、Lactobacillus helveticus），每种物种有两个菌株。这些菌株之间的平均核酸相似性指数（Average Nucleotide Identity，ANI）分别是99.99%，99.24%和98.03%。

3. Three yeast strains数据集：3个酵母Saccharomyces cerevisiae strain S288C, S. cerevisiae CICC-1445和S. pombe FLO-DUT对应测序平台的测序数据进行混合。

真实数据集1（Bmock 12 PacBio）：数据集Bmock 12对应的22.11X PacBio CLR reads和275X NGS reads
真实数据集2（Bmock12 ONT）：数据集Bmock 12对应的18.1X ONT reads和275X NGS reads
真实数据集3（NWC PacBio）：数据集NWC对应的127.2X PacBio CLR reads和35.62X NGS reads
真实数据集4（NWC ONT）：数据集NWC对应的89.01X ONT reads和35.62X NGS reads
真实数据集5 （Three yeast strains）：BGISEQ short reads, 10X ONT reads, PacBio HiFi reads

方法分类

根据宏基因组组装方法的特点可分为三类：第一类是混合非菌株感知组装方法，如MetaPlatanus, Unicycler, OPERA-MS, hybridSPAdes；第二类是菌株感知非混合方法，如Strainberry（TGS）, StrainXpress（NGS）；第三类是仅基于PacBio HiFi数据的非混合组装方法，如Hifiasm-meta, MetaMDBG。

合成数据集

在所有的合成数据集中，HyLight在所有指标上都优于混合组装非菌株感知方法，特别是contigs的长度和连续性。如表1，在3 Salmonella strains数据集中，与次优混合组装方法MetaPlatanus相比，HyLight覆盖了更多的菌株序列（HyLight: 96.03%; MetaPlatanus: 72.25%），仅缺失了4%的菌株特异性序列。HyLight将NGA50提升了5倍（HyLight: 351,848; MetaPlatanus: 68,613），indel error rate降低了24倍（HyLight: 0.85/100 kbp，MetaPlatanus：20.56/100 kbp），mismatch error rate降低了13.7倍（HyLight: 23.56/100 kbp；MetaPlatanus: 324.99/100 kbp），MC降低了8.4倍（HyLight: 0.19%；MetaPlatanus: 1.6%）。与菌株感知非混合组装方法相比，HyLight在contigs长度和准确度上同时具有优势，并且在GF具有极高的竞争力。如表1，在复杂的210 strains的数据集上，方法的优缺点更加明显。虽然Strainberry在错误率方面存在缺点，但StrainXpress在contigs连续性方面明显落后，而HyLight在这些指标中明显优于这两种方法。

表1. PacBio CLR模拟数据集组装的基准测试结果

基因组分数(GF)：反映了每个菌株特异性基因组中有多少被contigs覆盖。NGA50是当累积长度超过参考基因组50%的部分时对应的contig的长度，它和N50类似。Indels/100 kbp：每100,000个比对碱基indel errors的平均数。Mismatches/100 kbp：每100,000个比对碱基mismatch errors的平均数。N/100 kbp：表示contigs中每100,000个碱基的未召回碱基(N)的平均数。MC：错误组装contigs的比例。每个指标的最佳分数用粗体表示。

菌株混合spike-in数据集用于研究NGS reads覆盖深度对混合组装方法的影响。结果如图4所示，HyLight在不同的覆盖深度范围内表现均优于其他方法。例如，HyLight的平均基因组分数比其他方法高出至少28.81%（24.65%~26.93%）。

图4. 10 Salmonella strains spike-in

真实数据集

在真实数据集上，相比于其他方法，HyLight在整体上同样具有优势。当菌株非常相似和/或菌株受到低TGS reads覆盖时，HyLight实现了其最显著的优势，它能重建最多的菌株特异性基因组序列。如表2所示，在Bmock12 ONT数据集中，与混合非菌株感知组装方法相比，HyLight的GF比次优的MetaPlatanus高4.4%（99.77% vs. 95.37%）。MetaPlatanus实现了最大的NGA50（789,960 vs. 281,944），但这可以通过其contig中异常多的N解释，这些N的主要目的是强行连接和延长contigs，而没有提供缺失序列上下文的reads证据。与其他方法相比，HyLight在indel和mismatch errors方面的改进超过了一个数量级。HyLight的indel error rate仅为次优的OPERA-MS的6.9%（1.43 vs. 20.78每100kbp），而HyLight的mismatch error rate仅为次优的MetaPlatanus的5.4%（3.58 vs. 66.81每100kbp）。与菌株感知非混合方法相比，HyLight在GF的表现优于StrainXpress（99.77%），并极优于Strainberry（67.60%）。在这里，同样反映Strainberry和StrainXpress固有趋势，虽然Strainberry在错误率方面存在缺点，但StrainXpress在contigs连续性方面明显落后。

表2. 真实数据集组装的基准测试结果

在Bmock 12ONT数据集中，检查mock community中每个菌株的组装状态，各个菌株的GF如表3所示。除了两个ANI达到99%的Halomonas菌株外，所有方法对于所有菌株特异序列的重建率均至少达到（大约）99%。特别是对于Halomonas sp.HL-4，HyLight的GF比MetaPlatanus高7.58%，比Opera-MS高8.93%（HyLight: 99.36; MetaPlatanus: 93.05; OperaMS: 90.7）。这表明HyLight是唯一一个即使在菌株间的ANI高达99%时仍能以菌株感知的方式运行的混合宏基因组组装方法。

表3. Bmock 12 ONT数据集中每个菌株的基因组分数（GF）

混合组装与仅基于PacBio HiFi数据组装方法的比较

对三种酵母菌株组装基因组的评估显示，HyLight在完整性和错误率方面均优于HiFiasm-meta和MetaMDBG。需要指出的是，HyLight结合了NGS和ONT数据，而HiFiasm-meta和MetaMDBG则仅设计用于高精度的HiFi reads。

表4. 3个酵母真实数据集组装的基准测试结果

完整性（Completeness）表示被组装的contigs覆盖的基因组比例。QV是一种基于k-mer的度量，用于量化组装contigs的质量。错误率（Error rate）表示组装contigs中存在的错误碱基的比例。每个指标的最佳分数用粗体表示。

感谢阅读！

欢迎批评指正。

撰文｜张文海

计算基因组学课题组简介

课题组PI：罗宵，生物信息学博士，湖南大学生物学院教授、博士生导师。近年来开发了一系列全基因组解析与预测的计算方法和软件，主要研究成果以(共同)第一作者或通讯作者发表于 Nature Machine Intelligence, Nature Communications, Genome Biology, Nucleic Acids Research等专业领域主流期刊。本课题组以 “干实验” 为主，围绕 “基因型如何决定表型” 这个核心生物学问题，开发及应用前沿的生物信息学、人工智能算法和工具，整合挖掘基因组学等多组学大数据，解析表型形成的遗传基础与分子机制，应用于疾病防治、作物育种等领域。主要包括但不限于：单倍型基因组组装；图泛基因组；人工智能与大模型驱动的生物复杂表型预测与解读等。详细介绍请参考：https://grzy.hnu.edu.cn/site/index/luoxiao2

招聘招生

本课题组长期招聘博士后，有生物学、基因组学、计算机科学、应用数学或其他相关专业背景，具备一定生信分析经验者优先。提供具有竞争力的薪酬待遇，表现优秀者提供去国外优秀实验室访学交流的机会。更多详细信息可参考：https://mp.weixin.qq.com/s/S3Hjx7N9prXo7V9y-elkGg

境外博士可以申请湖南大学“赫曦博士后”（薪酬不低于47万元/年+学院及导师配套+高水平成果、科技成果转化等科研奖励+长沙市人才补贴和购房补贴13-20万，可申请编制内教学科研岗位），详见：https://mp.weixin.qq.com/s/NV0jBxZX5xR15FcO9MoLeg

常年招收博士研究生、硕士研究生，接收本科生、联合培养研究生等进行科研训练。表现优秀者可推荐至国外优秀实验室联合培养或继续深造。

本课题组拥有高性能计算平台和良好的办公环境，学术氛围宽松自由，优秀者可自带课题加入。课题组成员拥有多学科背景，鼓励思维碰撞。诚邀有志于从事基因组学、生物信息学等领域研究的人才加盟，共谋发展。特别欢迎有计算机科学、数学等相关专业背景的人才加入！

有意者请将简历及相关证明材料发送至：xluo@hnu.edu.cn, 谢谢！

http://mp.weixin.qq.com/s?__biz=MzUzMjA4Njc1MA==&mid=2247512946&idx=3&sn=69571e0ea1447063ab636eb304088996

宏基因组

宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强本领域的技术交流与传播，推动中国微生物组计划发展，中科院青年科研人员创立“宏基因组”公众号，目标为打造本领域纯干货技术及思想交流平台。

Nature：全球塑料垃圾中的“潜行者”

iMeta | 被引超4800次，发文220篇，平均引用21.85，百引耗时8天(2024/10/13)

iMeta大会2024第二天：开幕式/特邀报告/大会报告/生物技术专场/医学专场

MicrobiomeStatPlot | 因果中介分析Causal mediation analysis

MPB：湖南师大尹佳组-乳酸菌的耐热实验

iMeta大会2024第一天：前沿技术报告

赵立平：12年深入研究，我们如何找到人类肠道核心菌群

天桥脑科学研究院携手Science杂志发起AI驱动科学大奖

iMeta大会2024正式开始(10.11-13中国深圳)

iMeta | 苏州大学张勇组发现阿克曼氏菌改善一型糖尿病

NC | 湖南大学罗宵团队联合德国比勒菲尔德大学Alexander Schönhuth团队开发低覆盖深度宏基因组菌株感知组装方法

iMeta | 中科院生态中心邓晔组发布微生物代谢模型网络分析iNAP 2.0

MicrobiomeStatPlot | 批次效应矫正教程Batch effects correction

北京大学：获批18项杰青、17项优青！

首个知识与数据联合驱动的多物种生命基础大模型发布！中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

Mol Biol Evol｜中山大学施莽/郭德银团队发表综合鉴定和表征RNA病毒组的工具VirID

中科院微生物研究所官宣！2024年新增2位杰青、2位优青

iMeta大会2024(10.11-13深圳)第三轮通知-日程更新

重磅发布！《细胞》论文正式发表，国际团队发现肠道核心菌群成员，“跷跷板”模型有望成为健康评估新标准

ISME | 中农戴兆来揭示色氨酸通过肠道菌群5-HT途径调节免疫改善炎症性肠病

NC | 李轩组首次构建具有真核核小体的大肠杆菌 - 上帝计划之外

MicrobiomeStatPlot | 柱状图教程Basic bar plot tutorial

MPB | 南农韦中组-根际细菌产铁载体能力的高通量检测

NC | 浙大蒋超组合作揭示ICU患者下呼吸道微生物基因组功能动态及其在感染防控中的潜在应用

MicrobiomeStatPlot | 气泡图教程Bubble plot tutorial

iMeta | 被引超4700次，发文220篇，平均引用21.38，百引耗时4天(2024/10/5)

2024年影响因子预测: 微生物学期刊

MicrobiomeStatPlot | 矩形树图教程Block Treemap tutorial

MPB：南京湖泊所王建军组-湖泊沉积物的野外采集方法

MicrobiomeStatPlot | 蜂窝图教程Hexbin Plot

iMeta | 毛文君/张发明/万源/刘宁宁/Scott J. Tebbutt -论述免疫-肿瘤-微生物群轴：从生物技术到新疗法

MPB | 中科院生态环境中心邓晔组-环境样本中原核生物的总量测定

2024年影响因子预测: 中国期刊

MicrobiomeStatPlot | 关联规则挖掘教程Association rule minning

iMeta | 被引超4600次，发文220篇，平均引用21.09，百引耗时10天(2024/10/1)

iMeta | 李雪萌/刘永鑫-评述开源软件USEARCH 12

iMetaOmics | 陈绍鸣-关于靶向NF-κB的潜伏逆转剂及其在HIV潜伏期的表观遗传和突变影响的评论

MPB：南京湖泊所王建军组-溪流底栖附着生物膜的野外采集方法

你想要的宏基因组-微生物组知识全在这(2024.10)

iMetaOmics | 同济/上海交大-开发支持群体分组分析的宏基因组测序综合分析软件

Nature Microbiology | 中国海洋大学张晓华团队揭示多种海洋细菌中广泛存在的新型甲基转移酶

2024 年国家杰青、优青基金入选名单

微生物组-宏基因组分析专题技术研讨会(2024.11)

iMeta大会2024(10.11-13深圳)第二轮通知-详细日程更新/团购优惠报名最后3天

香港大学公共卫生学院车有组招收全额奖学金博士生和研究助理

Agronomy | 3.3分JCR1区微生物组专刊/37天毕业神器(刘永鑫/于鹏)

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天科研工作不够5小时，拿什么去竞争？

基因组所10人入选2024全球前2%顶尖科学家榜单

一位研三学生和导师被山寨“Frontiers”期刊诈骗2万多版面费的详细经过

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉