NC | 中科院先进院马迎飞组回复Nayfach等质疑病毒预测不准确

学术   2024-09-03 07:04   广东  

回应:病毒预测不准确导致高估了人类肠道中古菌病毒组的多样性

Reply to: Inaccurate viral prediction leads to overestimated diversity of the archaeal virome in the human gut

Matters arising,2024-07-17,Nature communications,[IF 14.7]

DOI:https://doi.org/10.1038/s41467-024-49903-9

原文链接:https://www.nature.com/articles/s41467-024-49903-9

第一作者:YongmingWang1

通讯作者:Yingfei Ma1

主要单位:

1 中国科学院深圳先进技术研究院合成生物学研究所,定量工程生物学中科院重点实验室

- 主要内容 -

Chibani等人使用了六种计算工具来验证HGAVD中假定的古菌病毒序列,结果显示其中许多序列是非病毒序列。这一结果并不令人意外。这些工具是基于公共数据集中已有的参考病毒基因组开发的,而人类肠道中古菌病毒的公开数据库资源极少,这意味着这些计算工具在识别新的古菌病毒序列方面存在局限性。特别是,大多数通过宏基因组测序数据组装的片段序列都比较短,并且这些序列中预测的蛋白质很少,或者缺乏与已知病毒相似的蛋白质。在Li等人的研究中,我们使用了五种计算工具对数据进行了验证,并已展示和讨论了结果。值得注意的是,这些计算工具的结果之间存在很大的差异(见补充图1)。我们应用了VirSorter(类别1,2,4-6)、VirFinder(score ≥ 0.9且p < 0.05)、VirSorter2和DeepVirFinder(score ≥ 0.9且p < 0.05)等工具对HGAVD中的序列进行分析,结果显示被分类为病毒序列的HGAVD序列总数增加到537个,但每种工具的预测结果差异很大(见补充图1)。我们还将这六种计算工具(VirSorter v1.0.3(类别1, 2)、VirSorter2 v2.2.3(得分≥0.9且至少匹配一个病毒标志基因)、VirFinder v1.1(score ≥ 0.9且p < 0.05)、DeepVirFinder v1.0(score ≥ 0.9且p < 0.05)、VIBRANT v1.2.1(中等或更高质量得分)、CheckV v0.6.0)应用于由Shen等人收集的肠道噬菌体分离物集合(GPIC)数据集中的序列,该数据集包含209种人类肠道细菌的噬菌体。结果显示,只有21%的噬菌体被VirSorter预测为病毒(见补充图2a;补充数据1)。根据未培养病毒的最低信息标准(MIUViG),13.4%的GPIC噬菌体的完整性水平低于50%(基于CheckV)(见补充图2a)。这些结果表明,当前软件工具的预测能力有限,难以识别真正的病毒。我们将这些计算工具应用于从NCBI核苷酸数据库(GenBank)下载的完整古菌病毒基因组(n = 216),结果显示有18个病毒基因组未被这些工具识别,约50%(n = 107)的基因组被CheckV标记为低质量或未确定(见补充图2b;补充数据2)。我们还观察到每种工具的结果之间存在显著差异。此外,我们将这些计算工具应用于从先前研究中下载的82个Smacoviridae序列。VirSorter、VirSorter2、VirFinder、DeepVirFinder和VIBRANT的检测率分别降至0%、66%、43%、20%和0%(补充数据3)。这表明这些工具在识别古菌病毒方面的局限性。


我们开发的用于识别古菌病毒标志基因的工作流程相当严格(请参见补充材料或原始文章)。通过对rRNA基因数据库(Silva rRNA数据库v.138和Greengenes数据库v13_8_99)进行全面筛选,我们在HGAVD数据库中找到了31个包含rRNA基因的序列,其中17个序列被各种病毒检测工具检测到含有前病毒序列片段,剩余的序列被分类为不确定病毒(补充数据4)。来自包含rRNA基因序列的预测前病毒序列片段可以在以下网址找到:https://doi.org/10.6084/m9.figshare.21152404.v5。


特别是,最大的片段Zhang_X_2015_NM_ERR589874.NODE_1_560083中有39个和75个基因(26个基因重叠)分别与古菌病毒标志基因和VOG数据库的成员(http://vogdb.org)匹配(补充数据5)。此外,该片段被来自UHGG古菌基因组的间隔序列(n = 8)靶向(补充数据6)。VirSorter(--virome)在片段Zhang_X_2015_NM_ERR589874.NODE_1_560083(分类为类别5)中检测到了一个前病毒序列,具体位置为341,464到450,048 bp(补充数据7)。


为了更好地促进未来研究人员的使用,我们在此利用包括VirSorter、VirSorter2、VirFinder、DeepVirFinder、VIBRANT、geNomad和ViralVerify在内的多种生物信息学工具,将HGAVD序列分为五个不同的置信水平。通过结合这些工具的结果,我们将病毒的可信度分为五个不同的等级。这种分层将指导未来的研究人员根据他们的特定研究需求,选择具有适当置信水平的序列。分类的具体标准如下所述:完整病毒满足后续的高置信度病毒识别标准,并被CheckV确认为完整基因组。根据这些标准,HGAVD数据库中的33个序列被识别为完整的Caudoviricetes病毒,3个序列被识别为完整的smacoviruses,具体内容详见补充数据7。在Li等人的文章中,我们选择了这33个完整的Caudoviricetes病毒基因组进行进一步分析,如原文补充图13所示。


高置信度病毒是通过保守且可靠的方法识别的。它们是通过包括VirSorter(类别1、2、4、5)在内的工具检测到的,这些工具在Rahlff等人的研究中有引用,VirSorter2(--minscore 0.9)、VirFinder(score ≥ 0.9且p < 0.05)、DeepVirFinder(score ≥ 0.9且p < 0.05)、VIBRANT、geNomad(使用--conservative标志)和ViralVerify(分类为病毒)。满足超过两个这些软件工具标准的情况表明置信度较高,这可归因于保守的参数设置。利用这一分类标准,HGAVD数据库中的293个序列被归类为高置信度病毒(补充数据7)。


中等置信度病毒是通过结合使用多种软件工具识别的。这一分类涉及使用包括VirSorter(分类为cat3、cat6、circular)、VirSorter2(--min-score 0.5)、VirFinder(0.9 > score ≥ 0.7且p < 0.05)、DeepVirFinder(0.9 > score ≥ 0.7且p < 0.05)、geNomad(使用--relaxed标志)和ViralVerify(分类为不确定病毒)的工具。满足两个或两个以上这些工具检测阈值的序列被认为具有中等置信度。在高置信度病毒识别标准中仅满足单一软件标准的序列也被认为具有中等置信度。


低置信度病毒仅满足中等置信度病毒识别标准中的单一软件标准。


不确定病毒类别涵盖了不符合上述任何生物信息学软件工具识别参数的病毒序列。


最后,我们将HGAVD序列分为36个完整病毒、293个高置信度病毒、243个中等置信度病毒、390个低置信度病毒和317个不确定病毒(补充数据7)。包含五个不同置信度等级的古菌病毒序列和含rRNA基因序列的预测前病毒序列片段可以在以下网址找到:https://doi.org/10.6084/m9.figshare.21152404.v5。为了准确评估HGAVD数据库在“完整病毒”、“高置信度病毒”和“中等置信度病毒”类别中引入的新颖性比例,我们修改了原文图1d以创建图1。在图1中,I和II部分中的彩色节点代表“完整、高置信度和中等置信度病毒”。这种修改使我们能够直观地展示HGAVD数据库在增强古菌病毒检测和分类方面的新贡献。

图1 | 完整病毒、高置信度病毒和中等置信度HGAVD病毒的蛋白质聚类网络

该网络使用vConTACT v2.0建立,并通过Cytoscape v3.7.0中的边权重弹簧嵌入模型进行可视化。节点代表病毒序列,并根据其来源进行着色(显示在网络上方的图例中),边的宽度代表根据共享同源蛋白的病毒序列之间的连接数量。图中仅显示了与HGAVD病毒物种的代表序列连接的来自不同来源的病毒序列(图1 I)。包含HGAVD病毒物种的病毒簇(VCs)被放大并标记(图1 II)。节点以不同颜色表示对应“完整病毒”、“高置信度病毒”和“中等置信度病毒物种”在宿主分类学(物种级别)中的分类(显示在网络上方的图例中)。其他分类为“完整病毒、高置信度病毒和中等置信度病毒物种”以外的病毒序列节点标记为灰色。图1 III和IV是包含两种在人类肠道中高流行的古菌病毒物种的网络聚焦视图。两个代表性contig(IMG|UGV-GENOME-0271153和IMG|UGV-GENOME-0263128)以方形显示。

- 总结 -

我们承认,基于重新分析,最初发布的HGAVD数据库可能包含较高的宿主序列污染率。出于数据库剖析的目的,我们建议仅使用HGAVD中被分类为“完整病毒”和“高置信度病毒”的序列,以确保准确性和可靠性。对于那些有兴趣探索新型古菌病毒的研究者,HGAVD中其他置信度级别的序列可能是有用的资源和参考。

参考文献

Wang, Y., Li, R. & Ma, Y. Reply to: Inaccurate viral prediction leads to overestimated diversity of the archaeal virome in the human gut. Nat Commun15, 5977 (2024). https://doi.org/10.1038/s41467-024-49903-9

- 作者简介 -

第一作者

中国科学院城市环境研究所

汪永明

博士,助理研究员

通讯作者

中科院深圳先进技术研究院

合成生物学研究所

马迎飞

研究员,博士生导师

实验室目前主要聚焦噬菌体开展噬菌体的基础和应用研究,包括:利用高通量测序技术,开发生物信息学工具从环境和人体宏基因组数据中鉴定噬菌体序列,研究噬菌体的多样性及其在环境和人体中的功能;利用噬菌体专一杀灭细菌的特性,通过合成生物学方法设计合成人工噬菌体,应用于耐药菌感染的治疗;在国内较早的开展了在水产养殖和临床上应用噬菌体防治超级耐药菌的研究。截止目前,在国际权威刊物Cell Host Microbe(2023)、Nucleic Acids Res(2022,2023)、Nat Commun(2022)、Microbiome(2018)等以通讯作者发表论文20余篇。作为项目负责人承担国自然面上,科技部重点研发课题,深圳市孔雀团队,深圳市学科布局等各级项目。担任生物工程学会合成生物学分会委员、噬菌体技术专业委员会委员、生物物理学会肠道菌群分会委员等。


课题组主要研究方向为:微生物组、噬菌体组、噬菌体合成生物学以及应用噬菌体防治耐药菌的应用研究。


参考:https://isynbio.siat.ac.cn/view.php?id=116

宏基因组推荐
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

宏基因组
宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强本领域的技术交流与传播,推动中国微生物组计划发展,中科院青年科研人员创立“宏基因组”公众号,目标为打造本领域纯干货技术及思想交流平台。
 最新文章