NC | Nayfach等质疑病毒预测不准确导致人类肠道古菌病毒的多样性被高估

学术   2024-09-03 07:04   广东  

病毒预测不准确导致高估了人类肠道中古菌病毒组的多样性

Inaccurate viral prediction leads to overestimated diversity of the archaeal virome in the human gut

Matters arising,2024-07-17,Nature communications,[IF 14.7]

DOI:https://doi.org/10.1038/s41467-024-49902-w

原文链接:https://www.nature.com/articles/s41467-024-49902-w

第一作者:Cynthia M. Chibani1

通讯作者:Stephen Nayfach3,4

主要单位:

1 德国基尔大学普通微生物研究所

2 丹麦哥本哈根大学医院赫勒夫-根托夫特分院

3 美国加利福尼亚州伯克利市Profluent Bio公司

4 美国加利福尼亚州伯克利市联合基因组研究所

被质疑文章

Li, R., Wang, Y., Hu, H. et al. Metagenomic analysis reveals unexplored diversity of archaeal virome in the human gut. Nat Commun13, 7978 (2022). https://doi.org/10.1038/s41467-022-35735-y

- 主要内容 -

在公共数据库中纳入经过筛选的古菌病毒基因组是揭示古菌病毒在微生物群落中分布和进化的关键一步。在最近的一项研究中,Li等人创建了人类肠道古菌病毒数据库(HGAVD),据称该数据库包含1279种古菌病毒的基因组,与之前的研究相比,古菌病毒的多样性增加了超过13倍。然而,对HGAVD的重新分析显示,其中有大量来自细菌和古菌的污染,六种不同的病毒预测工具将72%至83%的序列分类为非病毒。要避免未来研究中错误传播,需要改进古菌基因组的参考数据库,并准确表征古菌病毒在微生物群落中的作用。


我们对古菌病毒多样性相对于近期研究的巨大增长感到好奇,因此使用了六种最先进的计算工具,包括CheckV v1.0.1、geNomad v1.5.0、VIBRANT v1.2.1、ViralVerify v1.1、VirSorter v1.0.6和VirSorter2 v2.2.4,采用默认参数对HGAVD进行了事后分析,结果表明该数据库主要由非病毒序列组成(图1A、B和补充数据1)。在HGAVD的1279个序列中,只有30.88%被任何一种工具预测为病毒或前病毒,只有14.46%被所有六种工具预测为病毒。尽管在微生物群落样本中检测古菌病毒可能更具挑战性,但几乎所有非病毒的HGAVD序列(987个中的985个)都被geNomad自信地分类为古菌或细菌,而不是其他移动遗传元件。

图1 | 对HGAVD中1279个假定的古菌病毒的分析

A 六种不同病毒分类工具对HGAVD的预测结果。预测的前噬病毒计入病毒中。

B Upset图显示了六种工具之间共享/独特病毒预测的数量。

C 在989个长度超过10 kbp的HGAVD片段上识别出的病毒特异性蛋白和宿主特异性蛋白的计数。序列按长度从长到短排序。最长的HGAVD序列具有大量宿主特异性基因,而病毒基因很少。

D geNomad基于数据来源对HGAVD片段的病毒预测。大多数误报源自未包含在先前发表的病毒基因组目录中的整体宏基因组。

病毒分类对于非常短的序列可能具有挑战性,但即使是较长的HGAVD序列(>10 kbp)也被发现包含数十到数百个宿主特异性基因,而没有任何病毒特异性基因(图1C)。综上所述,我们使用的计算工具灵敏地将NCBI RefSeq中的92个古菌病毒中的91个分类为病毒,表明我们的结果并非虚假的负面结果(补充数据2)。


接下来,我们寻找预测错误的来源。Li等人使用了结合推测的病毒特征基因序列匹配和古菌CRISPR间隔区序列匹配的方法来识别病毒。Li等人的大多数特征基因与其他两个病毒数据库(VOGDB http://vogdb.org/ 和VPF)匹配,确认了它们的病毒来源,并且大多数HGAVD序列包含与Li等人特征基因的匹配。然而,只有27.36%的HGAVD序列包含与三个经过筛选的数据库(CheckV、geNomad和VirSorter2)中的病毒特异性基因匹配,表明许多推测的特征基因并不特异于病毒。我们还确认几乎所有的HGAVD序列都包含与古菌CRISPR间隔区的匹配(见补充信息)。已知CRISPR间隔区有时会靶向参与质粒结合或复制的染色体基因,而病毒往往会与宿主交换基因。因此,这两种信号都不足以进行准确的病毒分类。为了去除非病毒序列,Li等人依赖于与肠道分离的古菌(n = 35)和细菌(n = 10,613)的基因组进行比对。然而,当我们将HGAVD与来自RefSeq的1825个古菌基因组的大型集合进行比对时,59.5%的HGAVD序列在>90%的序列长度上具有>90%的匹配一致性。与这一结果一致的是,我们发现HGAVD中的大多数非病毒序列是从含有病毒和细胞生物序列混合物的整体宏基因组中鉴定出来的,而不是从以前发表的经过筛选的病毒基因组数据库中鉴定出来的(图1D)。


作为一个说明性例子,HGAVD中最大的序列为560,083 bp,这将使其成为从人类肠道微生物群落中发现的最大病毒基因组(553,716 bp),也是迄今为止测序的任何古菌病毒的最大基因组(216,805 bp)。然而,与NCBI RefSeq的比对显示,这一序列与古菌模式菌株Methanobrevibacter smithii ATCC 35061的比对结果非常一致(在93%的序列长度上有99%的匹配一致性),并且通过视觉检查,发现了大量宿主代谢和细胞过程基因,甚至包括16S rRNA(图S1)。尽管该序列包含CRISPR间隔区匹配,但使用geNomad或VIBRANT无法识别出任何前噬菌体,也没有通过geNomad或VirSorter2识别出任何病毒特异性基因。


综上所述,我们的分析清楚地表明,Li等人报告的序列高度受到细胞生物的污染,不应作为病毒分析的参考数据库。要准确表征人类胃肠道中古菌病毒的多样性,并建立高质量的参考集合,需要更加谨慎和系统的分析。虽然新的病毒检测方法可以带来新的发现,但它们应在灵敏度和特异性方面进行严格的基准测试。在缺乏此类基准测试的情况下,我们建议使用经过良好验证的病毒检测工具,如geNomad或VirSorter2,这些工具可以区分病毒序列与细胞生物和其他移动遗传元件的序列。

参考文献

Chibani, C.M., Shah, S.A., Schmitz, R.A. et al. Inaccurate viral prediction leads to overestimated diversity of the archaeal virome in the human gut. Nat Commun15, 5976 (2024). https://doi.org/10.1038/s41467-024-49902-w

- 作者简介 -

第一作者

基尔大学生物信息学

Cynthia M. Chibani

博士后研究员

通讯作者

加州大学旧金山分校

格拉德斯通研究所

Stephen Nayfach

加州大学旧金山分校格拉德斯通研究所凯瑟琳-波拉德(Katherine Pollard)小组的生物信息学博士。现任职务为Profluent Bio生物信息学负责人,联合基因组研究所生物信息学研究科学家,h指数27。

宏基因组推荐
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

宏基因组
宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强本领域的技术交流与传播,推动中国微生物组计划发展,中科院青年科研人员创立“宏基因组”公众号,目标为打造本领域纯干货技术及思想交流平台。
 最新文章