宏基因组分析揭示了人类肠道中未曾被发现的多样性古菌病毒组

文摘 2023-05-10 15:01 广东

摘要

人类肠道微生物组已经得到了广泛探索，但是古菌病毒仍然大部分未知。本研究使用CRISPR间隔序列和病毒特征标记为基础的方法，对人类肠道宏基因组和现有病毒集合中的古菌病毒进行了全面分析。结果发现共有1279个病毒物种，其中95.2%感染Methanobrevibacteria_A，56.5%与古菌原病毒具有高度相似性（>95%），37.2%具有跨古菌物种的宿主范围，55.7%在人群中高度普及（>1%）。另外，针对甲烷生成的古菌病毒，病毒序列中经常出现假肽聚糖内肽酶（PeiW）的基因（n=150）。对33个具有完整基因组的尾菌病毒进行分析，发现它们经常具有调节病毒溶菌循环的基因（整合酶，n=29；mazE，n=10），暗示着温和病毒在古菌病毒组中占支配地位。总之，本研究揭示了未曾探索的古菌病毒组多样性，揭示了人类肠道微生物组新的方面。

介绍

人类肠道微生物组与人类健康密切相关。除了占主导地位的细菌成分外，肠道微生物组中还包括非细菌成员（古菌、真菌和病毒），它们在微生物组动态、人体生理、免疫、疾病等方面发挥重要作用。古菌也是人体其他器官系统中的共生微生物之一，例如定期在呼吸道、口腔和皮肤中检测到古菌。然而，与细菌相比，人类相关的古菌往往被忽视和忽略，因为古菌相对于细菌而言数量较少且大多数无法培养。因此，无培养方法，如下一代测序，可以帮助捕获其身份，并允许广泛评估人类古菌组和古菌病毒组。微生物病毒对微生物群落的组成和代谢产生控制作用。迄今为止，人类肠道中细菌病毒的动态已经得到了详细研究，而很少有研究报道检测到人类肠道古菌病毒。感染古菌的病毒在基因组序列和病毒粒子结构方面极其多样化。到目前为止，大多数古菌病毒都是从超嗜热或嗜盐性宿主中分离出来的，只有少数病毒物种描述了甲烷生成和氨氧化古菌。最近的细致的宏基因组调查帮助发现了来自多个生态系统的新古菌病毒，包括海洋、淡水、温泉和土壤生境。在人类粪便中，曾经认为是感染真核生物的smacoviruses最近被发现使用CRISPR间隔序列为基础的宿主预测方法，感染了甲烷生成古菌Candidatus Methanomassiliicoccus intestinalis。然而，人类肠道中的古菌病毒仍然十分神秘。对古菌编码的CRISPR-Cas系统进行的分析显示，所有测序的古菌基因组中有90%拥有CRISPR位点，这意味着该生态系统中存在着丰富的古菌病毒组。

古菌病毒知识的空白是由于公共数据库中缺乏它们的基因组条目和缺少病毒的保守标记基因。目前只有250个感染23个宿主属的古菌病毒被描述并公开发布。这些古菌病毒极其多样化，编码的蛋白质与公共数据库中的蛋白质序列相似度非常低。原核生物通过CRISPR来抵御病毒和其他侵入性基因元件，从而揭示病毒与它们的宿主之间的关联。事实上，通过将已知生物体的CRISPR间隔序列与病毒匹配，以将宏基因组学发现的病毒分配给它们的宿主的方法是高度可靠的。当病毒基因组数据可以与特定的宿主生物体相关联时，就有可能发现新的病毒并研究它们在各种生态系统中与宿主之间的相互作用。

在这里，我们利用古菌CRISPR-Cas系统的间隔序列和病毒特征标记，在人类肠道中寻找古菌病毒。首先，我们从已发表的研究中获得2971个宏基因组，并进行了大规模的古菌基因组片段鉴定（见补充信息）。然后，我们获取了识别出的古菌基因组片段和UHGG（统一人类肠道基因组）的1162个古菌基因组的间隔序列。基于古菌间隔序列集合和古菌病毒中存在的蛋白质同源性标记，我们建立了一个古菌病毒检测流程，并在人类肠道中发现了1279个古菌病毒物种。这一努力将有助于更好地描述人类肠道中的古菌病毒及其宿主，并提供对人类肠道微生物组的补充视角。

宏基因组分析揭示了人类肠道中未曾被发现的多样性古菌病毒组

原名：Metagenomic analysis reveals unexploreddiversity of archaeal virome in the human gut

杂志：nature communications 影响因子：17.694 分区：1/1区发表时间：2022

结果

人类肠道携带着一个复杂的、以前未被探索的病毒组成谱。

为了对人类肠道中的古菌病毒进行全面的搜索，我们首先构建了一个人类肠道相关古菌间隔序列数据库（HGASDB），包括从已鉴定的古菌基因组片段和UHGG的1162个古菌基因组中招募的13,021个非冗余CRISPR间隔序列（见补充图1-3和补充信息）。这些间隔序列来自不同的古菌谱系的基因组和片段，其中Methanobrevibacter_A属贡献了最多的间隔序列（89.82%）。特别地，8962个间隔序列来自Methanobrevibacter_A.smithii，2549个间隔序列来自Methanobrevibacter_A.smithii_A，185个间隔序列来自其他三个物种（Methanobrevibacter_A.woesei、Methanobrevibacter_A.orals和Methanobrevibacter_A.millerae）（见补充图2d和补充数据1-5）。少量（n=1325；10.18%）的间隔序列来自其他古菌属。然后，我们从2271个组装的总社区宏基因组数据集和公开可用的人类肠道病毒集合中鉴定出了16,234个与这些间隔序列匹配的序列（图1a）。在我们过滤掉了古菌和细菌基因组污染以及不编码病毒特征标记的序列（即已知古菌病毒的标志基因）后（见方法和补充图4），这些序列最终被聚类（85%的序列上的95%相似度）成为1279个非冗余的病毒物种，并且每个物种中的最长序列被选为人类肠道古菌病毒组数据库（HGAVD）中的代表序列，以供进一步分析。特别地，HGAVD中的1080个古菌病毒代表序列来自组装的宏基因组数据集，其他199个来自公开可用的人类肠道病毒集合（89个来自IMG/VR19，92个来自GPD20，14个来自GVD7，2个来自HGV4，1个来自EVP21，1个来自GL-UVAB22）。CheckV23分析结果表明，12%的序列被归类为完整基因组（3%）和高质量序列（9%）（图1b和补充数据6）。

a 古菌病毒的鉴定工作流程。详细信息请参见方法部分。b 通过CheckV对已鉴定的病毒序列的质量评估。通过CheckV评估基因组完整性，其中，中等质量≥50%（MQ）、高质量≥90%（HQ）和完整性=100%。完整基因组被注释为“Complete”。c HGAVD病毒的分类分配（属级别）。详细信息请参见方法部分。d HGAVD病毒的蛋白质聚类网络。该网络是使用vConTACT v2.0建立的，采用基于边缘权重的弹簧嵌入模型，在Cytoscape（v3.7.0）中进行可视化。节点代表病毒序列，根据其来源进行着色（在网络上方的图例中显示），边的宽度表示基于共享同源蛋白质的病毒序列之间的连接数。仅显示与HGAVD病毒物种代表序列连接的来自不同来源的病毒序列（图1dI）。包含所有节点的网络在补充图5中显示。放大并标记包含HGAVD病毒物种的病毒聚类（VC）（图1dII）。节点用不同颜色表示相应病毒物种的宿主分类（物种级别）（在网络上方的图例中显示）。图1dIII和IV是包含在人类肠道中高普遍性的两个古菌病毒物种的网络的聚焦视图。正方形表示两个代表性基因组片段（IMG|UGV-GENOME-0271153和IMG|UGV-GENOME-0263128）。源数据提供为源数据文件。

为了进一步探索HGAVD病毒物种与RefSeq数据库（v201）中已知古菌病毒的同源程度，从而对这些病毒进行分类，我们构建了由vConTACT2生成的基因共享网络，其中病毒聚类（VC）近似于属级别分类。通过来自数据库RefSeq和1,279个古菌病毒物种的序列，本分析将735个HGAVD物种聚类为61个VC，391个病毒物种成为异常值（其中基因组片段被分配到VC，但与大多数聚类相比，共享的相似蛋白质更少），153个病毒物种成为单体序列（与任何其他序列都不聚类的序列）。仅有2个VC包括一个已知的参考病毒序列。这表明，来自人体肠道的大多数VC可能代表RefSeq中古菌病毒未知的病毒属（补充数据7）。此外，与以前的肠道病毒组研究20,25一致，大多数（68.4％）的HGAVD病毒物种无法被分类为任何已知的病毒目。少于一半的物种（n=404，31.6％）被特定地分类为Caudoviricetes类（n=389）（有尾病毒）、Cremevirales目（n=13）和Haloruvirales目（n=2）（图1c）。预测Cremevirales病毒感染M. intestinalis和Methanomassiliicoccus_A intestinalis，预测Haloruvirales病毒感染Haloferax massiliensis，而大多数（305/389=78.4％）的Caudoviricetes物种与Methanobrevibacter_A smithii宿主有连接。

我们进一步将HGAVD病毒与公共可用的病毒集合进行了比较（详见方法）（图1d；补充数据8和补充图5）。首先，我们将HGAVD物种与来自UHGG18的1162个肠道古菌基因组中的557个（50-100％完整性）衍生的85个非冗余嵌合体进行了比对，结果发现56.5％（n=723）的1279个物种与这些嵌合体共享>95％的同源性。MGV（Metagenomic Gut Virus）目录是最新的人类肠道病毒数据库，包含广泛的病毒基因组多样性，特别是其中有102个被分配给古菌病毒。vConTACT2网络分析将HGAVD病毒聚类为68个VC，而102个MGV古菌病毒序列聚类为15个VC，37个来自UHGG中古菌基因组的嵌合体仅聚类为9个VC，反映了HGAVD在属级别上代表肠道古菌病毒分类的更大多样性。我们发现，大多数HGAVD病毒物种（n=1097；86％）未与其他病毒集合中的任何病毒基因组聚类（图1d），而大多数37个古菌嵌合体（78.4％）和MGV古菌病毒序列（83.3％）与HGAVD病毒聚类在一起，表明HGAVD可以代表其他肠道病毒集合中的大部分古菌病毒。综上所述，HGAVD显著扩展了人类肠道中以前未知的古菌病毒多样性。

我们通过元转录组读取招募（补充数据9）估计了人类肠道样本中HGAVD病毒物种的丰度，并相应地进行了主坐标分析（PCoA）。男女性别（ANOSIM，r=0.002，p=0.306）或根据BMI分布（ANOSIM，r=0.011，p=0.201）在人类肠道古菌病毒组成方面没有显著差异（补充图6）。然而，当分析按国家分层时，我们观察到这些古菌病毒的多样性在不同地点的样本中是有差异的。特别是，坦桑尼亚和中国、美国和英国的人群之间的古菌病毒群落分别显示出显著差异（ANOSIM，R>0.7，p<0.001；图2a和补充数据10）。

a 基于从HGAVD病毒丰度矩阵计算的Bray-Curtis距离矩阵的人类肠道样本的PCoA。每个点的颜色根据国家而变化。R值通过双向相似性分析（ANOSIM）获得。b HGAVD病毒的高盛行度（盛行度>10％）的全球分布。c IMG|UGV-GENOME-0271153和IMG|UGV-GENOME-0263128的基因组图。基因根据其在NCBI nr数据库中的最佳BLASTx匹配而着色。红色，与宿主Methanobrevibacter_A smithii的同源基因；黄色，与其他古菌病毒的同源基因；绿色，与其他古菌物种的同源基因；蓝色，没有显著的匹配结果；黑色，基于HMM分析与其他病毒的同源基因。具有预测功能的基因被标记。d smacovirus的全球分布。源数据作为源数据文件提供。

基于读取比对确定的丰度，我们进一步调查了这些病毒在人类群体中的盛行度。结果表明，7个古菌病毒物种在人类群体中的盛行度>10％。这些病毒属于7个不同的VC（图2b和补充数据7）。这7个病毒物种都被预测能感染Methanobrevibacter_A smithii，并且在亚洲、欧洲和美洲人群中的盛行度高于非洲人群。此外，712个古菌病毒物种在1％的人类群体中盛行。值得注意的是，一个可疑的中等质量病毒基因组（40.51 kbp，CheckV23）IMG|UGV-GENOME-0271153在人类群体中具有最高的盛行度（72.16％），被预测能感染Methanobrevibacter_A smithii。这个病毒基因组编码了46个基因，其中8个被预测为Caudoviricetes物种的功能蛋白质（图2c和补充数据11a）。此外，与此病毒在同一VC中的所有病毒序列（长度为23-55 kbp）都具有Methanobrevibacter_A smithii作为宿主（图1d），分别来自英国、瑞典、奥地利、美国、中国、西班牙和马达加斯加的样本，进一步表明了这种病毒在全球人口中的广泛分布。尤其是另一个高盛行度的Caudoviricetes病毒（10.7％）IMG|UGV-GENOME-0263128编码了51个基因，比IMG|UGV-GENOME-0271153更常在非洲人群中检测到（图2b）。IMG|UGV-GENOME-0263128所在的VC中的病毒序列大小从19 kbp到56 kbp，被预测能感染Methanobrevibacter_A smithii和Methanobrevibacter_A smithii_A（图1d）。这两种高盛行度病毒可能是温和的，因为病毒基因组（IMG|UGV-GENOME-0263128）或同一VC中其他病毒的基因组（IMG|UGV-GENOME-0271153）上检测到了整合酶基因（图2c和补充数据11b）。

值得一提的是，在HGAVD中鉴定了13种smacovirus物种，并被聚类成3个VC，长度从2.0到2.5 kbp不等，反映了这些小型病毒在人类肠道中的多样性。属于Cremevirales目的smacovirus具有小的环状单链DNA基因组，并已在各种动物（包括粪便和直肠拭子）的粪便样本中鉴定出。这些HGAVD smacovirus被7个来自UHGG中古菌基因组的spacer靶向，预测能感染Methanomassiliicoccus intestinalis或Methanomassiliicoccus_A intestinalis。与亚洲和美洲队列相比，smacovirus在非洲和欧洲人群中的盛行度更高（图2d）。

感染Methanobrevibacter_A smithii的病毒是人类肠道中古菌病毒组的主要成分

为了准确研究多样的病毒-宿主相互作用，我们特别筛选了UHGG中古菌基因组中存在的CRISPR spacer，以靶向HGAVD病毒序列。正如预期的那样，大多数（n = 1217; 95.2％）与Methanobrevibacteria_A属相连的病毒物种是优势的人类肠道古菌组中的一部分（图3a）。然后，我们通过确定每个古菌属的VC数量来衡量病毒多样性，揭示了Methanobrevibacter_A属具有显著高于其他古菌属的病毒多样性（图3b），分配给该属的有51个VC。在这51个VC中，有47个VC特定于Methanobrevibacter_A smithii，只有17个VC特定于Methanobrevibacter_A smithii_A，而13个VC与这两个古菌物种都有关联，反映了古菌病毒可以跨物种感染其宿主。为了详细展示这一点，我们通过将HGAVD病毒与来自UHGG古菌基因组的CRISPR spacer匹配来构建宿主-病毒网络，表明约三分之一的HGAVD病毒物种具有广泛的宿主范围（图3c）。即，434种病毒物种具有跨越2个古菌物种的宿主范围（Methanobrevibacter_A smithii和Methanobrevibacter_A smithii_A），而12种病毒物种具有跨越3个古菌物种的宿主范围（Methanobrevibacter_A smithii、Methanobrevibacter_A smithii_A和Methanobrevibacter_A woesei）。这些分析提供了人类肠道微生物组中古菌病毒介导的基因流网络的全面蓝图。

a 每个古菌宿主属的HGAVD病毒物种数量。b 每个宿主属的病毒群集（VC）数量。c 显示HGAVD病毒及其宿主之间连接的网络。宿主的分配是通过CRISPR spacer匹配完成的。仅包括来自UHGG古菌基因组的spacer。表示病毒的点为棕色，表示这些病毒的宿主的三角形为粉色、黄色或紫色。仅显示链接到2个和3个古菌物种的病毒所代表的连接分别为紫色和橙色。d HGAVD古菌病毒LST蛋白的系统发育树。周期I：在LST蛋白上检测到的Pfam域；周期II：HGAVD病毒所属的病毒群集（VC）；周期III：病毒宿主。树中标有I、II、III、IV枝的分支。红色分支是参考病毒的LST（GenBank编号为NC_002628、NC_021328、NC_021327、NC_021322、NC_004084、NC_001902）。源数据作为源数据文件提供。

为了进一步展示有尾古菌病毒的多样性，我们使用Pfam数据库从HGAVD古菌病毒序列和相关的参考古菌病毒（RefSeq数据库，v201）中搜索大亚单位端酶（LST）（Caudoviricetes病毒的标记基因），共得到85个LST，属于至少10个VC，以及6个来自6个参考古菌病毒基因组的同源物。这些HGAVD LST使用5个不同的Pfam域进行检测。大多数（68/85 = 80%）的LST编码来自感染Methanobrevibacter_A smithii物种的HGAVD病毒，其中33个属于Terminase_6（PF03237）域，31个属于Terminase_3（PF04466），3个属于Terminase_6C（PF17289），1个属于Terminase_1（PF03354）。对这些LST的系统发育分析（图3d）显示了4个感染Methanobrevibacter_A smithii物种的大肠道古菌病毒群，其中Clade I和II没有参考病毒，可以定义为包括最多HGAVD古菌病毒的新的分类群。Clade III和IV有参考病毒，分别属于Caudoviricetes类中的Druskaviridae和Leisingerviridae家族。总之，LST的系统发育扩展了感染Methanobrevibacter_A smithii的古菌病毒的多样性，并暗示了人类肠道中新的古菌病毒分类学。

古菌病毒基因组编码广泛的功能潜力

人类肠道古菌的功能潜力已经得到广泛研究6。HGAVD使我们能够探索人类肠道中古菌病毒组的功能潜力。为此，我们在这1279个病毒物种的代表序列上鉴定了97,208个编码蛋白质的基因。总体而言，40%（n = 39,268）的病毒基因在Pfam（v32）数据库中没有显著匹配（截止值：e-value <1e-5，得分> 50），也没有分配到任何生物学功能。仅有10.8%和17.4%的基因在pVOG27和PHROG28中有命中结果，表明人类肠道古菌病毒的功能潜力仍然知之甚少（图4a和补充图7）。

a 古菌病毒编码蛋白质的功能注释。b 22个基因33在病毒上的分布（y轴）。填充的圆圈表示已注释的同源物（红色：蓝色比例代表Caudoviricetes：未分配病毒比例），而白色圆圈表示未鉴定同源物。c 6个VC（provir | Feng_Q_2015_NC_ERR688567.NODE_108_91642_1，provir | Feng_Q_2015_NC_ERR688611.NODE_45_142494_1，GPD | uvig_418233，IMG | UGV-GENOME-0318983，IMG | UGV-GENOME-0327529，HMP.763678604.contig63623_40452）的代表性完整Caudoviricetes基因组的遗传图谱。箭头描绘了预测蛋白质在病毒基因组上的位置和方向，填充的颜色表示不同的基因功能类别，如图例所示。注释基于针对Pfam数据库的搜索，仅显示显著结果（e-value <1e-5）。VC的名称以粗体斜体棕色文本表示。棕色阴影连接在蛋白质水平显示序列相似性的基因，序列同一性的百分比用不同的灰度显示（参见右侧的刻度）。详细信息也可以在补充图13中看到。源数据在源数据文件中提供。c 6个VC的代表性完整Caudoviricetes基因组的遗传图谱。我们已在图例中进行了更正。

感染Methanobrevibacter_A smithii的病毒包含最多的功能多样性，与Pfam数据库中1,034种不同类型的有尾病毒特异性蛋白同源，如前头蛋白、底板J、门蛋白、尾纤维和大亚单位端酶等（仅考虑分配生物学功能的蛋白质），而其他古菌病毒缺少其中一些基因（图4b和补充数据12）。例如，除了感染Methanobrevibacter_A smithii的病毒外，其余病毒没有注释溶解相关功能的蛋白质。特别是，在Methanobrevibacter_A smithii和Methanobrevibacter_A woesei的病毒基因组中观察到编码HNH内切酶的基因。该蛋白质在包装过程中可能将DNA切割成基因组长度单位，并可能与它们的大亚单位端酶和门蛋白一起发挥作用。

HGAVD中36个古菌病毒物种的代表性序列被CheckV23测量为完整基因组。它们被聚类到7个不同的VC中，并被分类为Caudoviricetes（n = 33，6个VC）和Cremevirales（n = 3，1个VC）。对这些Caudoviricetes类病毒的全基因组分析（补充数据13）得出了有趣的发现，即编码同源于伪麻黏素内异肽酶（PeiW）的蛋白质的基因在许多病毒基因组中经常出现（n = 23）。原型PeiW在古菌噬菌体psiM100中发现，作为热嗜甲烷古菌Methanothermobacter wolfeii产生的自溶酶，用于切割古菌甲烷菌的伪麻黏素细胞壁小囊30。PeiW的系统发育分析表明，除了M. wolfeii的病毒外，其他古菌病毒也是peiW的携带者，如Methanobrevibacter_A smithii和Methanobrevibacter olleyae的病毒（补充图8）。当将此分析扩展到所有HGAVD病毒时，150个病毒编码PeiW基因（补充图9），表明该基因对于感染甲烷古菌的古菌病毒至关重要。

在对这些完整的Caudoviricetes病毒基因组的分析中，33个基因组中的29个编码噬菌体整合酶蛋白质的基因。然而，只有9个基因组被预测为原噬菌体，而其他20个基因组没有被CheckV23检测到与宿主DNA相邻。特别是，我们观察到感染Methanobrevibacter_A smithii或M. olleyae的10个基因组编码属于抗毒素MazE超家族的蛋白质。在温和病毒上的毒素-抗毒素系统起到成瘾系统的作用，防止宿主将自身从原噬菌体中治愈31。因此，在HGAVD古菌病毒中存在MazE抗毒素蛋白可能突显了肠道古菌与其病毒之间的军备竞赛。此外，根据这些病毒基因组中检测到的MazE抗毒素蛋白序列进行系统发育分析。系统发育树显示（补充图10）预测感染Methanobrevibacter_A smithii和M. olleyae的病毒分别分为不同的支系。我们对完整HGAVD序列中每个VC所选的代表性序列进行了比较基因组分析（图4c），结果显示它们在基因组序列上有所不同，并且大多数编码为假设蛋白质的基因。此外，CheckV确定只有9个基因组被预测为原噬菌体，其他20个基因组没有被宿主DNA包围，这意味着在本研究中检测到的大多数古菌病毒可能正在进行溶解复制周期。总的来说，对这些完整的HGAVD病毒基因组的分析表明，温和型古菌病毒在人类肠道中占主导地位，类似于人类肠道细菌噬菌体。

讨论

在本研究中，利用宏基因组测序数据，我们对全球收集的人类肠道宏基因组进行了人类相关古菌病毒的全面分析，结果表明古菌病毒在人类肠道生态系统中广泛存在。这项研究基于Metagenomic sequencing datasets所得到的结果能够很好地补充之前的1167个非冗余古菌基因组的研究。根据无法培养病毒基因组的最小信息（MIUViG）标准，我们报道了与病毒起源、基因组质量、功能注释、分类、地理分布和宿主预测相关的古菌病毒。我们还估计了这些HGAVD病毒在人类肠道噬菌体中的平均比例约为0.50%（补充数据14）。据估算，约有1.2%的厌氧菌是与人类相关的古菌。虽然在人类肠道中微生物与病毒的比例约为1：1-10，但我们对HGAVD病毒在人类肠道噬菌体中所占比例的估计表明，相当大比例的古菌病毒仍未得到探究。

迄今为止，与细菌噬菌体相比，来自人类肠道的古菌病毒基因组较少。在GVD数据库中，预测有24个病毒种群（相当于本研究中的物种）是古菌病毒；与肠道古菌相关的研究报告了94个源自古菌基因组的原噬菌体6。这些大规模的肠道病毒收集是使用几种流行的生物信息学工具进行的，例如VirSorter36 v1.0.3，VirFinder37 v1.1等。在本研究中，基于CRISPR spacer的方法已经被广泛应用于各种研究中，可用于链接病毒和宿主基因组，并对先前未知的古菌病毒进行更好的识别。特别是，对先前的研究的分析表明，超过90%的古菌基因组与50%的人类肠道细菌基因组相比，都携带有CRISPR系统13。在本研究中，我们在53%的人类肠道古菌基因组（包括MAGs）和80%的分离人类肠道古菌基因组中识别到了CRISPR位点。我们的严格工作流程显示出了对多样化肠道病毒的基因组片段进行高灵敏度的能力。这一点在检测人类肠道微生物组中数量较少的2.5 kbp的smacoviruses时尤为明显。特别地，我们没有使用PlasForest40检测到质粒标记，而且在HGAVD病毒序列中，有两个序列同时编码转座酶基因和病毒标记。

虽然一些非病毒性的移动元件，如转座子和质粒，也可以与spacer完全匹配，但这些序列在我们的工作流程中大多被排除在外，并未包括在HGAVD数据库中（图1a）。总共有847个与spacer匹配的序列未检测到编码与病毒特征基因同源的基因，其中有2个被识别为质粒序列，这表明这些序列很可能来自于转座子或质粒。尽管如此，一些被排除的与spacer匹配的序列也可能代表了尚未确定的病毒家族的其他成员。由于缺乏知识，这些新颖的病毒无法通过宏基因组方法进行识别，必须通过建立基于培养的方法来确定。分离的古菌病毒反过来可以改进用于鉴定古菌病毒的生物信息学方法，以恢复更多的新型古菌病毒。

总之，在本研究中，我们对人类肠道中的古菌和古菌病毒进行了全面的宏基因组数据挖掘。结果揭示了人类肠道中古菌和古菌病毒的多样性。人类肠道中尚未探索的古菌病毒和HGAVD中的新型病毒物种的重要多样性可以填补该领域的空白，作为人类肠道古菌病毒的扩展。我们的数据，结合细菌和细菌噬菌体数据，将为人类肠道噬菌体提供一种补充视角，从而帮助我们更好地理解人类肠道生态系统。

编者小结-研究亮点

1. 从人肠道细菌的视角转到古菌上

2. 建立了HGASDB数据库，使得鉴定噬菌体的宿主来源（细菌还是古菌）有了清晰的标准。

主要分析套路

1. 利用宿主上的spacer序列，和噬菌体形成噬菌体-宿主的关联

2. 利用vConTACT进行病毒聚类、比较和分类注释

3. 通过HMMER3对病毒viral HMM数据库进行了匹配形成注释，从而计算已知功能注释的比例

附：方法：

收集本研究的宏基因组测序数据集

在这里，我们收集和整理了12个人类微生物组宏基因组数据集，包括来自13个国家的1904个个体的3971个人类微生物组样本（补充数据1，截至2021年1月已公开）。人类肠道微生物组的测序读取和相关元数据是从它们各自的托管数据库（例如SRA、iVirus或MG-RAST）中获得的。使用SPAdes v3.10.0软件进行元件组装，在五个不同的人体部位（包括胃肠道、口腔、呼吸道、皮肤和阴道）的组装contig序列则直接从HMP数据门户网站（https://portal.hmpdacc.org/）42下载。所有的测序数据均从在线存储库或原始出版物中提供的链接中下载。在本研究中，未包含任何需要额外伦理委员会批准或授权才能访问的研究。

宏基因组测序数据集中古生物基因组重叠群的检测

使用Prodigal v2.6.3 (-p meta选项)在组装的contig序列上预测基因。将所得的蛋白质序列使用DIAMOND（选项：-e-value 1e-3 -min-score 50）与Genome Taxonomy Database R95 (GTDB, R95)进行比对。根据GTDB分类系统，每个蛋白质的分类学归属基于数据库中每个分类级别（门、目、科、属和种）的最佳匹配结果。随后，根据以下标准46筛选出古菌contig：(i)具有源自古菌基因组的命中蛋白质数量 >

具有源自细菌基因组的命中蛋白质数量；和(ii)具有来自古菌基因组的命中蛋白质的数量 ≥。使用这种聚类策略，最终获得了2948个长度 >的非冗余古菌基因组片段。

建立古菌基因组的系统发育树

为了将这些古菌contig序列与已知来自人类肠道的古菌基因组进行比较，这17,830个古菌contig序列使用BLASTn（e值≤10-5，覆盖率≥0.5）映射到来自UHGG18的1162种肠道古菌基因组的物种水平。UHGG包含286,997个来自人类肠道的细菌和古菌基因组，代表4644个物种，这些基因组使用GTDB-tk v.0.3.1（GTDB R89）进行分类注释。使用基于Genome Taxonomy Database R202（GTDB，http://gtdb.ecogenomic.org）分类法的GTDB-Tk v0.3.349对这些基因组进行分类。使用CheckM50 v1.0.11和“lineage_wf”工作流程评估基因组的质量。结果还使用GTDB-Tk生成的122个古菌标记基因的串联物进行基于最大似然的系统发育树推断。使用RAxML v851构建了古菌树，方法如下：raxmlHPCHYBRID -f a -n result -s ge input -c 25 -N 100 -p 12345 -m ROTCATLG -x 12345，Newick树输出文件使用iTOL v652进行可视化（https://itol.embl.de/）。

建立人类肠道相关的古菌spacer数据库（HGASDB）

CRISPR spacer序列来自两个数据库：(i)检测到的来自肠道微生物组的17,830个古菌contig，(ii)UHGG目录中的1162个物种级别的古菌基因组。使用CRISPR Recognition Tool v1.1（CRT）53预测spacer序列，并使用默认参数。总共预测出来自1162个UHGG古菌基因组和17,830个肠道古菌contig的19,055个和6,553个CRISPR spacer序列，使用CD-HIT（参数：-c=1，-aS=1，-aL=1，-g=1）去除冗余的spacer序列，最终得到13,021个非冗余的CRISPR spacer序列。

收集古菌病毒基因组的参考数据库

我们从三个来源收集了202个古菌病毒基因组的数据库作为参考：

(1) 截至2020年12月，NCBI RefSeq中提供的97个参考古菌病毒基因组。

(2) Iranzo等人提供的102个古菌病毒基因组。与(i)中的基因组相比，删除了59个重复的基因组。此外，Iranzo等人将16个基因组标记为“Proviruses”。然而，这些provirus序列未由作者提供，因此我们使用VirSorter36从这16个基因组中预测provirus。通过这种方法，从14个基因组中提取了14个provirus。综合起来，我们从这个来源得到了41个古菌病毒基因组。

(3) 为了补充古菌病毒数据集，我们包括了Methanobacterium病毒Drs355的基因组，从东太平洋氧最小区域的两个深度剖面中鉴定出来的43个新的潜在古菌病毒基因组，GVD7检测到的24个未知的古菌病毒群体，以及发现感染古菌的8个smacovirus的基因组。

总的来说，最终的古菌病毒数据库包括202个古菌病毒基因组或片段。

选择古菌病毒标志基因

首先，我们使用Prodigal v2.6.3（默认参数）从202个古菌病毒基因组中预测基因，并获得了由这些基因编码的21,985个蛋白质。随后，使用HMMER3中的hmmsearch命令（e值截断设置为1e-5）针对Pfam.v.32数据库，包括JGI Earth的virome项目21的病毒蛋白质家族（VPF）和包含大量病毒的正交群（VOG）（版本202，http://vogdb.org）的自定义全面病毒HMM数据库，对蛋白质进行了功能注释。然后，古菌病毒标志基因数据库由以下四个部分组成（附录图4）：

(1) 基于Pfam数据库中的注释独特的古菌病毒蛋白质

(一) 我们收集了UHGG目录中35个古菌分离株的基因组，并在Pfam数据库中对基因组中编码的每个蛋白质进行了注释。我们选择了Pfam同源基因仅出现在202个古菌病毒基因组中的蛋白质（n = 1523）作为标志基因。

(二) 如果古菌病毒基因组和35个分离的古菌基因组中任何一个蛋白质在Pfam数据库中被标注为门户、终止酶、刺、外壳、鞘、尾、包膜、微粒、溶菌素、洞、基板、溶菌酶、头、纤维、须、颈、溶解、卷尺或结构，则将这些（n = 164）添加到古菌病毒标志基因的集合中。

(2) 为了包括古菌基因组中的provirus，我们使用CheckV23 v0.6.0从UHGG中预测了来自35个分离的古菌基因组的11个provirus，然后将从provirus预测的249个蛋白质添加到古菌病毒标志基因的集合中。

(3) 选择与VOG数据库成员最佳匹配的5907个古菌病毒蛋白质。选择了与VPF数据库成员最佳匹配的3368个古菌病毒蛋白质。在将这四个来源的蛋白质合并和去重之后，总共选择了8485个蛋白质作为古菌病毒的标志基因。

开发古菌病毒检测工作流程

为了对人类肠道中的古菌病毒进行全面搜索，从两个来源获得了用于检测古菌病毒的序列：（1）上述宏基因组测序数据的组装连读；（2）从已发布的病毒数据库（如图1a所示）中鉴定出的病毒基因组，包括从地球病毒组中获得的125,842个部分DNA病毒基因组（以下简称“EVP”），来自人类肠道病毒组数据库（HGV）的57,721个病毒连读4，来自古菌和细菌未培养病毒数据库（以下简称“GL-UVAB”）的195,698个病毒连读，从GVD7中获得的33,243个病毒序列，来自GPD20的142,809个非冗余噬菌体基因组以及来自IMG/VR v319的2,332,702个病毒基因组。为了从这些数据中鉴定古菌病毒序列，我们开发了以下病毒检测工作流程：

（1）使用blast+软件包v.2.2.31中的blastn工具（e-value < 1e-5）对所有组装后的宏基因组连读进行HGASDB数据库搜索，将匹配到空格序列的16,234个连读分配为古菌病毒候选I。使用CD-HIT v4.6对这些连读进行去重，参数为“-aS 0.85 -c 0.95”。多篇文献7,34表明该聚类策略会得到更好的结果，因此该策略导致在古菌病毒候选I中出现2238个病毒物种（每个病毒物种由最长的连读代表）。

（2）使用blastn工具（最小相似度50%，最小查询覆盖率80%，最大e-value为10-5）将古菌病毒候选I的序列查询到UHGG集合中的16,234个分离细菌基因组中，以去除潜在的细菌基因组污染。因此，从候选I中过滤掉了10个连读，留下了2228个病毒物种，形成古菌病毒候选II。

（3）使用blastn工具（最小相似度50%，最小查询覆盖率100%，最大e-value为10-5）将古菌病毒候选II的序列查询到UHGG集合中的35个分离古菌基因组中，以去除潜在的古菌基因组污染。因此，从候选II中删除了102个连读，留下了2126个病毒物种，形成古菌病毒候选III。

（4）使用DIAMOND将从候选III中得到的蛋白质序列与古菌病毒标志基因的蛋白质序列进行比较。选择任何具有最大e-value为10-5的最佳匹配的连读。最终，1279个病毒物种被保留为人类肠道古菌组病毒数据库（HGAVD）。

（5）对于这些病毒物种，使用CheckV来检测原噬菌体边界、去除宿主衍生序列的污染，并确定完整性。这个最新开发的工具将每个序列分类为五个质量层之一：完整的、高质量（>90%完整性）、中等质量（50-90%完整性）、低质量（0-50%完整性）或未确定的质量（没有可用的完整性估计），从而将12%的序列分类为完整的基因组（3%）和高质量的基因组（9%）（图1b和补充数据6）。此外，我们还应用了VirSorter（类别1-6）36、VirFinder（得分≥<）、VirSorter2 v2.2.3（类别1-6）和DeepVirFinder v1.0（得分≥<）等工具。

肠道古菌病毒的分类学分类

对于1279个古菌病毒物种的分类学分类，采用了两种互补的方法。首先，对于这些古菌病毒物种的1279个代表连读，使用Prodigal v2.6.3进行基因预测，采用-p meta选项。然后，使用vConTACT v.2.024将这些预测的基因与原核病毒Refseq v201进行聚类，使用默认参数（Refseq由vConTACT2内置数据库提供）。因此，我们利用病毒Refseq提供的分类信息对这些VC中的连读进行分类。例如，如果VC中的一个连读被分类为Caudoviricetes类，则这个VC中的其他连读也将被分配到Caudoviricetes类的病毒中。

其次，我们使用来自VOG数据库（http://vogdb.org）和eggNOG（v5.0）数据库62的分类信息概要文件来找出可能是Caudoviricetes病毒类的病毒。具体而言，我们首先挑选出包含关键词（门户、端粒酶、钉子、盖子、鞘、尾、基板、纤维和胶带测量）的注释的VOGs，并将它们命名为标志性VOGs。然后，使用hmmsearch v3.2.1和eggNOG-mapper v.2.0.063将来自古菌病毒连读的预测蛋白与VOG HMM概要文件和eggNOG数据库进行比较。在这个过程中，将最小分数和最大E值设置为40和1e-5。如果病毒连读编码的基因与具有上述关键词注释的Hallmark VOGs或eggNOGs具有命中，则将该连读分类为Caudoviricetes病毒类（图1c和补充数据6为Order/Class级别分类学分类）。

与其他肠道病毒数据库的病毒物种比较

根据以下数据库，对HGAVD和公开可用的肠道微生物组来源的病毒进行了比较：

(1) Metagenomic Gut Virus (MGV)目录，是最新的肠道病毒集合，包含189,680个病毒草案基因组。

(2) 从1162个肠道古菌基因组中检测到的原病毒。在UHGG的557个古菌基因组连读中，CheckV预测了118个原病毒，其质量分配为中等质量（50-90％完整性）和高质量（> 90％完整性）或完整。然后将这些原病毒在95％的相似性和80％的覆盖率下进行聚类，得到85个非冗余的病毒物种。我们进一步将这85个原病毒与HGAVD中的病毒进行聚类。

(3) vConTACT2提供的原核病毒Refseq（V201）数据库。

病毒和宿主的相对丰度估计

首先，我们使用Soap264 v2.21软件将所有的宏基因组测序数据映射到已识别的古菌连读和古菌病毒连读上，仅计算覆盖率大于30％的连读。其次，将与每个已识别的古菌基因组连读和古菌病毒连读对应的读数数量归一化为每个样品的总读数，归一化值因此表示样品中连读的相对丰度。

HGAVD病毒在人类肠道微生物组中的比例估计

为了探索人类肠道微生物组中古菌病毒的比例，我们使用Soap2软件将从1904个样品收集的原始读数映射到GVD数据库和HGAVD序列中的33218个非古菌病毒序列。这些病毒在每个样品中的丰度计算方法如“病毒和宿主的相对丰度估计”小节中所述。然后，我们分别对古菌病毒和细菌病毒的丰度进行求和，并计算每个样品中古菌病毒的相对丰度。通过取上述绘制的古菌病毒百分比的平均值来估计人类肠道微生物组中古菌病毒的平均比例（平均值为0.50％）。

统计分析

功能vegdist计算，使用APE包中的pcoa函数进行主坐标分析（PCoA），并使用VEGAN函数anosim进行相似性分析（ANOSIM），测试组之间的显著差异（p值）和分离程度（全局R）。全局R的取值范围为0到1，其中全局R = 0表示没有分离，全局R = 1表示完全分离。anosim的排列次数为999。

病毒宿主预测

通过在宿主和病毒连读中搜索CRISPR spacer序列来解决宿主-病毒相互作用。为了准确地研究具有广泛宿主范围的肠道古菌病毒，我们特别根据以下标准预测了UHGG数据库中的1,162个古菌基因组中的CRISPR spacer：（i）使用CRT53在长度大于10 kb的古菌基因组上识别CRISPR阵列；（ii）为了最小化虚假预测，我们删除了少于三个spacer的阵列；（iii）CRISPR spacer长度大于25 bp。将保留的CRISPR spacer与古菌病毒连读进行BLASTn比对，选择满足100%一致性阈值的匹配项（设置：-task blastn-short，-gapopen 10，-gapextend 2，-penalty 1，-word_size 7 -perc_identity 100）。

基因的系统发育树分析

为了构建大末端酶亚基、PeiW和MazE-抗毒素的系统发育树，使用MEGA X67中包含的MUSCLE算法66对氨基酸序列进行了对齐。使用IQ-TREE v1.6.1268进行最大似然系统发育树构建，并进行自动最佳模型选择。最终的共识树在iToL52中进行可视化和优化。

报告摘要

有关研究设计的进一步信息，请参阅与本文相关联的Nature Portfolio Reporting Summary。

数据可用性：

本研究生成的古菌病毒注释核苷酸序列（FASTA+GFF）、古菌病毒标志基因，以及伴随每个contig的起源、分类学信息（包括VC）、宿主预测信息、完整性评分的元数据文件，可在链接https://doi.org/10.6084/m9.figshare.21152404.v3 中获取。本研究使用的测序数据的访问码提供在补充数据1中。本文提供了源数据。

温馨说明

1、惠通生物病毒基因组测序项目组装结果准确，针对宏病毒组样本测序可以收取组织样本，并可以对样本进行前处理，并提供专业解决方案，助力文章发表。

　2、惠通生物服务电话：18926264030

欢迎关注物种分类及进化研究

　　深圳市惠通生物科技有限公司，成立于2016年，技术成员在生物信息方面均有八年以上分析经验，在小基因组项目（叶绿体、线粒体、病毒）上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位100余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾100篇，发表在《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《peerJ》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。

http://mp.weixin.qq.com/s?__biz=MzkyNDIwNzQyMg==&mid=2247484416&idx=1&sn=d34b65d223c695fbe746a95495d16f5c

物种分类及进化研究

《物种分类及进化研究》专注于物种分类及进化研究，主要研究技术为植物叶绿体基因组测序，植物线粒体基因测序，动物线粒体基因组测序，真菌线粒体基因组测序，真菌基因组测序。我们会定期通过网络，汇总物种分类及进化相关研究进展，解读相关研究论文。