编者的摘要总结
文章的特色:
1.发现了了大量的新VCFs(248个VCFs中的232个都是新的)
2.温和噬菌体和烈性噬菌体的比较(通过判定整合酶),发现烈性噬菌体相对更为丰富,而温带噬菌体更为普遍和多样。此外婴儿和成人的噬菌体分布模式不同,成人以烈性为主而婴儿温和噬菌体更多。
3.结合CRISPR标签,能对大部分噬菌体判定宿主(79%),并且发现无论是温和还是烈性,其丰度和宿主的丰度密切相关。
文章重点方法:
4.建立内部的CRISPR spacer库:使用CRISPRDetect(v2.2)从相同样本中的细菌MAGs中挖掘CRISPR spacer
5.使用MAG spacer与CRISPRopenDB和WIsH(v1.0)的spacer分别为每个vOTU生成单独的宿主预测。将三个预测合并,使用最接近的两个预测的最近共同祖先作为纠错策略。
6.判断是否温和型:首先筛选出与整合酶和大的丝氨酸重组酶蛋白家族匹配的VOG列表,然后用于预测病毒家族内的完整vOTUs是温和型还是毒性型。对于完整vOTUs超过95%不含整合酶的家族被认为是毒性的,而对于温和型家族,至少需要50%的完整和不完整vOTUs携带整合酶。
7.测序建库的流程,也是本文的一个重点,作者认为通过该方法能更好地重现病毒组应有的多样性和丰富度情况。
8.本文的病毒分类学注释,使用的是OTU聚类后数据库进行BLAT比对的方法,而非常用的vConTACT方法,不过两者原理类似。
摘要
肠道微生物群在婴幼儿时期被塑造,对免疫系统的成熟产生影响,从而保护身体免受慢性疾病的侵害。噬菌体,即感染细菌的病毒,通过裂解(lysis)和溶原性(lysogeny)来调节细菌的生长,溶原性在婴幼儿肠道中尤为显著。由于病毒组成基因组的方法复杂,且包含了未知的病毒多样性,缺乏标记基因和标准化的检测方法,因此病毒组学(viromes)分析困难。本研究系统性地分析了来自647名1岁婴儿的粪便病毒组,这些婴儿来自丹麦未经筛选的健康母婴对的2010年哮喘儿童哥本哈根前瞻性研究队列。通过组装和整理,我们发现了来自248个病毒家族(VFCs)的10,000个病毒物种。其中大多数(232个病毒家族)是以前未知的,属于Caudoviricetes病毒类。通过对相应儿童的细菌宏基因组数据中的聚集规律间隔短回文序列(CRISPR)片段进行分析,我们确定了79%的噬菌体的宿主。典型的感染Bacteroides的crAssphages数量不及感染Clostridiales和Bifidobacterium的未知噬菌体家族多。在病毒家族层面上,噬菌体的生命方式是保守的,其中33个是烈性噬菌体家族,118个是温和型噬菌体家族。烈性噬菌体更为丰富,而温和型噬菌体则更为普遍和多样化。本研究发现的病毒家族扩展了现有的噬菌体分类,并为未来的婴幼儿肠道病毒组学研究提供了资源。
背景介绍
本文介绍了肠道微生物群在婴儿生命最初的几年中对免疫系统发育的重要作用。虽然大部分研究集中在肠道微生物组的细菌成分上,但病毒也是肠道微生物组的重要成员。病毒可以通过感染细菌来改变肠道微生物组的组成和功能,同时也可能直接引起宿主的免疫反应。研究表明,从健康捐献者中输注肠道病毒内容物可以治疗复发性难辨梭菌感染,并预防早产儿坏死性肠炎等疾病。肠道噬菌体出现在生命的最初几个月,具有不同的感染方式和防御机制。尽管有几个肠道病毒数据库,但大规模的早期生命virome的研究仍然很少,主要由于其中大部分病毒未被发现,被称为“病毒黑暗物质”问题。近年来,在病毒分类学的标准化方面取得了一些进展,这对于研究肠道病毒组成和结构的影响非常重要。本文对647个1岁婴儿的粪便病毒组进行了特征化,发现婴儿肠道病毒组成和成人不同,以温和的噬菌体为主。
文章链接:https://www.nature.com/articles/s41564-023-01345-7
研究结果的概要总结
研究人群
COPSAC2010是一个基于人口的母婴队列研究,涵盖了丹麦700名来自哥本哈根周边地区的农村、郊区和城市的儿童(详见补充表1)。参与者在怀孕期间被招募,旨在前瞻性研究慢性炎症性疾病的原因。在1岁时,成功收集了647名儿童的粪便样本,并进行了病毒组学特征分析。肠道菌群组学数据是并行测序的。
鉴定病毒并确定其分类
本研究使用组装、聚类和手动校正的方法解决了细菌污染DNA和未知病毒多样性带来的问题。经过手动校正,建立了10,021个经过确认的病毒操作分类单元(vOTUs),并将它们与已知的参考噬菌体进行比较,最终确认了248个病毒家族群。其中,16个已知的家族包括2,497个病毒操作分类单元,232个未知的家族包括7,524个病毒操作分类单元。这些未知家族以提供粪样的婴儿的名字命名。此外,这些家族还被分成了17个病毒序列级别的群集,并估计了家族级别的典型完整基因组大小。最终发现56%的vOTUs是完整或近乎完整的,其中小单链DNA vOTUs的完整性为83%,大双链DNA vOTUs的完整性为46%。研究结果已通过交互式图表公开发布。
图1:婴儿肠道DNA病毒多样性图谱。
在1岁时,来自647名婴儿的粪便病毒组学样本进行了深度测序、组装和筛选,共鉴定出10,021个病毒物种,分属于248个VFCs。每个VFC的预测宿主范围均给出,并将VFCs分为17个VOCs。树状图显示了每个VOC中VFCs之间的相互关系,热图和直方图编码了它们的基因组大小、生活方式、宿主范围、丰度和在队列中的普遍性,以及在已发布的肠道病毒数据库中的情况。对于16个先前已知的病毒家族,名称以红色书写。可以在线访问交互式版本的图表,以扩展家族,浏览每个病毒的基因组内容并下载其基因组:http://copsac.com/earlyvir/f1y/fig1.svg。
婴儿肠道vOTUs很大程度上不存在于现有的肠道病毒数据库中
我们对三个成人肠道病毒数据库进行筛选,发现其中只有少部分婴儿肠道病毒被覆盖。虽然大部分病毒家族在这些数据库中都有代表,但大多数最丰富的病毒群体在这些数据库中都很少见,而在数据库中表现最好的病毒群体在婴儿肠道中往往很少。因此,这表明婴儿肠道是一个独特的生态位,具有与成人肠道不同的特殊病毒谱。这种差异可能是由于样本选择、生物信息学方法、婴儿肠道序列的有限多样性或肠道病毒在不同个体间的高度个体特异性等因素造成的。
未描述的病毒家族占据了婴儿肠道病毒组
我们对APS树在家族和目级别的切割结果,得到了248个病毒家族和17个病毒目。其中家族级别的切割结果包含了最近定义的crAssphage家族。232个家族是caudoviral病毒,强调了caudoviral的多样性。通过计算总物种丰富度、样本中的普遍性和平均相对丰度来确定最显著的病毒群体。这些度量值高度相关,意味着物种丰富的病毒群体也是最广泛和最丰富的。这种相关性符合中性理论模型的预测,该模型也适用于细菌群落结构。
图2:1岁婴儿肠道病毒群落的丰度、普遍性和丰富度。
已知的病毒群落用斜体表示。由于扩增偏差可能导致ssDNA的丰度被夸大,因此已用星号标记了ssDNA群落。a、17个VOCs在样本中的普遍性和MRA。b、248个VFCs的普遍性和MRA。主要的VFCs被定义为数据中最丰富的十个尾孢病毒VFCs,并进行了着色和标记。小的VFCs以及ssDNA家族显示为灰色。十个主要VFCs的预测生活方式用不同的形状表示。c、按照MRA排序并以物种丰富度为比例缩放的VOCs和VFCs。由于其较小的规模,VOC12和Rowavirales未显示。群落的普遍性、丰度和物种丰富度高度相关,并且在婴儿肠道中,数个先前未描述的群落比crAssphage更为丰富。
我们在数据中发现的多个已知病毒家族,其中包括脊椎动物感染的单链DNA病毒Anelloviridae和细菌单链DNA病毒Petitvirales,以及十个主要的双链DNA Caudoviricetes病毒群体。其中四个已知的病毒家族包括Skunaviridae、Salasmaviridae、β-crassviridae和Flandersviridae,而其余六个则是新的候选家族。此外,本文还发现了六个高度丰富、普遍和多样化的候选家族,它们在婴儿肠道生态系统中至少与成人肠道中的crAssphage一样占主导地位。这些候选家族包括“Sisseviridae”、“Amandaviridae”、“Jeppeviridae”、“Alberteviridae”、“Evaviridae”和“Hannahviridae”。这些候选家族中的许多病毒是未知的,并且与Clostridiales和Bacteroides等肠道细菌有关。
婴儿肠道中的ssDNA病毒类群
ssDNA vOTUs占用了约三分之一的测序读数,但在对其短基因组大小进行归一化后,它们占60%的MRA(扩展数据图3)。用于检测ssDNA病毒的短多位点扩增(sMDA)的流程可能会增加它们的计数51。然而,这些家族仍然显示出了沿着中性群落模型的典型定位(图2b和3f),因此我们推断任何人为膨胀都将是有限的。ssDNA家族分别属于三个不同的病毒纲,Malgrandeviricetes、CRESS病毒和Faserviricetes,每个纲都包含一个病毒目。
图3:婴儿肠道中温和与烈性病毒家族的比较。
a-e,以MRA(a)、普遍性(b)、通过唯一分支长度测量的遗传多样性(c)、与宏基因组CRISPR间隔匹配数(d)和宿主范围(宿主物种数量)(e)的方式,对数据中温和与烈性VFC的特征进行了比较。f,对图2b中的VFC进行中性群落模型的拟合。g,从对数转换的普遍性中得出中性群落模型残差。h,比较中性群落模型残差,显示温和VFC倾向于具有正残差,而烈性VFC倾向于具有负残差,这表明与烈性噬菌体相比,温和噬菌体的存在数量较少,尽管在更多的儿童中被发现。对于a-e和h,n = 151(118温和+ 33烈性)。箱形图元素:中心线,中位数;箱限,上下四分位数;须,1.5×IQR;点,异常值。报告双侧Wilcoxon检验P值。对于f和g,n = 248(118温和+ 33烈性+ 97未知)。
我们在婴儿肠道病毒组中发现的几种病毒家族的特征概括。Petitvirales病毒目下的Microviruses是最常见和丰富的病毒,占总相对丰度的52%。Anelloviruses是单链DNA病毒,属于CRESS类,占总相对丰度的7%。Inoviruses是一类小型单链DNA噬菌体,属于Tubulavirales病毒目,共发现了七个家族,占总相对丰度的1%。这些病毒家族在肠道中的寄主和分布情况不同,其中Microviruses和Anelloviruses在Clostridiales和Bacteroidales中寄主广泛,而Inoviruses中的Adamviridae家族似乎特异性感染双歧杆菌。
病毒的生命方式决定了其丰度和普及度
通过噬菌体的烈性和温和两种生活方式的比较,对228个病毒群体的基因组大小分析,发现大多数病毒群体缺乏整合酶,这是温和噬菌体的一个指标。通过筛选完整和近完整基因组的5608个病毒,发现有118个病毒群体是温和型,33个是烈性,其余的则表现出混合型或不确定型。研究发现,虽然病毒家族的烈性和温和型生活方式与其相对丰度没有显著关联,但温和型病毒在婴儿肠道中更为普遍。此外,温和噬菌体的基因多样性也更高,而烈性病毒更可能感染Bacteroidales。此外,研究还发现,烈性和温和型病毒的宿主范围和CRISPR间隔序列的靶向寡核苷酸数量相似。最后,研究通过中性社区模型发现,尽管烈性病毒在婴儿肠道中出现的频率较低,但其数量较多。
噬菌体和宿主的丰度与病毒生命方式无关
本文通过CRISPR间隔序列来预测病毒的宿主菌。通过分析来自元基因组组装物和CRISPR间隔序列数据库的间隔序列,预测了63%的vOTUs的宿主属,77%的vOTUs在宿主目层面上得到了覆盖,79%的vOTUs在宿主门层面上得到了覆盖。预测结果显示,Bacteroides是最常见的宿主属,其次是Faecalibacterium和Bifidobacterium。然而,在目层面上,大约一半的vOTUs的宿主属属于Clostridiales,而Bacteroidales仅覆盖了四分之一。这与婴儿肠道中细菌的分布模式相似,其中Bacteroides是最丰富的属,而Clostridiales则更为多样化。
图4:1岁婴儿肠道中的噬菌体及其细菌宿主。
对于在婴儿肠道噬菌体组中发现的10,021个vOTUs的细菌宿主进行预测,结果显示Bacteroides、Faecalibacterium和Bifidobacterium是最主要的宿主属。a、病毒宿主预测的分布按细菌目和属水平分别合并。括号中的数字分别表示具有给定宿主属或目的vOTUs数量。b、相同婴儿粪便样本中肠道宏基因组中发现的前100个肠道细菌属的分类树。蓝色热图显示每个细菌属的MRA,而棕色条形图显示婴儿肠道中宿主属的比例(即其普遍性)。外环显示每个细菌属对应的婴儿肠道vOTUs(黄色)相对于已知宿主的参考噬菌体物种(41个,深蓝色)的比例。每个属名称后面的数字表示每个细菌宿主属的vOTUs总数和参考噬菌体物种数。在b中,a中的16个主要宿主属前面用一个点表示。c、每个点表示b中的一个属,通过其在宏基因组中的MRA与其在噬菌体组中所有vOTUs的聚合MRA进行比较。通过Spearman等级检验(双侧P值)测试,宿主丰度与相应噬菌体丰度强烈相关。在新生儿肠道中,细菌的存在与噬菌体的存在呈现出强烈的正相关性。通过对细菌寄主的预测和病毒丰度的估计,研究发现宿主细菌的丰度与相应的噬菌体的丰度强烈相关。即使是对于溶菌型噬菌体,其与宿主的存在仍然呈现出正相关性。
讨论
最近几个大型和精心筛选的肠道病毒数据库的出版显示了人类肠道病毒群体的巨大多样性27,28,29。然而,这个生态位的重要部分仍未被表征。对肠道病毒的全面描述对于理解它们的作用至关重要,特别是如果旨在通过调节肠道菌群来预防和治疗慢性疾病。我们对647个婴儿肠道噬菌体进行了深度测序,并通过de novo组装和分类来映射未知的病毒多样性。这种方法揭示了248个病毒功能组(VFCs),其中232个以前是未知的,大多数属于Caudoviricetes病毒类。温和的噬菌体占据1岁婴儿肠道噬菌体的主导地位,而crAssphage被几个以前未描述的病毒类群所遮盖。这种对噬菌体组数据的全面分类解决方案允许进行与样本元数据相关的生物学上有意义的统计分析,有助于未来的转化噬菌体学研究。
我们系统地解决了未知病毒多样性(“暗物质”)的问题,使得仅剩下7%的噬菌体序列无法解释(Extended Data图3),在此过程中发现的VFCs代表了当前噬菌体分类的一个重大扩展。噬菌体生活方式的解析表明,尽管不太多样化的烈性噬菌体可能更为丰富,但婴儿肠道生态系统中的大多数噬菌体都是温和的。这呼应了最近有关新生儿肠道的发现12,该发现也以温和噬菌体为主导,并与成年人不同,成年人中烈性噬菌体占主导地位29。
除了描述的六个主要候选家族之外,还可以在线浏览许多其他主要的caudoviral VFCs(图1)。一般来说,感染Bacteroides的VFCs更常见于烈性噬菌体,且宿主特异性更高,而感染Clostridiales的VFCs具有更广泛的宿主范围,并且主要是温和的。多个VFC通常专门为一个宿主属服务,例如,七个钩菌属特异性VFCs(图1)。其他的则更加不可知,具有多个宿主属,例如,Clostidiales感染的“ Amandaviridae ”等VFCs。有些vOTUs甚至被预测为感染同一目中的多个细菌家族。这些特征突显了caudoviral从宿主间以及垂直在紧密的宿主生态位内获得的快速分化率。在人类肠道环境中,Bacteroides和Akkermansia等系统发育上不同的宿主可能存在更大的宿主转换障碍,使得它们的噬菌体家族更具有宿主特异性。这与Clostridiales属的情况相反,其中数十个属经常共存,鼓励宿主的灵活性。总体而言,我们发现caudoviral的丰富程度在物种和属级别上都超过了宿主的丰富程度(例如,在宏基因组中有2,858个caudoviral属,而只有203个宿主属)。
迄今为止,大多数病毒组织谱研究在测序之前使用MDA扩增提取的DNA,这可能会使序列组成偏向于ssDNA病毒60,61,并且在总体上影响定量分析。然而,最大的病毒组织谱研究的元分析29没有发现非MDA和标准2小时MDA肠道病毒组织谱之间的差异。此外,在最近使用不同DNA文库试剂盒进行肠道病毒组织谱研究的一项研究中,微型病毒在三分之一的样本中数量超过尾状病毒62,这种文库套件可以无偏差地检测到ssDNA。在本文中,我们使用了30分钟的sMDA步骤来实现ssDNA检测,同时限制偏差。我们发现相反的趋势; 在三分之二的婴儿中,微型病毒的数量超过了尾状病毒。但是,我们还展示了噬菌体和宿主之间的强烈共存关系。此外,我们进行了深入的比较,将形成克隆菌斑单位与组织谱丰度联系起来(Extended Data图9)。我们得出结论,尽管使用了sMDA,但我们关于病毒丰度的结果在定量方面是相关的,至少对于dsDNA病毒而言。
Skunaviridae是我们最丰富的caudoviral家族,在数据集中仅包含8个完整的vOTUs,这是不典型的,因为其他大多数丰富的病毒家族中有数百个vOTUs。所有属于该家族的参考噬菌体都感染Lactococcus,而我们的vOTUs被预测会感染链球菌,但这可能是由于Lactococcus缺乏CRISPR-Cas系统造成的人为因素63。虽然链球菌在儿童中非常普遍,但可能不足以支持高计数的烈性Skunaviridae。我们在数据中也没有发现Skunaviridae与链球菌或乳酸菌之间的强烈相关性。因此,仍有可能是这些严格的烈性噬菌体通过发酵乳制品被摄入,正如以前提出的那样64。
在以前对同一样品中分离的大肠杆菌噬菌体的研究中,烈性大肠杆菌噬菌体不那么普遍,但更为丰富,并且具有更广泛的宿主范围。在这里,我们在更广泛的尺度上发现了相同的模式。对于不同宿主的烈性噬菌体家族比温和噬菌体家族更丰富但更不普遍。虽然我们没有发现宿主范围的差异,但与烈性噬菌体相比,温和噬菌体家族在基因上更为多样化。温和噬菌体家族的更高普及率和更低丰度可能反映了频繁的预吸收,如小鼠模型中所示66,67,68,而诱导的噬菌体并不容易重新感染和繁殖。在病毒组织谱中,这将呈现为稳定的多样化温和噬菌体背景,上面随机的噬菌体-宿主相遇会导致烈性噬菌体的爆发。对于我们的婴儿样本,这种温和背景足够强烈,以至于掩盖了烈性噬菌体的多样性。可能在成人组织谱中,肠道菌群和宿主免疫系统已经稳定,细菌压力更小,相应地,温和病毒组织谱也不会那么显著。这个想法与烈性噬菌体核心与成人肠道健康相关69的联系以及婴儿组织谱中crAssphage的稀缺一致。
研究人群
COPSAC2010是一个基于人口的母婴队列研究,涵盖了丹麦700名来自哥本哈根周边地区的农村、郊区和城市的儿童(详见补充表1)。参与者在怀孕期间被招募,旨在前瞻性研究慢性炎症性疾病的原因。在1岁时,成功收集了647名儿童的粪便样本,并进行了病毒组学特征分析。肠道菌群组学数据是并行测序的。
鉴定病毒并确定其分类
众所周知,病毒组学提取物中含有各种数量的细菌污染DNA,而未知的病毒多样性使得很难区分新病毒和污染物。我们通过组装、聚类和连续多轮手动筛选(方法),避免了现有工具和标准(如“环状Contigs”)中可能存在的潜在选择偏差,这些偏差可能会阻止真正的新病毒类群的发现(详见补充信息和补充表2)。
简而言之,提取的病毒组学样本的平均测序深度为每个婴儿样本3 Gbp。在组装和物种级去重之后,通过蛋白质内容对操作性分类单元(OTUs)进行聚类(扩展数据图1),并进行可视化(扩展数据图2)和手动筛选。最终,经手动确认的10,021个病毒OTU(vOTUs)组成了研究的最终病毒物种集(详见补充信息和在线方法)。这些vOTU源于大约一半的总测序读数,其余一半主要映射到细菌污染DNA的序列簇(详见补充信息和扩展数据图3-5),这与其他研究的情况相似。这些污染物序列未被进行进一步分析。
为确定哪些vOTUs是现有病毒家族的一部分,我们将它们与7,705个物种级去重的参考噬菌体41合并。在识别基因之后,利用蛋白质比对定义病毒正交基因簇(VOGs),并构建一个聚合蛋白质相似性(APS)树。该树被根化并在Herelleviridae32噬菌体家族的最新分类水平上进行了划分,从而产生了对应于病毒家族(VFCs)、亚科和属的簇,涵盖了vOTUs和参考噬菌体。基于新提出的尾孢病毒Crassvirales目35提出了新的目层级的阈值。
在248个整理过的VFCs中,有10,021个物种级vOTUs,其中包括16个已知家族(图1),含有2,497个vOTUs和232个以前未描述的VFCs,共包含7524个vOTUs。这些未描述的VFCs以提供粪便样本的婴儿命名。这些VFCs还被进一步分为17个病毒目水平簇(VOCs,详见补充表3),其中有5个已知(图1)。在家族水平估计典型的完整基因组大小之后(图1),发现10,021个vOTUs中的56%是完整或接近完整的,具体来说,包括2,629个小单链DNA(ssDNA)vOTUs的83%和7,392个较大的双链DNA(dsDNA)vOTUs的46%。vOTU DNA序列和分类以及VFC的可视化(扩展数据图2)已通过交互式图1(http://copsac.com/earlyvir/f1y/fig1.svg)提供。
婴儿肠道vOTUs很大程度上不存在于肠道病毒数据库中
我们检查了我们筛选出的10,021个病毒物种是否出现在三个主要基于成人粪便宏基因组数据构建的肠道病毒数据库中。Gut Virome Database (GVD)29仅包含我们的819个vOTUs,而更大、更新的Gut Phage Database (GPD)28和Metagenomic Gut Virus catalogue (MGV)27分别涵盖了2,307个和2,171个vOTUs。总共,这里鉴定的7,046(70%)婴儿肠道vOTUs未在任何三个肠道病毒数据库中找到。然而,在家族水平上,大多数的248个VFCs在任何一个数据库中都有一些代表,其中Crassvirales VFCs在GPD和MGV中都特别丰富。重要的是,我们最物种丰富的VFCs(例如候选家族'Amandaviridae')在所有三个数据库中都很少见,而数据库覆盖最好的VFCs在我们的数据中通常很少(图1)。换句话说,数据库中大多数肠道噬菌体大群落只偶尔出现在婴儿肠道病毒组学中,反之亦然。这种模式表明,婴儿肠道是一个独特的生态位,有着与成人肠道不同的专门病毒。这种重叠缺失的替代解释可能是建库选择差异(我们使用富集病毒组学而别的研究是常规宏基因组学),生物信息学(人工筛选相比自动检测),有限的婴儿肠道序列多样性(使得完整组装稀有的噬菌体成为可能),或者肠道病毒组的本质就是非常特定于个体。
未描述的病毒家族占据了婴儿肠道病毒组
在家族32和目35级别上切割APS树得到248个VFCs和17个VOCs。家族级别的阈值重现了最近定义的crAssphage家族35(图1)。在家族水平上,248个VFC中有232个是caudoviral,进一步强调了它们的多样性。VFC的平均大小和中位数分别为40和17个物种级vOTUs,使得典型的VFC与目前已知的肠道噬菌体家族(例如Flandersviridae33)在物种丰富度上类似。为了确定最显著的病毒群落,计算了三个指标:总物种丰富度,样本的普遍性和平均相对丰度(MRA)(图2)。家族和目水平的MRA和普遍性估计是通过首先将样本读数映射到vOTUs,然后基于分类归属聚合它们的计数来确定的。这三个指标高度相关(图2和扩展数据图6),这意味着最多样化的VFCs和VOCs也是最广泛和最丰富的。这些指标之间的相关性是中性社区模型预测的,该模型也适用于细菌群落结构42,43。
在我们的数据中,感染脊椎动物的ssDNA类Anelloviridae和细菌ssDNA类微小病毒Petitvirales是最丰富的病毒群落之一(图2a和下一小节)。紧随其后的是十个属于尾孢病毒纲Caudoviricetes的主要双链DNA VFCs(图2b)。其中四个是待国际病毒分类委员会(ICTV)批准的caudoviral家族,即Skunaviridae、Salasmaviridae、β-crassviridae和Flandersviridae,而其余六个则包括新的候选家族。重要的是,Crassvirales在成年人粪便viromes44中很丰富,但在婴儿肠道中被其他VOCs超越(图2a)。
Skunaviridae是一类感染Lactococcus乳制品的烈性噬菌体家族45。可能源于饮食,它们属于我们数据中caudoviral里最丰富的家族(2.7% MRA)。Salasmaviridae是一个病毒家族,包含约十几种Bacillus噬菌体物种,包括噬菌体phi2946。在这里,我们能够通过覆盖超过20个病毒亚科的200多个不同的vOTUs,感染与肠道相关的厚壁菌门和放线菌门的多样化细菌,这些发现扩大了Salasmaviridae家族的范围。β-Crassviridae是成年人中不太重要的Crassvirales家族,但在近三分之一的婴儿(n=210; 647)中发现,预测感染Bacteroides和Clostridiales寄主。然而,成年人中最主要的Crassvirales家族α-Crassviridae35,47只出现在5%(n=39)的婴儿中。Flandersviridae是一种感染Bacteroides的噬菌体家族,其命名是最近根据来自公共宏基因组组装的30个完整噬菌体基因组33所得。它在近一半的儿童中发现(n=286),我们用涵盖四个亚科的80个完整的物种级vOTUs显著地扩展了该家族。
除了这四个已知的烈性病毒家族外,还发现了六个以前未描述的候选家族,它们非常丰富、普遍和多样化。这些候选家族的普遍性和丰富度估计表明它们在婴儿肠道生态系统中至少与成年人中的crAssphage一样普遍44。候选家族“Sisseviridae”在几乎所有婴儿(80%)中普遍存在,它包含高普遍性的感染Faecalibacterium的噬菌体Oengus48,并涵盖感染多样的厚壁菌门和放线菌门的温和和烈性vOTUs。温和的候选家族“Amandaviridae”、“Jeppeviridae”和“Alberteviridae”属于主要的VOC1,并有互有关联。这些候选家族在70%的婴儿中存在,每个家族包含200到300个病毒物种,感染如Ruminococcus、Blautia、Anaerostipes和Hungatella等厚壁菌门的属。除了一些未分类的感染Clostridium和Brevibacillus菌的参考噬菌体物种和这些家族有共同聚类外,这些广泛出现的噬菌体类群还没有被充分探索。最后,“Evaviridae”和“Hannahviridae”包括两个相关的候选家族,都是感染Bacteroides的噬菌体,总共包含约200个物种。前者似乎严格是烈性的,而后者则包含不同的亚科,既有烈性的也有温和的。其中“Hannahviridae”包括最近描述的Bacteroides噬菌体“Hankyphage”49,该家族以其多样性生成反转录元件而闻名,并且在同一样本集上平行进行的provirome研究中已被广泛描述50。
婴儿肠道中的ssDNA病毒类群
ssDNA vOTUs源于约三分之一的测序读数,但在对其短基因组大小进行归一化后,它们占60%的MRA(扩展数据图3)。用于检测ssDNA病毒的短多位点扩增(sMDA)协议可能会增加它们的计数51。然而,这些家族仍然显示出了沿着中性群落模型的典型定位(图2b和3f),因此我们推断任何人为膨胀都将是有限的。ssDNA家族分别属于三个不同的病毒纲,Malgrandeviricetes、CRESS病毒和Faserviricetes,每个纲都包含一个病毒目。
小病毒纲(Malgrandeviricetes纲)的微小病毒是无处不在的小型二十面体ssDNA噬菌体,是我们virome中最普遍和最丰富的病毒群体,占MRA的52%。来自宏基因组的21%CRISPR间隔匹配目标为微小病毒(http://copsac.com/earlyvir/f1y/taxtable.html),凸显了它们的重要性。我们的数据中来自两个主要家族Gokushoviridae和Alpaviridae(目前的亚科Gokushovirinae和Alpavirinae)的vOTUs分别预测感染Clostridiales和Bacteroidales,但也检测到其他次要的VFC(图1)。
CRESS ssDNA病毒类的Anelloviruses,也称为扭转Teno病毒,是由单个家族(Anelloviridae)组成的小型3kb ssDNA病毒,感染脊椎动物细胞。它们在健康人体中引起慢性无症状感染,免疫受损患者中的滴度升高52。不成熟的婴儿免疫反应可能解释了它们在我们的样本中的丰度(占MRA的7%)。它们是到目前为止最丰富的单一家族,共有970个物种级别的vOTUs。平均每个婴儿携带十种Anelloviridae物种,与早期研究一致13。不出所料,没有CRISPR间隔匹配任何Anelloviridae vOTUs。
管状噬菌体(Inoviruses)是Faserviricetes纲中一组普遍而多样的细丝状噬菌体,具有小型ssDNA基因组53。有些噬菌体使用整合酶(integrase)将自己整合到宿主基因组中,而其他噬菌体则引起慢性非致死性感染,导致持续脱落病毒颗粒15。虽然它们在我们的数据中是多样的,分布在七个家族中,类似于小病毒纲,但它们的物种丰富度较低,共计235个vOTUs,相应地占总MRA的1%。我们发现大多数管状噬菌体家族预测感染Clostridiales,尽管VFC“Adamviridae”的成员似乎专门感染双歧杆菌(图1)。
病毒的生活方式决定了其丰度和普及度
大多数十大caudoviral VFC缺乏整合酶,而这些酶在不常见的VFC中通常很常见。由于整合酶是温和噬菌体生活方式的指标,我们调查了烈性生活方式是否与更高的丰度相关联。首先,通过检查其成分vOTUs的大小分布,确定了228个VFC的典型完整基因组大小。VFC的中位数(四分位数(IQR))完整基因组大小为35kb(30-50kb)。使用每个病毒家族的确定的最小完整大小限制(图1),对具有完整和接近完整基因组的5,608个vOTUs进行了整合酶筛选(方法)。噬菌体生活方式在家族水平上大多是同质的,共有118个VFC被认为是温和噬菌体,而只有33个被发现是烈性噬菌体。其余97个VFC表现出混合生活方式模式或由于完整基因组数量不足而无法确定。
家族水平的丰度与噬菌体生活方式没有显著关联(双侧Wilcoxon检验,P = 0.90;图3a),但温和噬菌体VFC的普及度显著高于烈性噬菌体VFC(P = 0.048;图3b)。已经证明,温和噬菌体在遗传上比其烈性同类更为多样化54,因此我们比较了烈性和温和性家族级别APS子树中独特分支长度的数量(作为总分支长度的一部分)。确实,温和的caudoviral VFC比烈性VFC更具有遗传多样性(P = 0.021;图3c)。Clostridiales宿主在温和噬菌体VFC中特别丰富,而大多数烈性VFC预测感染Bacteroidales(图1)。根据我们的CRISPR间隔匹配和其他研究28,55的结果,一些vOTUs似乎感染多个细菌物种、属甚至科。我们检查了间隔匹配是否更多地针对烈性噬菌体,或者烈性生活方式是否与更广泛的宿主范围相关联。事实并非如此,因为温和和烈性家族展现出类似的平均宿主范围(P = 0.2;图3d)和定向间隔数量(P = 0.097;图3e)。
最后,将烈性和温和性VFC的丰度和普及度相互绘制(图3f),表明烈性VFC的滴度虽然在较少的儿童中发现,但却更高。我们使用中性社区模型(图3g)对此假设进行了系统测试,该模型描述了丰度和普及度之间的社区关系56。在对所有VFC丰度拟合模型后,烈性VFC的模型残差显著低于温和性VFC的模型残差(双侧Wilcoxon检验,P = 2.1×10−5;图3h),验证了它们既不普及又更丰富。
噬菌体和宿主的丰度与病毒生命方式无关
预测vOTUs的细菌宿主使用了来自我们的宏基因组组装基因组(MAGs)的317,968个CRISPR间隔序列,CRISPR间隔数据库57中的11,000,000个间隔序列以及使用WIsH58。这些预测通过它们的最后共同祖先合并。预测了63%的vOTUs的细菌宿主属,其中77%在属水平上被涵盖(图4a),79%在宿主门水平上被涵盖。Bacteroides是目前预测的最常见的宿主属,其次是Faecalibacterium和Bifidobacterium。然而,在目水平上,约一半的注释vOTUs具有Clostridiales作为宿主,而Bacteroidales仅覆盖了四分之一(图4a)。这反映了宏基因组中细菌分类群的相应模式,其中Bacteroides是最丰富的属,而Clostridiales更为多样化(图4b)。
宏基因组中细菌宿主属的MRA与噬菌体组中相应噬菌体的MRA强烈相关(Spearman's ρ = 0.76,P < 1.45 × 10^−17;图4c),支持宿主预测和病毒丰度估计的准确性。总体而言,在婴儿肠道中,无论是烈性的还是温和的噬菌体都与宿主的丰度呈正相关(Extended Data图7和8)。虽然烈性的噬菌体会溶解宿主,但在横向比较中,它们仍然作为宿主存在的正标记。
方法
COPSAC2010队列研究
本研究属于丹麦基于人群的COPSAC2010前瞻性母婴队列研究,共有736名妇女和其子女从怀孕24周开始随访,旨在研究慢性炎症性疾病的机制37(见补充表1)。本研究按照《赫尔辛基宣言》的指导原则进行,并获得了国家卫生研究伦理委员会(H-B-2008-093)和丹麦数据保护局(2015-41-3696)的批准。在入组前,双方父母都签署了书面知情同意书。在1岁时,对660名参与者进行了粪便样本收集。
病毒组织谱提取
每个样本与10%体积/体积的甘油混合,存储在−80°C,直到进行元基因组38和病毒组织谱提取的DNA提取。病毒颗粒富集的粪便过滤液中的DNA被提取,并经过短暂的(30分钟)MDA扩增,按照Illumina Nextera XT套件(FC-131-1096)制造商的程序制备文库。对于表层荧光病毒样粒子(VLP)估计,取10 µL病毒组织谱样本稀释100倍,固定并沉积在0.02 µm过滤器上,干燥并用SYBR-Gold染色(200×),然后使用475 nm激光通过表层荧光显微镜观察。在八到十个视野中计数VLP,并乘以剩余过滤器表面积。
测序、组装和去污染
使用Illumina HiSeq X平台对病毒组织谱文库进行测序,每个样本的平均深度为3 Gb,采用双端2×150 bp读长。647个样本获得了令人满意的测序结果,其中13个样本测序质量不符合标准。使用Fastq Quality Trimmer/Filter v0.0.14(选项-Q 33 -t 13 -l 32 -p 90 -q 13)对病毒组织谱读长进行质量过滤和修剪,并使用cutadapt(v2.0)去除残留的Illumina适配器。修剪后的读长使用VSEARCH71(v2.4.3)derep_prefix进行去冗余处理,然后使用Spades72(v3.10.1)进行组装,使用meta标志禁用读取错误修正。通过减少大小超过1 kb的1.5 M contigs的冗余性,使用先前发布的流程73将其去重为267k个90% ANI代表,然后使用Prodigal74(v2.6.3)识别基因,使用FASTA75(v36.3.6f)进行所有蛋白质对齐,使用自定义代码(https://github.com/shiraz-shah/VFCs)构建APS树76。树在接近根部处被切割,以获得去污染聚类。使用CRISPRDetect77(v2.2)从相同样本中的细菌MAGs中挖掘CRISPR spacer,将病毒组织谱去污染聚类按其CRISPR定位程度乘以样本普遍性进行排名。蛋白质对齐结果通过正交筛选78(https://github.com/shiraz-shah/VFCs)并使用Markov clustering79(v14-137)进行聚类,以获得VOGs的de novo。使用VOGs可视化每个去污染聚类中contigs的基因内容。对前400个排名的聚类进行目测检查,查找两个病毒标记,即contig大小和基因内容的保守性。超过前400个标记后,剩余的去污染聚类被认为是污染物。
OTU划分和蛋白质注释
使用BLAT80和自定义代码进行contigs的物种级别(95% ANI)去重处理,形成OTUs。使用相同策略将参考噬菌体去重到物种级别。类似地,将vOTUs与GVD、GPD和MGV进行比较。去污染的vOTUs和参考噬菌体物种41被汇总,重新计算APS树和VOGs。使用MUSCLE81 v3.8.425构建VOG的多序列比对(MSAs)。使用HH-suite3(ref. 86)v3.0-beta.3将VOG MSAs与Pfam82、保守域数据库83、蛋白质同源群聚类数据库84和TIGRFAMs85的MSAs进行比对,获得功能注释。
病毒分类的分辨率
首先,使用FigTree(v1.4.4)通过选择直接从树干上分支出的外类群来根据APS树进行根节点设置。接下来,使用phylotreelib和treetool(https://github.com/agormp/phylotreelib)按照以下步骤生成病毒属、亚科、VFC和VOC。首先,使用treetool的cladeinfo选项检索与现有噬菌体属、亚科、科和目32、35对应的分支点到根的距离。接下来,使用treetool.py的-clustcut选项将根据以上距离切割根据APS树,以获得对应于病毒属、亚科、科和目的vOTUs和参考噬菌体的分支。我们用于切割树的距离分别为0.250、0.125、0.04和0.025,分别对应于每个分类水平的平均氨基酸同源性(AAI)和覆盖度阈值为70%、50%、28%和22%。
VFC的筛选
上述病毒家族被可视化(扩展数据图2),以(1)进一步筛选每个单独成员vOTU,将具有结构VOG的可确认病毒与代表不含编码典型结构蛋白的各种病毒相关MGE的vOTU子类分开。(2)检查每个家族中的OTU长度分布,然后将其绘制在具有5 kb步长的直方图中,以定位最右侧的大小峰值。在此峰值之前的5 kb步长被设置为完整或接近完整基因组的下限大小。(3)检查家族可视化图以手动删除受参考噬菌体主导的家族,以避免干扰进行中的分类工作。还删除了由MGE或片段组成的弱家族,这些家族具有少于五个vOTUs或少于两个完整vOTUs。对于在线可用的家族可视化图的最终版本,VOG MSAs被重新对准到PHROGs87的MSAs,因为该数据库比Pfam、保守域数据库、蛋白质同源群聚类数据库和TIGRAMs更具信息性。
宿主预测
使用MAG spacer与CRISPRopenDB57和WIsH57(v1.0)的spacer分别为每个vOTU生成单独的宿主预测。将三个预测合并,使用最接近的两个预测的最近共同祖先作为纠错策略,因为三种方法偶尔会预测错误。从每个样本的读取中运行mOTUs88(v2),然后使用phyloseq89(v1.41.1)在R(v4.0.2)中汇总mOTU的属级别丰度,以推导出宏基因组中细菌属的丰度。
丰度估计
使用ViromeQC40(v1.0)以及自定义方法为每个病毒组成物样本估计了细菌污染:从两个分离物中映射读取到16S rRNA基因90和cpn60(参考文献91),并计算两个分离物之间的比率来计算污染程度。使用Burrows-Wheeler Aligner92(v0.7.17-r1188)将样本读取映射到样本contigs,选项为mem-a,然后使用msamtools(v0.9.6)profile确定深度和长度归一化的相对丰度,迭代重新分配模糊映射读取,比例为唯一映射读取(https://github.com/arumugamlab/msamtools)。然后使用自定义代码(https://github.com/shiraz-shah/VFCs)将获得的contig丰度聚合到OTU级别,以获得每个样本的vOTU丰度。使用phyloseq89(v1.41.1)和R(v4.0.2)将vOTU丰度在家族和目级别聚合,以获得用于图2和图3的统计数据。
噬菌体生活方式预测
首先筛选出与整合酶和大的丝氨酸重组酶蛋白家族匹配的VOG列表,然后用于预测病毒家族内的完整vOTUs是温和型还是毒性型。对于完整vOTUs超过95%不含整合酶的家族被认为是毒性的,而对于温和型家族,至少需要50%的完整和不完整vOTUs携带整合酶。
基准测试
用于基准测试的病毒发现工具的版本(补充表2)包括DeepVirFinder(v1.0),VIBRANT(v1.2.1),VIRSorter(1.0.6),VIRSorter2(v2.0 commit 22f6a7d),Seeker(commit 9ae1488),PPR-Meta(v1.1)和CheckV(v.0.7.0)。随机预测是通过在不重复的情况下随机抽样362,668个OTUs 12,500次来创建的。选择12,500是因为它与我们自己的阳性集合和大多数工具生成的阳性数量相当接近。
图形和统计分析
图1首先使用phyloseq89在家族级别汇总数据,然后使用Circos v0.69-8(参考文献93)进行呈现。图2-4,扩展数据图4-8和相应的统计分析是使用统计软件R和tidyverse套件生成的,包括ggplot2(参考文献94)和相关的附加包ggraph95,ggforce96,ggpubr97,ggrepel98,ggstance99和patchwork100。为了推导出唯一的分支长度(图4),我们使用caper包101中的pd.calc函数。使用MicEco R库(https://github.com/Russel88/MicEco)中的neutral.fit函数将家族级别的丰度拟合到中性群落模型中。
唯一生物材料的可用性
根据COPSAC2010队列的父母授权,请求访问婴儿粪便样本的第三方不是授权的一部分。这种访问也不符合保障未成年人研究参与者权利的丹麦或欧盟法规。但是,作为与COPSAC的科学合作协议的一部分,可能可以获得这些材料,有关此类查询可以发送至COPSAC数据保护官员Ulrik Ralkiaer,(administration@dbac.dk)。
报告摘要
有关研究设计的进一步信息可在与本文相关的Nature Portfolio报告摘要中获得。
数据可用性:
病毒基因组序列、分类和宿主预测以及所有病毒的VOG可通过http://copsac.com/earlyvir/f1y/fig1.svg的在线版本和FigShare存储库https://doi.org/10.6084/m9.figshare.21102805获得。包括非病毒序列聚类的基准数据也可通过上述链接以及http://copsac.com/earlyvir/f1y/benchmark.tsv获得。测序FASTQ文件可通过欧洲核苷酸数据库(ebi.ac.uk)使用项目编号PRJEB46943进行访问。参考噬菌体来自millardlab.org上的INPHARED数据库。参考细菌cpn60序列来自cpndb.ca。
代码可用性:
数据分析使用了在线方法中指定的免费开源软件进行,同时还使用了自定义代码,该代码可以在GitHub上获取(https://github.com/shiraz-shah/VFCs)。
个人总结:
该论文研究了婴儿肠道中的病毒多样性,并发现了多个新的病毒谱系。这篇论文的研究成果为了更好地理解肠道微生物组的结构和功能,以及人体健康与疾病之间的关系,提供了有价值的信息和启示。
该论文的研究意义:
1、拓展了对健康婴儿肠道中病毒多样性的了解。此前研究主要关注细菌的多样性,而病毒在肠道微生物组中的角色和功能一直不为人所熟知。该研究发现了多个新的病毒谱系,为了更全面地了解肠道微生物组的结构和功能提供了有价值的信息。
2、揭示了肠道病毒多样性与宿主健康之间的关系。研究发现,婴儿肠道中的病毒多样性与肠道菌群的多样性呈正相关关系,而肠道微生物组的多样性与宿主健康之间也有密切的联系。这一发现有助于更好地理解肠道微生物组与宿主健康之间的关系。
3、提供了新的方法体系用于研究肠道病毒多样性。
温馨说明
1、惠通生物病毒基因组测序项目组装结果准确,针对宏病毒组样本测序可以收取组织样本,并可以对样本进行前处理,并提供专业解决方案,助力文章发表。
2、惠通生物服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有八年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位100余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《peerJ》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。