2500份食品宏基因组数据揭示未被探索的微生物多样性及其与人类微生物组的联系
Unexplored microbial diversity from 2,500 food metagenomes and links with the human microbiome
Reserach, 2024-8-29, Cell, [IF 45.5]
DOI:https://doi.org/10.1016/j.cell.2024.07.039
原文链接:https://www.cell.com/cell/fulltext/S0092-8674(24)00833-X
第一作者:Niccolo` Carlino
通讯作者:Nicola Segata
主要单位:
意大利特伦托大学细胞、计算和综合生物学系(Department of Cellular, Computational and Integrative Biology, University of Trento, Trento, Italy)
- 摘要 -
复杂的微生物群落是我们所食用的食物的一部分,并影响着我们自身的微生物群落,但其多样性尚未得到充分探索。在这里,我们通过整合1950个新测序的和583个已公开的食品微生物组,创建了开放获取的精选食品宏基因组数据库(curatedFoodMetagenomicData,cFMD)资源。我们获得了10899个覆盖1036种原核生物和108种真核生物的物种水平的基因组箱(species-level genome Bins,SGBs)的宏基因组组装基因组(metagenome-assembled genomes,MAGs),其中包括320个以前未被描述的物种。食品物种水平基因组箱在食品类别之间和内部都显示出显著的微生物多样性。将cFMD扩展到超过20000个人类微生物组后发现,食品物种水平基因组箱在成人肠道微生物组中平均占比为3%。菌株水平的分析凸显了微生物从食物到肠道的传输和在肠道定植(例如,副干酪乳杆菌(Lacticaseibacillus paracasei))的潜在实例,以及在食物和人类中具有不同基因组结构的物种水平基因组箱(例如,没食子溶性链球菌(Streptococcus gallolyticus)和粘膜乳酸菌(Limosilactobacillus mucosae))。cFMD扩展了我们对食物微生物群落的认识,以及它们在塑造人类微生物组中的作用,并为未来使用宏基因组学来改善食品品质、安全性和品质认证提供了支持。
- 引言 -
微生物在食品科学的历史中扮演着基础性角色。人类一直面临着微生物食品中毒和腐败的风险,因此,为了确保食品安全、质量和产量,人们不断改进了保存技术(如烹饪、腌制和发酵等),使其达到当前的标准。对生的植物、奶制品和肉类的发酵是通过控制潜在有害细菌,改善食品的感官和保健特性,提高食物品质、多样性和安全性的一个动态过程。即使在不含潜在致病菌的情况下,食品中的微生物多样性也是不均匀的,从单一的微生物群落(如使用工业选育的起始菌种发酵的食品)到复杂的微生物群落。越来越多的人认识到,描述与食品相关的微生物群落以改善食品并了解其对人类健康的影响的重要性,但其微生物多样性还尚未得到探索。
在对食物来源的微生物组成进行定性分析的过程中,当体外培养与群体水平的分子分型相结合时,这一领域开始爆发,最初采用16S rRNA基因测序,目前采用鸟枪法宏基因组测序。虽然微生物培养以及该实现了高通量,鸟枪法宏基因组测序是唯一一种能够全面调查样本中微生物组成并通过重建其菌群基因组揭示其遗传潜力的方法。然而,宏基因组研究主要集中在单一食物类型且有限样本数的基础上,这阻碍了跨研究的整合分析,目前仅有的整合分析都是关于其他环境的,如人体肠道。
研究食物中的微生物含量对于了解其对人类健康的影响至关重要。微生物组在食物和健康之间的作用已经得到了广泛的研究,主要是通过考虑食物的无机成分来进行的。然而,最近描述的人与人之间的水平和垂直微生物传递可能并不是微生物多样性的唯一来源。早期的食品微生物研究成为人类微生物组成员促进了对不同食品类型和人群这一现象的深入研究。因此,有必要在群体尺度对食品和人体微生物在菌株水平上的微生物组的重叠情况进行深入调查。
在这里,我们提供了一个名为“精选食品宏基因组数据集”(curatedFoodMetagenomicData,cFMD)的开放资源,收集了与食物相关的微生物数据,以支持在食品科学中使用宏基因组学。当前版本包含2,533个食品品宏基因组,他们具有标准的样本信息,其中1,950个是在MASTER EU联盟内新测序的。我们从食物中获得了10,112个原核的和787个真核的宏基因组组装基因组,并将它们聚类为1,036个原核和108个真核物种簇,其中320个与超过1,000,000个现有的基因组进行比较后发现是未被描述的。我们将这些宏基因组组装基因组纳入我们灵敏的物种分类流程中,并将其应用于19,833个人类宏基因组,揭示了食品-人体之间微生物组在物种和菌株水平上的重叠。
- 结果 -
用于整合微生物组分析的2533个食物相关的宏基因组数据集
A compendium of 2,533 food-associated metagenomes for integrative microbiome analysis
为了更好地研究食物中的微生物群落,我们收集并对1950份食品微生物组(MASTER EU联盟)进行了宏基因组测序,并将其与583份公开可用的样本进行了整合(见图1A)。最终产生了从50个国家收集了59个数据集(附表1)的2,533个宏基因组(图1B)。来自于MASTER的样本将食品宏基因组的数量增加了334%,并显著增加了测序深度(MASTER样本的均值±标准差:6.7 Gb±6.3 Gb/样本,非MASTER样本的均值±标准差:3.0 Gb±5.8 Gb/样本;Wilcoxon秩和检验p<0.001)。通过应用先进的经验证的流程在所有的样品上获得的多水平宏基因组测序数据及其标准化的样本信息被收集在cFMD中。(图1A;STAR方法)。
图1 | 经过精心挑选的食品微生物组数据(cFMD)提供了超过2500个具有标准化元数据和处理过的食品微生物组数据
(A)流程的主要步骤包括:(i)MASTER EU联盟从食品来源收集和筛选公共数据,并对样本进行测序;(ii)元数据的整理和标准化;(iii)生成宏基因组组装基因组以及分类和功能特征;(iv)将食品与人类宏基因组集成;以及(v)发布公共数据库以供后续分析。
(B-D)我们扩大了可用样本的数量(B)遍及全球51个国家(C)横跨15种食品类别,涵盖了发酵食品(F)和非发酵食品(NF)(见附表1),以及(D)时间上的跨度。这样的资源被用于增加我们数据库中可用的宏基因组组装基因组和物种水平基因组箱的数量。
(E)流程中可用的物种水平基因组箱数量,以及在至少一个食品宏基因组中通过分类学分析检测到的物种水平基因组箱数量,按未知性水平分组(kSGB,已知的物种水平基因组箱;uSGB,未知的物种水平基因组箱;ufSGB,未知的食品特异性物种水平基因组箱)。
元数据(附表1)被组织成27个字段,涵盖样本、食品信息和技术信息(STAR方法;由附表1定义的句法规则)。根据样品的食品类型/底物、生产方法(发酵/非发酵)以及其他不同食品类型的特定特征(附表1),对样品进行了层次化的食品分类,从而产生了15个顶级类别(图1C)、107种类型和358个亚类。尽管大多数样品来自乳制品(n=1,650)、发酵饮料(n=422)和发酵肉类(n=133),我们也考虑了较少被描述的类别,如发酵种子、非发酵鱼类和非发酵肉类。
我们进行了标准化的样本预处理、分类学和功能群落分析以及单个物种的基因组重构(如图1A所示;STAR方法)。我们得到了27,123个宏基因组组装基因组,经过质量过滤后,产生了4,976个高质量(HQ)和5,136个中等质量(MQ)原核宏基因组组装基因组(附表2)。这些宏基因组组装基因组与超过100万个基因组序列(包括173,302个菌株基因组,以下简称“参考基因组”)整合在一起,并以95%的全基因组平均核苷酸相似性(ANI)为阈值,将它们分为1,036个物种水平基因组箱(SGBs;以下简称“食品SGBs”,因为它们至少包含一个来自食品的宏基因组组装基因组)。我们进一步用MetaPhlAn v4识别了每个物种水平基因组箱的特异性标记基因(如图1E所示),以便在宏基因组中对所有物种水平基因组箱进行特征分析,即使它们的丰度较低。我们还构建了392个高质量和395个中等质量的真核宏基因组组装基因组,并将它们分为108个真核食品物种水平基因组箱。生成的数据集是后续分析的基础,并将其扩展至19,833个在curatedMetagenomicData(cMD)中可获取的人类宏基因组,以建立食物和人类微生物组之间的联系(如图1A所示)。
扩大与食物相关的细菌物种的系统发育多样性
Broadening the phylogenetic diversity of food-associated bacterial species
10,112种原核宏基因组组装基因组被归类为1,036个属于13个不同门的物种水平基因组箱,我们对其进行了分析,以评估食品微生物的系统发育多样性(附表2;图2A)。来自四个门的六个微生物纲在扩大系统发育多样性方面发挥了主要作用,因为它们包含了92%的宏基因组组装基因组和78%的来自我们研究:放线菌门(Actinomycetia)(图S1A)、ɑ-、β-和ɣ-变形菌门(Proteobacteria)(图S1B)、黄杆菌门(Flavobacteria)(图S1C)和杆菌门(Bacilli)(图S1D)。后者属于门Bacillota(以前是厚壁菌门(Firmicutes)),该门包含了大多数食品宏基因组组装基因组(n=6,300,来自394个物种水平基因组箱);其中包括乳酸菌(LAB,尤其是Lactobacillales目;231个物种水平基因组箱中的5,577个宏基因组组装基因组),它们构成了两个重建最多的科:乳酸杆菌(Lactobacillaceae)(3447个宏基因组组装基因组)和肠杆菌(Streptococcaceae)(1805个宏基因组组装基因组)。20%的总食品宏基因组组装基因组(n=2,026,来自208个物种水平基因组箱,图S1A)与放线菌目(Actinomycetota)(以前是Actinobacteria)相关,尤其是Actynomicetia纲(150个物种水平基因组箱中的1,544个宏基因组组装基因组),包括属于双歧杆菌(Bifidobacterium)和丙酸杆菌属(Propionibacterium)等健康相关属的物种(10个物种水平基因组箱中的168个宏基因组组装基因组和2个物种水平基因组箱中的37个宏基因组组装基因组)。醋酸杆菌科(Acetobacteraceae)涵盖醋酸杆菌(AAB),是总体上重建的第三大菌科(来自61个物种水平基因组箱的523个宏基因组组装基因组),代表了假单胞菌类(Pseudomonadota,原为Proteobacteria;来自366个物种水平基因组箱的1,652个宏基因组组装基因组;图S1B)的大部分。只有来自45个物种水平基因组箱的93个宏基因组组装基因组被分配给通常与肠道相关的门类拟杆菌门(Bacteroidota)(原为Bacteroidetes;图S1C),门类黄杆菌纲(Flavobacteriia)(偶尔与食物腐败相关)由21个物种水平基因组箱构成。因此,cFMD提供了食品微生物的更广泛的遗传和微生物多样性,其中包括传统上与食品产品相关的较少的细菌科,我们接下来对其进行了深入研究。
图2 | 食物宏基因组中检测到的1,036个原核物种水平基因组箱的进化树
(A)包含从食物中重建的物种水平基因组箱并与人类宏基因组中普遍存在的3,962个原核物种水平基因组箱整合的进化树。每个叶节点代表一个物种水平基因组箱,颜色根据门分类。在食物中普遍存在的科被突出显示(a1-p5),相关类群的树形图见图S1:放线菌门(I);假单胞菌门(II);拟杆菌门(III);和芽孢杆菌门(IV)。
(B)每个在食品中检测到的物种水平基因组箱的食品宏基因组组装基因组数量。
(C)根据物种水平基因组箱未知程度分布的食品宏基因组组装基因组数量:已知物种水平基因组箱、未知物种水平基因组箱和未知食品特异性物种水平基因组箱。此外,分布图展示在图S2C-F中。
(D)物种水平基因组箱数量与食品-人类宏基因组组装基因组比的关系,该比值定义为特定物种水平基因组箱中食品宏基因组组装基因组数量与食品+人类宏基因组组装基因组数量的比值。
扩大与常见食品相关的细菌物种的基因多样性
Expanding the genomic diversity of typical food-associated bacterial species
一半以上的物种水平基因组箱(1036个中的535个)至少包含一个参考基因组,因此在物种水平上对其进行了分类(已知物种水平基因组箱或已知物种水平基因组箱 [kSGBs];图2B)。从已知物种水平基因组箱中提取的7,961个宏基因组组装基因组中(来自312个kSGBs;图S2E和S2F),有67%(5334个宏基因组组装基因组)是从奶制品中提取的,反映了65%的样本来自奶制品。从奶制品中重建的物种(图3A)包括:乳酸球菌(Lactococcus lactis)(672个宏基因组组装基因组)、嗜热链球菌(Streptococcus thermophilus)(448个)、副干酪乳杆菌(Lacticaseibacillus paracasei)(415个)、乳脂球菌(Lactococcus cremoris)(404个),乳杆菌(LABs)代表了15个最大物种水平基因组箱中的12个。在奶制品中常见的非乳杆菌(LAB)物种包括:表皮葡萄球菌(Staphlyococcus equorum)(171个宏基因组组装基因组;图S1D)、橙色短棒菌(Brevibacterium aurantiacum)(156个;图S1A)、干酪棒状杆菌(Corynebacterium casei)(89个;图S1A)、扩展短杆菌(Brevibacterium yomogidense)(68个)和黄曲杆菌(Flaviflexus ciconiae)(68个,此前仅从白鹳(Ciconia boyciana)中分离得到),其中许多通常存在于奶酪生产环境中。因此,大多数样本来自奶制品的事实反映在其在重建的已知的物种水平基因组箱中的较高的代表性上。
非乳制品样品产生了2651个宏基因组组装基因组和333个已知的物种水平基因组箱(占总已知的物种水平基因组箱的62%;图3C)。副干酪乳杆菌(L. paracasei)是非乳制品宏基因组组装基因组数量最多的菌种(238个),它们分布在六个类别中,占非乳制品样品的27%。植物乳杆菌(Lactiplantibacillus plantarum)是益生菌商业产品中最大的物种水平基因组箱(50%;7个宏基因组组装基因组),在发酵谷物(24%;19个)和发酵水果和蔬菜(18%;6个)中也较大。在发酵食品中,其他常见的物种水平基因组箱包括在发酵种子中占77%的枯草杆菌(Bacillus subtilis),在发酵块茎和根中占46%的发酵粘液乳杆菌(Limosilactobacillus fermentum),在发酵豆类中占44%的魏斯氏菌(Weissella confusa),在发酵肉类中占31%的沙克乳杆菌(Latilactobacillus sakei),以及在酒精饮料中占19%的塔特姆菌(Tatumella ptyseos)。一般来说,非发酵类(如鱼、水果和蔬菜、肉类和其他)没有产生最常见的重组物种水平基因组箱(图3C和3D),但显示出特定类别的物种水平基因组箱,如与腐败有关的热杀索丝菌(Brochothrix thermosphacta)在肉类中(40%)。然而,在乳制品类别中被视为非发酵食品类型的生乳(附表1)却是个例外,因为从例如肠膜明串珠菌(L. mesenteroides)(3个宏基因组组装基因组)、乳酸球菌(L. lactis)(3个)、嗜热链球菌(S. thermophilus)(2个)和乳脂球菌(L. cremoris)(1个)中都提取到了一些宏基因组组装基因组。生乳含有丰富的乳酸菌,这些乳酸菌通常存在于发酵产品中,但由于它们在未发酵的底物中的含量较低,因此从中提取到宏基因组组装基因组并非特例。
我们的数据库还扩展了对一些未充分研究物种的基因组学分析,例如,30个最大的已知的物种水平基因组箱中有18个包含少于10个参考基因组,例如发酵乳杆菌(Lactobacillus kefiranofaciens)(74个宏基因组组装基因组)、乳酸链球菌(Lactococcus laudensis)(59个)、乳酸链球菌(Lactococcus raffinolactis)(51个)和豆乳杆菌(Lentilactobacillus otakiensis)(48个)。这同样适用于非乳制品中的常见物种水平基因组箱,如酒醋杆菌(Liquorilactobacillus satsumensis)(200个宏基因组组装基因组;6个最大的物种水平基因组箱之一)、酒醋杆菌(Liquorilactobacillus nagelii)(119个宏基因组组装基因组;13个最大的物种水平基因组箱之一)(图3D)和醋酸杆菌(Acetobacter orientalis)(89个宏基因组组装基因组,主要来自水和奶酪,图S1B)。值得注意的是,酿酒酵母(Zymomonas mobilis)(115个宏基因组组装基因组)是少数已知的能够进行乙醇发酵的细菌之一,主要从水发酵乳中组装获得,并被分到三个已知物种水平基因组箱中,即GTDB中对应的Z. mobilis(SGB19526)、Z. pomaceae(SGB19527)和Z. mobilis_B(SGB77042)(见图3D和图S1B)。
图3 | 原核宏基因组组装基因组在食物类别中的分布
(A-C)对于已知的物种水平基因组箱(至少有一个参考基因组的物种水平基因组箱)和(B-D)对于未知的物种水平基因组箱(仅由宏基因组组装基因组组成的物种水平基因组箱)来自(A和B)奶制品和(C和D)非奶制品来源的前十个物种水平基因组箱。在每个面板中,物种水平基因组箱根据食物宏基因组组装基因组的数量进行排序。报告了总体和每个15个类别的食物宏基因组组装基因组数量,以及在我们的MetaRefSGB存储库中和从其他来源检索的宏基因组组装基因组数量。对于未知的食品特异性物种水平基因组箱的相同表示见图S2。
总的来说,对于在食品宏基因组中发现的具有代表性的细菌物种,我们与宏基因组组装基因组的整合提供了更为丰富的菌株多样性,从而使我们能够进行更高分辨率的研究。
一半的食品微生物代表着未被培养和研究过的物种
Half of food microbes represent uncultured, unexplored species
我们接着研究了另一半不含任何参考基因组的食品物种水平基因组箱(共501个,占1036个物种水平基因组箱的一半),因此被认为是未知物种水平基因组箱。当将这些未知的物种水平基因组箱添加到已知的物种水平基因组箱系统发育树中时,其总多样性显著增加,增加了95%(图2A)。这些未知的物种水平基因组箱包含2127个食品宏基因组组装基因组(占总数的21%;图2B和2C),其中46%甚至在属级上无法归类(与最近的参考基因组的相似性低于85%)。
这种未被分类的物种分布广泛,因为它们在所有食物类别(除了14个非发酵鱼样本外)和59种食物类型(图S2E和S2F)中均有被发现。令人惊讶的是,在食品微生物组研究中最受关注的乳制品中发现的物种水平基因组箱中有49%缺乏任何参考基因组(图S2E),而在发酵饮料(42%)和发酵种子(45%)中也获得了类似的百分比。因此,根据每份样本中未知的物种水平基因组箱与重建的已知物种水平基因组箱的比例,了解最少的食物类型分别是墨西哥龙舌兰酒(5份样本的中位比率为5)、非洲棕榈酒(6份样本的中位比率为2)和韩国鳐鱼(5份样本的中位比率为1)(图S2A和S2B)。甚至更多被食用的食物类型也具有不可忽视的未知的物种水平基因组箱含量,例如加工后的蔬菜(6份样本的中位比率为0.63)、预加工蔬菜(6份样本的中位比率为0.6)、咖啡(6份样本的中位比率为0.5)和泡菜(9份样本的中位比率为0.5)。乳制品中的奶酪汁是含有物种水平基因组箱比例最高的食物类型(53份样本)。而像奶酪(1,043)、开菲尔水(284)和未发酵(生)牛奶(n=110)等大型发酵食品也呈现出类似的分布。总的来说,这些结果强调了在食品开发和生产中,几乎在所有测试的食品类型中都存在一个盲点,即微生物特性的识别,这需要进一步研究。
在考虑这些未知的物种水平基因组箱的分类结构时,放线菌门(Actinomycetota)拥有最多的宏基因组组装基因组(图S2C和S2D):来自131个未知的物种水平基因组箱包含927个宏基因组组装基因组,包括20个最普遍的未知的物种水平基因组箱中的12个。这些普遍的未知的物种水平基因组箱主要属于短杆菌属(Brevibacterium)、加里科属(Garicola)和鲁尼亚属(Ruania),以及仅包含未知的物种水平基因组箱的一些属(来自奶制品、发酵饮料和发酵肉类;图3)。杆菌门(Bacillota)包含来自175个未知的物种水平基因组箱的710个宏基因组组装基因组(来自乳酸杆菌目(Lactobacillales)的65个未知的物种水平基因组箱;附表2),涵盖了所有类别:主要来自奶制品(占总宏基因组组装基因组的63%),尽管发酵鱼(平均6.2个杆菌门宏基因组组装基因组/样本)、发酵种子(1.2)和发酵块茎和根(0.8)是最具代表性的类别,当标准化样本大小时。假单胞菌门(Pseudomonadota)显示出相似的数量(407个宏基因组组装基因组来自150个未知的物种水平基因组箱),并存在于十个类别中,尤其是从奶酪和奶酪汁(244个宏基因组组装基因组)。从水发酵乳(19个宏基因组组装基因组)和奶酪发酵乳(38个)重建的宏基因组组装基因组使醋酸菌属(Acetobacter)的11个未知的物种水平基因组箱(总共67个宏基因组组装基因组)得以扩展,这表明这些食物类型中存在许多尚未被描述的醋酸菌属细菌(AABs)。
总的来说,SGB66234是最常见的未知的物种水平基因组箱(92个宏基因组组装基因组,在分类上属于科里氏菌科;图3B和S1A),在来自7个国家的10种欧洲奶酪中被检测到,而在人类和动物的宏基因组中未被发现。此外,SGB69136(81个宏基因组组装基因组,在分类上属于微杆菌科)是奶酪特异性的(来自8种奶酪和6个国家),经常从相同的样本中检出(与SGB66234在69个奥地利奶酪样本中共同检出),同样未出现在人类和动物的宏基因组中。其他非奶酪特异性未知的物种水平基因组箱包括来自乳酸杆菌SGB69403(来自奶酪和水发酵乳的83个宏基因组组装基因组)以及乳杆菌SGB69401(80个MAGs)和乳杆菌SGB69402(76个MAGs),它们在乳制品中被发现,并且偶尔在尼日利亚的发酵谷物和发酵块茎和根中被发现。
持续检测尚未分离鉴定的与食品微生物群相关的微生物物种,凸显了其复杂性,并凸显了开展有针对性的基于培养的调查以利用具有潜在技术意义的物种和菌株的必要性。
超过一半的未知食物物种在其他环境中未被发现
More than half of unknown food species are not detected in other environments
我们接下来专注于那些仅在食品来源中检测到,且在其他环境中的超过100万个宏基因组组装基因组(主要来自人类、动物、土壤、水和植物;见图2D、3和S2)中没有匹配的未知的物种水平基因组箱。我们称它们为未知食品特异性物种水平基因组箱,它们代表了未来研究中最未被深入研究的与食物相关的物种。超过一半的uSGBs(n=290;58%)被标记为未知的物种水平基因组箱,它们由来自327个样本的534个宏基因组组装基因组组成(图2B),主要与杆菌门(Bacillota)(121个未知食品特异性的物种水平基因组箱)、假单胞菌门(Pseudomonadota)(88个)、放线菌门(Actinomycetota)(53个)和拟杆菌门(Bacteroidota)(16个)相关(图S2C)。这些未知的物种水平基因组箱涵盖了所有类别,尤其是在调整样本大小后,平均每个样本来自发酵鱼(5.8个宏基因组组装基因组)、水果和蔬菜(1.3)以及发酵种子(1.2)。它们源自43种物质,主要来自奶酪(74个未知食品特异性的物种水平基因组箱)、奶酪汁(45个)、水发酵乳(34个)、后处理蔬菜(19个)和鳐鱼(18个)。
重建最多的未知食品特异性的物种水平基因组箱是uFSBG98380(图S2G),它包含来自多种水发酵乳的24个宏基因组组装基因组。它属于一个单系子树,其中包括从水发酵乳中重建的其他三个未知食品特异性的物种水平基因组箱(即uFSBG98379、uFSBG98381、和uFSBG98382;图S1A),并且在系统发育上接近双歧杆菌科。此外,uFSBG96887(15个宏基因组组装基因组,归类于乳球菌属)经常从意大利南部的多种奶制品(如生奶、奶酪卤水、乳清和奶酪制品)中检出。此外,ufSGB99143包含15个宏基因组组装基因组,来自奥地利阿尔卑斯山奶酪,属于海杆菌属(Marinobacter),由嗜盐细菌组成。
总的来说,未知食品特异性的物种水平基因组箱只存在于特定的类别(总未知食品特异性的物种水平基因组箱的98%)和类型(93%)中,尽管有6个被检测到存在于两个类别中(附表2):来自乳制品和发酵饮料的ufSGB92515(Hafnia,哈夫尼亚属;图S2G);来自乳制品和发酵饮料的ufSGB94441(Lactiplantibacillus,乳植杆菌属);来自发酵水果和蔬菜以及发酵肉类的ufSGB94442(Lactiplantibacillus,乳植杆菌属);来自发酵种子和发酵块茎/根的ufSGB96932(Atopostipes,陌生柱状杆菌属);来自乳制品和发酵水果和蔬菜的ufSGB94707(Oceanospirillaceae,大洋螺菌科);以及来自酒精和发酵块茎/根的ufSGB96974(Bacillota,厚壁菌门)。
在食品中发现的独特且未被分类的微生物比例很高,这为未来的研究提供了机会,旨在对这些物种及其对相应食品特性的贡献进行表征。
不同的食物种类具有独特的微生物数量特征
Food categories have distinctive quantitative microbial traits
到目前为止,我们的研究结果依赖于一种基于组装的策略来生成宏基因组组装基因组。我们进一步通过MetaPhlAn 4进行了更灵敏和定量的分类学分析,其数据库扩展到了包含本工作中定义的物种水平基因组箱(STAR方法)。在覆盖率为0.1×的情况下,可以全面检测到29,969个物种水平基因组箱(图1E;附表2)。其中,至少在一个食品微生物组中鉴定出了3,622个物种水平基因组箱。
同一样本内的α多样性在不同的宏基因组和食物类别之间差异很大(均值±标准差:丰富度25±30,香农指数1.2±0.7)。非发酵鱼的香农指数最高(中位数=2.3,图4A和S3G),其次是发酵的块茎和根(2.1),肉类(2.0),发酵的种子(2.0),发酵的豆类(1.9),水果和蔬菜(1.8),估计的丰富度(图S3A和S3H)与之大致平行。当比较非发酵与发酵食物类别(即肉类与发酵肉类,鱼类与发酵鱼类,水果和蔬菜与发酵水果和蔬菜)时,非发酵食物显示出更高的微生物多样性(图4A),反映了发酵过程的选择压力。在最大的食物类别——奶制品中(平均值±标准差:香农指数1.0±0.7,丰富度24±27;图4A和S3A),观察到了较大的变异性,α多样性指标与食物类型相关(图S3D)。在奶制品中,发现在奶酪汁(中位香农指数=1.3,丰富度=38)、沃拉(香农指数=1.4,丰富度=17)和奶酪(香农指数=0.9和丰富度=21)中发现了最高的多样性;对于后者,未成熟的样品的多样性略低于最终产品,非发酵(生)奶中也发现了类似的值。未知物种构成了基本成分:1173个样本(48%)至少含有一个未知的物种水平基因组箱或未知食品特异性的物种水平基因组箱。我们进一步计算了未知的物种水平基因组箱与已知的物种水平基因组箱的比值(图S3E和S3F),24%(605个)的样本比值大于0.1。与组装结果一致,pulque(一种墨西哥传统发酵饮料)和发酵茶(例如康普茶和普洱茶)是携带未知成分比例较高的类型。对于奶制品,奶酪汁是最不典型的,未成熟的奶酪比最终产品更具代表性(图S3F)。
图4 | 分类学分析可对食品微生物组进行灵敏性特征分析
(A和B)在按15个类别对食品微生物组进行分类时,在(A)阿尔法(香农指数;图S3A中的丰富度)和(B)贝塔(使用Bray-Curtis距离进行t分布随机邻域嵌入[t-SNE]维度归约)多样性方面存在差异。
(C)基于距离相关冗余分析的受限排序的排列检验:基于布拉德福德-柯蒂斯相似度的每个变量的个体(左侧条形图)和累积(右侧条形图)贡献。
(D)来自分类学资料的相对丰度,包括25种在食品中最常见的物种水平基因组箱,以及有关食品类别和原产地大陆的信息。
(E)每个食品类别中最具代表性的物种水平基因组箱及其在各食品类别中的流行程度。数字代表各食品类别之间的统计学显著差异。其他在各食品类别中差异显著的未知的物种水平基因组箱报告在图S4B中,针对未知的物种水平基因组箱的相同表示则显示在图S4C中。
(F)每对食品类别的物种水平基因组箱富集分数(见STAR方法)。分数大于0表示行类别中富集了更多的物种水平基因组箱。
(I)使用ANOSIM统计方法来评估Bray-Curtis距离上的类别之间的差异。热力图根据R统计值进行着色。
β多样性分布受食物类别(permutational multivariate分析的方差)的影响(PERMANOVA R2=0.15,p<1e-3;图4B和S3C),不同类别之间的比较均在统计学上有显著差异(图S3I)。不出所料,起始原料是主要的区分因素,因为它携带着原料微生物群落,并与其他影响最终微生物组成的特征(如营养含量和pH)共享。这由β多样性贡献的变量(图4C)得到确认,总累积调整后的R2为52%,主要由食物亚型(单变量调整后的R2 =42%)、数据集名称(29%)、食物类型(23%)和国家(17%)解释。将数据集名称识别为协变量可能意味着不同数据集之间存在技术偏差,但更有可能是不同研究覆盖了不同的特定类别和类型所造成的影响。对于奶制品,成熟前和成熟后的奶酪在排序图中重叠,而与未发酵(生)牛奶和奶酪汁相关的是更明显的簇群。
我们还利用基于机器学习的预测模型(STAR方法)评估了根据分类学特征预测样品类别的可预测性。对于一对一的类别比较,ROC曲线下的面积(AUC)始终接近1(平均值±标准差=0.97±0.06,中位数=0.99,附表3)。当比较更相似的食物时,准确性仍然很高;在乳制品中,样品类型被预测的AUC为0.97±0.05(附表3)。即使在最细粒度的食物分类级别上,也获得了类似的可预测性水平,并且23种商业奶酪类型被区分开来,AUC为0.97±0.04(附表3;STAR方法)。这些结果为基于微生物组的质量控制策略在食品系统中的应用开辟了有趣的视角,支持未来在食品追朔和认证中应用宏基因组学。
高频出现的物种决定了食品类别中的子群体划分
Highly prevalent species determine subgrouping within food categories
仅考虑25种最常见的物种水平基因组箱时(如图4D所示),也可以明显看出按照食物类别对样本进行聚类的情况。与地理因素(包括大陆和国家层面)也存在一定程度的关联,但这主要是由于类别/类型与地理来源之间的相关性所致,不应被解释为具有普遍适用性的概念。
我们进一步在特定类别中识别出子群。例如,乳制品被分为多个子群(图4D;附表2):最大的子群由乳酸乳杆菌(L. lactis)和乳酸乳球菌(L. cremoris)主导,它们倾向于共同出现(例如,在荷兰型和蓝奶酪中);另一个子群的特点是嗜热链球菌(S. thermophilus)的高发生率与副干酪乳杆菌(L. paracasei)(例如,在Fontina奶酪中)或瑞士乳杆菌(Lactobacillus helveticus)与德氏乳杆菌(L. delbrueckii)(例如,在mozzarella奶酪中)的共同出现。发酵剂乳酸杆菌(L. kefiranofaciens)和高加索酸奶乳杆菌(Lentilactobacillus kefiri)在酸奶中共同出现,而水发酵乳定义了一个由副干酪乳酸杆菌(L. paracasei)、萨库马乳酸杆菌(L. satsumensis)(在其他类型中未检测到)和希尔加德豆芽孢杆菌(Lentilactobacillus hilgardii)主导的紧密子群。其他发酵饮料类型(例如,康普茶、咖啡和普洱茶)则更紧密地与酒精饮料样本聚集在一起。
这25种最常见的物种水平基因组箱中还包括两种真核生物——酿酒酵母(Saccharomyces cerevisiae)和汉逊酵母群1(Debaryomyces hansenii group 1),这凸显了在探索食品微生物群落多样性时,真菌(尤其是酵母)的重要性。
食物特异性微生物标志物包括已知和未知的多种微生物物种
Food-specific microbial signatures encompass known and unknown species
我们通过评估差异表达的物种水平基因组箱并计算特异性值(即一对一显著比较的数量,图4E和S4B;附表3;STAR方法)来确定特定类别的微生物特征。具体来看,例如,清酒广布乳杆菌(L. sakei)(通常在成熟、陈化和发酵过程中出现)、葡萄球菌(S. equorum)和弯曲乳杆菌(Latilactobacillus curvatus)等菌株被用来表征发酵肉。相反,非发酵肉类则富集了三种独特的物种水平基因组箱,即脆弱假单胞菌(Pseudomonas fragi)(即GTDB中的Pseudomonas_E bubulae,SGB12107-Pseudomonas_E fragi和SGB12108-Pseudomonas_E fragi_D),这是一种与奶制品和生肉腐败有关的物种。发酵豆类和发酵种子则被鉴定为几个来自芽孢杆菌属(Bacillus)的物种水平基因组箱,该属在食品(尤其是大豆)发酵中具有重要作用。我们还定义了物种水平基因组箱富集分数(STAR方法),并确定发酵鱼、发酵豆类、发酵种子、发酵块茎和根、肉类是类别特异性物种水平基因组箱数量最多的类别(图4F);这大致与具有较低类内多样性的类别(图S3B)相吻合。在乳制品中,当将非发酵样品与发酵样品分开时,也得到了类似的结果(图S4D)。这些发现表明,不仅整个微生物群落,而且一些食品特异性的物种水平基因组箱也可以作为食品类别甚至类型的标志物,如之前所述,这可以在食品追溯和认证中加以利用。
我们还专门研究了未知的物种水平基因组箱,以评估未分类物种对特定食品类别微生物群落特异性的贡献,并确定了至少在一个比较中具有显著意义的81个未知的物种水平基因组箱(图S4C)。在发酵饮料类别中,白酒乳酸菌属(Liquorilactobacillus)SGB69410获得了最高的特异性,该类别还包括另外十种具有鉴别能力的未知的物种水平基因组箱。在其他类别中,未知的物种水平基因组箱也有所富集,包括发酵和非发酵的水果和蔬菜以及肉类(图S4C)。这些结果进一步证明了食品微生物群落中存在大量尚未分离的物种,这在包括食品控制在内的多个应用中可能具有重要意义。
与成年人相比,婴儿体内的食物和人类微生物的重叠更普遍
Food and human microbial species overlap more in infants than adults
我们将分析扩展至人类微生物组,以测试与食物相关的细菌是否是人体微生物组中常见的定植者。我们考虑了来自39个国家的19,833份肠道和口腔人类样本(见图S5A;附表4;STAR方法),并发现至少在食物和人体环境中检测到1409种物种水平基因组箱(见图5A;附表5)。我们确定了816种在食物中普遍存在的物种水平基因组箱即在至少4份食品样本中检测到,相对绝对丰度>0.1%,见STAR方法),其中409种也在人体样本中被检测到(每个人体样本平均±SD为5±4个食品物种水平基因组箱;见图5A)
图5 | 同时存在于食物和人体微生物群中的物种水平基因组箱的重叠
(A)在食品(n=2533)和人体(n=19833)的宏基因组中检测到的物种水平基因组箱数量。我们确定了409种物种水平基因组箱在食品样本中普遍存在(即在至少4个样本中检出,相对丰度≥0.1%),并且至少在人类微生物组中检测到一次。
(B和C)在每个样本总丰富度的基础上,根据多种宿主特征(即年龄类别、身体部位和生活方式)对在人体样本中检测到的409种食品源物种水平基因组箱进行归一化,并在图C中报告了这些食品源物种水平基因组箱在人类宏基因组中的累积相对绝对丰度。
(D)在这409种物种水平基因组箱中,有43种被确定为人类常见菌株,即在至少一个亚人群组(粪便W(来自西方化人群的粪便,n=17884)、粪便NW(来自非西方化人群的粪便,n=1092)、口腔W(来自西方化人群的口腔样本,n=694)或口腔NW(来自非西方化人群的口腔样本,n=163))中,相对绝对丰度≥0.1%的样本中出现频率≥1%:我们展示了这43种物种水平基因组箱在食品微生物组中的总体分布情况以及在每个食品类别中的分布情况,并展示了它们在人类亚群组和年龄类别中的分布情况(相对绝对丰度阈值设为0.1%,以确定阳性样本)。详细统计数据见附表6。
几种宿主条件影响了人体微生物群中发现的食品微生物物种数量。在所有年龄组中,食物微生物群与粪便的重叠程度都高于口腔微生物群(图5B和S5B,p<1e-100物种水平基因组箱)。在西方(W)与非西方(NW)人群之间,食物和人体微生物群中共有的物种水平基因组箱数量较高(图5B,p<1e-60),但这可能反映了采样偏差。在同一身体部位、跨年龄组和生活方式下,食物物种水平基因组箱的绝对数量往往保持稳定(图S5C和S5D),但当将其归一化为样本丰富度(图5B、S5E和S5F)或考虑其累积相对绝对丰度(图5C)时,其贡献在新生儿(平均累积相对绝对丰度=56%)和儿童(8%)中显著高于学龄儿童(3%)、成人(3%)和老年人(5%)。
一些食物种类在不同年龄段的人群中均有检出:长双歧杆菌(Bifidobacterium longum)、大肠杆菌(Escherichia coli)、唾液链球菌(Streptococcus salivarius)、嗜热链球菌(S. thermophilus)、双歧杆菌(Bifidobacterium bifidum)和短双歧杆菌(Bifidobacterium breve)(图5D)。虽然预期这些物种,尤其是双歧杆菌属的物种,会出现在新生儿中,但它们在成人中被检出,且此时饮食变得更加多样化,这是值得注意的。虽然婴儿不太可能直接从食物中获得这些物种,因为母婴传播是最可能的获得途径,但食物仍可能是成人微生物群落的种子,其中的菌株会进一步在人与人之间传播,并可能在成年期保留下来。
我们进一步关注了非罕见的人类微生物组成员(相对丰度>0.1%的样本比例>1%;STAR方法),并识别出43种在食物和人体中普遍存在的物种水平基因组箱(图5A和5D)。不出所料,其中21种属于LAB(图5D;附表6),它们在样本量最多的乳制品类别中起着至关重要的作用,并且在人类肠道中普遍存在。乳杆菌(L. lactis)和发酵乳杆菌(L. fermentum)在各种生活方式中广泛分布,副干酪乳杆菌(L. paracasei)和德氏乳杆菌(L. delbrueckii)在西方人群中更为常见,嗜热链球菌(S. thermophilus)在西方人群的粪便(16%的相对丰度>0.1%)和非西方人群的口腔(4%)中常见。10种物种水平基因组箱属于肠杆菌科,其中大肠杆菌最为常见。最后,4种共享的物种水平基因组箱属于双歧杆菌科;长双歧杆菌(B. longum)在粪便中的丰度最高(西方人群中为50%,非西方人群中为25%),而双歧杆菌动物亚种仅在西方人群的粪便中被检测到(4%的流行率)。
总的来说,在食物中发现的几种物种也在人类微生物组中被鉴定出来,许多粪便和口腔样本含有食物物种。这种重叠物种在婴儿微生物组中经常占很大一部分比例,而在成年人中则相对较低(平均±标准差=3%±7%;图5C)。
食物与人体微生物群落中常见菌株的鉴定
Identification of common strains between food and human microbiomes
我们进一步通过StrainPhlAn 4(STAR方法)进行了菌株水平和菌株匹配分析,并识别了一些食品-人重叠的物种水平基因组箱的潜在传播模式(图6和S6)。
图6 | 与食品和人类来源相关的原核物种水平基因组箱的系统发育树凸显了菌株水平上的重叠
使用StrainPhlAn生成的树形图;文献中或与特定食物相关的分支将进行注释。
(A)副干酪乳杆菌:Wk1、Wk2和Wk3使用水醋栗菌株;Ch1和Ch2使用欧洲奶酪菌株。
(B)德氏乳杆菌:L1,L2,L3与亚种乳酸菌相关;B1,B2,B3与亚种保加利亚乳杆菌相关。
(C)肠杆菌属包括至少5个亚种:霍尔梅奇亚种、霍夫曼尼亚种、大原亚种、香坊亚种和施泰格尔沃尔蒂亚种。
(D)链球菌属。参考基因组的分离来源总结在附表7中。与相关物种水平基因组箱相关的额外树状图报告在图S6中。
例如,副干酪乳杆菌(L. paracasei)在乳制品(33%)、发酵饮料(74%)和水发酵乳(79%)中很常见,其菌株在系统发育树上与人类菌株混合(图6A)。然而,水发酵乳菌株在系统发育树上形成了三个紧密相关的子树(Wk1、Wk2和Wk3),不包括任何其他食品或人类菌株。几个欧洲奶酪(n=80)定义了Clade Ch1,其中包括来自两份粪便样本和全球商业和手工奶制品来源的参考基因组,表明存在共同的工业菌株起源。阿斯图里亚斯奶酪以及从亚洲发酵山羊奶中分离出的菌株聚集在Clade Ch2中。总的来说,人类菌株分布在整个系统发育树上,与食品菌株非常相似(至少有一个食品宏基因组组装基因组的ANI>99.99%的人类宏基因组组装基因组占57%),这表明食品可能是在人体肠道中发现的菌株的最可能来源。
德氏乳杆菌(L.delbrueckii)在乳制品行业中广泛应用,根据文献记载(图6B),它有六个主要的亚种(亚种)。与酸奶生产相关的是德氏乳杆菌保加利亚亚种(L. delbrueckii subsp. bulgaricus),它既在食物样本中又在人体样本中被重建。这个亚种包含三个主要的簇群:B1簇群种与亚洲乳制品相关的两个亚洲人体菌株;荷兰人体菌株B2簇群;酸奶、意大利奶酪和六个人体菌株B3簇群。我们还识别出三个簇群,它们是欧洲奶酪中常见的德氏乳杆菌乳亚种(L. delbrueckii subsp. lactis):人体菌株L1簇群,意大利奶酪L2簇群,奥地利阿尔卑斯奶酪L3簇群菌株。除了乳制品外,我们还从非洲发酵的块茎和根以及发酵谷物中分离出一些菌株,并主要将其归类为德氏乳杆菌印度亚种(L. delbrueckii subsp. indicus)和德氏乳杆菌雅各布森氏亚种(L. delbrueckii subsp. jakobsenii)。
除了对参与食品加工的物种进行分类外,我们还研究了潜在的病原体。已知与食源性传播有关的大多数物种在我们采集的食品中很少被发现(例如,沙门氏菌(Listeria monocytogenes)仅发现1例,产气荚膜梭菌(Clostridium perfringens)仅发现3例)。其他具有潜在致病菌株的物种更为常见(例如,金黄色葡萄球菌(Staphylococcus aureus)的相对丰度为0.01%,有95例(图S6L);大肠杆菌(E. coli)的相对丰度为0.02%,有173例(图S6C))。在77份食品样本中检测到ESKAPEE物种埃希氏菌(E. hormaechei),相对丰度为0.02%(图6C),暗示着需要进一步调查以确保食品安全。该系统发育树包括1023个来自人类和其他动物、食品和自然环境的参考基因组以及38个食品菌株(19个来自奶酪,7个来自美国菠菜,5个来自亚洲发酵大豆),我们根据文献检测到了至少5个亚种(除了霍氏肠杆菌奥哈拉氏亚种(Enterobacter hormaechei subsp. oharae)外,其他亚种均在人类和食品中被发现)。
链球菌属(Streptococcus)中的一种细菌—链球菌(Streptococcus gallolyticus)同样可能与疾病有关,包括结直肠癌(11%的流行率 vs. 3%的健康对照;S4)。这种细菌也存在于食物中。然而,食物中的菌株与人类菌株(图6D)有明显不同的聚类,因此很可能排除了人类菌株的食品来源。因此,对食物样本进行宏基因组调查对于研究已知和未被充分认识的具有致病潜力的人体微生物物种的起源来源具有重要意义。
真菌类群是食品微生物组中广泛分布的成员
Fungal taxa are widespread members of food metagenomes
在对食物微生物群落中的原核生物分布进行调查后,我们开始对真核生物部分进行特征化。我们构建了787个真核起源且质量足够的宏基因组组装基因组(n=392 HQ和n=395 MQ;STAR方法;附表2)。这些宏基因组组装基因组是从乳制品(247个样本中的401个宏基因组组装基因组)、发酵饮料(205个样本中的233个宏基因组组装基因组)以及八个其他类别(即酒精、益生菌和不同发酵产品;91个样本中的153个宏基因组组装基因组;图7A)中回收的。这些宏基因组组装基因组被分为108个物种水平基因组箱,全部被归类为真菌类群,从而产生了742个已知的物种水平基因组箱(从787个宏基因组组装基因组中)和45个未知的物种水平基因组箱(从45个宏基因组组装基因组中;附表2)。重建的未知的物种水平基因组箱中最多包含4个宏基因组组装基因组,并被归类为曲霉科(Aspergillaceae,EUK10000063),粘膜科(Mucoraceae,EUK10000045)和曲霉科(Aspergillaceae,EUK10000063)。
酿酒酵母是重建的物种水平基因组箱中最多的(191个宏基因组组装基因组),主要从发酵饮料(149个)和酒精饮料(29个)中获得。其他常被重建的物种包括汉森氏杆菌1型(130个宏基因组组装基因组,主要来自奶制品和发酵肉类)、罗克福尔青霉(Penicillium roqueforti)(37个宏基因组组装基因组,来自多种蓝奶酪)、短柄帚霉(Scopulariopsis brevicaulis)(36个宏基因组组装基因组)和德巴利酵母( Kluyvero myces lactis)(26个宏基因组组装基因组)。此外,如毕赤酵母(Pichia Kudriavzevii)和威克汉酵母(Wickerhamiella versatilis)等物种从多种食品类别中恢复(附表2)。
根据分类学分析,在45%的食品样本中检测到了真核物种水平基因组箱(存在时的累积相对绝对丰度中位数为1%;图7B;附表3)。在酒精饮料(97%的检出率)、发酵饮料(92%)和发酵肉类(68%)等食品类别中,检出率最高,这些食品类别通常含有大量的检出宏基因组组装基因组(图7A)。然而,分类学分析在其他三个食品类别中也检测到了真核生物(图7B):发酵鱼类(20%的检出率)、水果和蔬菜(12%)以及肉类(9%)。
图7 | 真菌在食品微生物群落中普遍存在,并涵盖多种食品类别
(A)我们列出了从食品微生物组中回收的25个具有最高数量的真核微生物属。报告了食品中所有真核微生物属的总数以及每个食品类别中具有至少5个微生物属的数量,以及从这些微生物属中回收的样本数量。
(B)食品微生物组中15种最常见的真核物种水平基因组箱的分类学概况。仅显示包含这些真核物种水平基因组箱中的至少一种的1079个食品微生物组。
(C)菌株水平分析能够表征酿酒酵母。首先通过将原始读数与酿酒酵母标记物进行比对,构建了系统发育树(STAR方法),然后进行系统发育重构。该工具从代谢组学数据中检索出267个菌株,并将其与157个分离菌株的基因组进行了整合。叶子的颜色根据来源进行编码,外部环形图显示了元数据信息,树枝按照Maixner等人的标注进行了注释。图S7中报告了非循环、手工编辑的版本以及bootstrap值。
我们根据最常见的物种种类将样本分为若干类群(如图7B所示)。这些类群主要由啤酒、发酵饮料中较高的酵母菌(S. cerevisiae)和肉类、奶制品中较高的汉森酵母菌群1(D. hansenii group 1)的流行率驱动。具体来说,酵母菌在8种食品类别中被普遍检测到,其总体检出率为18%(当存在时,相对绝对检出率平均为9.9%),这反映了其作为工业酵母的广泛应用。汉森酵母菌群1则在19%的食品样本中被发现(当存在时,相对绝对检出率平均为3.9%),并存在于7种食品类别中:该菌种在自然界中极为常见,常被发现于发酵肉类(尤其是在香肠和干肉中加入以增强风味)、奶制品(主要在奶酪汁和奶酪中,尤其是切达干酪)、肉类、种子发酵物和发酵饮料(例如在67%的普洱茶样本中)。
对酿酒酵母菌株的基因组水平分析可以将微生物群落基因组与分离菌株基因组整合起来
Strain-level profiling of S. cerevisiae enables integration of metagenomes with isolate genomes
最后,我们研究了酿酒酵母(S. cerevisiae)的遗传多样性,它是我们食品宏基因学中最丰富的真核生物,也是食品工业中最重要的生物。我们通过StrainPhlAn进行系统发育分析,并将我们的食品和人体宏基因组数据与157个来自液态发酵(如葡萄酒和啤酒)和固态基质发酵(如面包和清酒)的酵母菌株基因组(STAR方法)整合在一起。
我们的系统发育树(图7C)包含了424个菌株,并根据文献显示了按食物类型和地理区域的分类。我们从SSF和LSF中分别鉴定出了清晰的酿酒酵母群,如Sake/Asian和Beer-1/Beer-2。来自其他酒精饮料(如烈酒)的菌株的聚类程度较低,这与前人的研究结果一致。来自葡萄酒的酵母菌株要么属于Wine plus Dairy群(Wine-1),要么属于主要由澳大利亚天然葡萄酒发酵样本构成的独特群(Wine-2)。尽管来自某些食物群的菌株属于已知的菌群(如非洲发酵菌株群被归类为了奶制品群),但大多数菌株形成了独特的菌群。我们识别出了一个完全由水发酵乳样本组成的大型菌群,并且他们没有参考基因组。来自北美和南美水发酵乳的样本显示了地理分化,而乳发酵菌则属于乳制品群,这表明了明显的底物起源。
一些从人类肠道中分离出的酿酒酵母菌株属于食物类群,这表明可能存在通过食物摄入传播的菌株。例如,(非洲)棕榈酒类群包括同一个洲的个体,亚洲人位于(亚洲)清酒类群中,而欧洲人则位于欧洲奶酪类群中。这些群体的系统发育分支支持(STAR方法;图S7A)非常强,可能表明存在一些地理上分布的通过食物-人体传播的菌株。少数与人类相关的菌株群与实验室对照和益生菌菌株类群聚类在一起,这表明可能存在通过益生菌摄入获得的菌株。然而,一些分支在统计上支持度较低(图S7A),并且没有通过对对齐位点进行严格的质量控制筛选(图S7B)。这表明,酿酒酵母菌株的菌株鉴定可能因其在人类宏基因组中的低丰度而复杂化,对其系统发育关系的解释应谨慎对待。
总的来说,我们识别出的大多数食物群都得到了很好的支持(图S7A),在数据处理过程中保持一致(图S7B),并且与已知的酵母进化树相符,这表明我们的方法在对酵母进行系统发育分析方面是有效的。
- 讨论 -
在这项工作中,我们开发并描述了cFMD(一种资源,它是通过收集数千个经过标准化元数据和数据产品处理的、公开可用的食品微生物组序列而形成的)。通过MASTER EU联盟,我们提供的cFMD序列大大扩展了对食品微生物组的描述(其规模约为以前可用数据的3倍),包括更高的测序质量(深度提高了约2倍,宏基因组组装基因组数量增加了约4倍)和更多种类的食物(见图1)。生成了10899个食品宏基因组组装基因组,并将其与100万个以上可用的宏基因组组装基因组和基因组整合,进一步扩大了在食品生产中常用的物种的基因组信息(见图3),并识别出320个尚未分离的物种(见图2和图7)。
综合分析超过2万份人类的宏基因组数据揭示了食物和人类微生物组之间的重叠,共有1409种物种水平基因组箱(图5A),这些物种平均解释了单个人类样本的11%(累积相对丰度为3%,如图5C所示),尽管物种重叠并不代表菌株重叠或传播。虽然与人与人之间的物种或甚至菌株重叠(母婴之间达到约50%的菌株重叠)相比,这种重叠可以说是适度的,但它仍然代表了人类微生物组中相当大的一部分,也是人类微生物组可能在数千年中形成的一个重要进化模式。尽管食品物种水平基因组箱的直接传播只是可能的传播途径之一(例如,垂直和水平传播)(图5C),但婴儿肠道微生物组中仍有很大一部分含有食品物种水平基因组箱(平均为56%)。在成年人中,食品物种水平基因组箱构成了微生物群落的3%(图5B-C)。菌株水平的分析也推断出可能的近期食品-微生物组传播事件(图6),甚至包括真核生物如酿酒酵母(图7C)。
我们在食品微生物组中发现了数百种未被识别的物种,这为深入研究这些微生物提供了新的途径。的确,通过宏基因组学仅检测到的饮食微生物的定向分离和功能特性分析应该是进一步利用其在食品加工、质量和安全方面作用的下一步。然而,饮食微生物的全球多样性仍然远远没有被揭示,因此,我们的资源应成为进一步整合食品微生物组的起点。例如,我们的发现支持使用分子分型方法开发基于微生物特异性的食品真实性和产地认证(图4D-F),这需要进一步扩大同一食品类型在不同地点和行业中的宏基因组的数量。
MASTER EU联盟提供了来自多种环境和采样地点的大量序列数据,涵盖了从反刍动物到鱼类、工厂、土壤、发酵食品、谷物和蔬菜的整个食品系统。整合这些资源将开启一系列相关应用,从研究食品系统中微生物群落的进化到研究食品中抗微生物耐药性或腐败相关基因的扩散,再到在食品质量控制中检测病原体,最后,还可以研究食品-人类传播过程中的传播情况。
本研究的局限性
Limitations of the study
检测直接的食品到人体的微生物传播仍然是一项具有挑战性的任务。虽然我们调查了可能的传播事件(见图6、图7、S6和S7),但目前无法精确估计其发生的时间,并且受到同期人际传播的阻碍。甚至只能通过上下文在一定程度上推断方向性,并且食品微生物是否对传播有剂量依赖效应仍然是一个悬而未决的问题。此外,需要进一步研究的是,在肠道中检测到的食品微生物是否确实是微生物群落的定居者,还是只是暂时存在的。可以设计干预性试验向志愿者补充特定发酵食品,同时进行食品和粪便样本(预、中、后)的菌株水平分析,以调查传播事件和菌株的稳定性与活力。由于从可能的DNA提取偏差到更难构建宏基因组组装基因组的多种限制,从宏基因组学中对真核基因组进行表征仍未得到充分重视,而采用的方法可以是朝着标准化这些分析的方向迈出的一步。
对食品微生物组的全面收集工作尚未完成,目前缺乏来自多个国家的例子和广泛食用的食品类型。当前的数据库构成倾向于某些类型的食品(例如,奶制品)和地理来源。纳入更多种类的食物将有利于识别独特的微生物食品标记,而扩展样本元数据(例如,加工食品与生食品、即食食品与烹饪食品、成分信息)可以扩大应用可能性和结果价值。目前定义和标准化的元数据基于该领域的先前工作,并由食品微生物学家作为当前工作的一部分进一步扩展。然而,为微生物组研究建立更通用的食物本体仍然是一个持续的过程。
参考文献
Carlino N, Blanco-Míguez A, Punčochář M, et al. Unexplored microbial diversity from 2,500 food metagenomes and links with the human microbiome[J]. Cell, 2024.
- 作者简介 -
意大利特伦托大学Niccolo` Carlino为本文的第一作者,意大利特伦托大学CIBIO部门的计算生物学家Nicola Segata教授为本文的通讯作者。
通讯作者
意大利特伦托大学CIBIO学院
Nicola Segata
教授
Nicola Segata教授是意大利特伦托大学CIBIO部门的计算生物学家,被引85000余次,h指数91。他的实验室(http://segatalab.cibio.unitn.it)使用实验宏基因组学工具和新颖的计算方法来研究微生物群落在不同条件下和不同人群中的多样性及其在人类疾病和感染中的作用。实验室的项目汇集了计算机科学家、微生物学家、统计学家和临床医生,通常专注于以菌株水平的分辨率对微生物群落进行表征,并使用新型计算工具对大量宏基因组进行整合分析。
了解更多:
https://clinicalmetagenomics.org/teams/nicola-segata/
https://scholar.google.com/citations?user=ZXjO-Q4AAAAJ
猜你喜欢
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA