背景介绍
在此提出了一种机器学习模型,能够在不需要额外湿实验的情况下稳健地预测微生物载量。利用来自两个独立研究人群(GALAXY/MicrobLiver和MetaCardis)的宏基因组和微生物载量数据的大规模配对数据集,首先训练模型,直接从相对微生物组特征预测人类粪便样本的微生物载量。然后,通过将模型应用于大规模公共宏基因组数据集(n = 34,539)来展示其实用性,揭示了各种宿主生理与预测微生物载量之间的显著关联。此外,还显示微生物载量是微生物组变异的主要决定因素,常常混淆微生物物种的疾病关联,这对生物标志物的开发具有重要意义。
文章亮点
2. 预测的载量与大规模数据集中的宿主和环境因素相关
3. 疾病相关的微生物特征与预测的微生物载量有关
图文赏析
图 1. 微生物载量与两个研究人群中肠道微生物组的分类学特征密切相关
图2. 机器学习模型稳健地预测粪便样本的微生物载量
图 3. 预测的微生物载量与各种宿主因素有关
图 4. 预测的微生物载量与各种疾病有关
图 5. 微生物载量混淆了疾病与微生物的关联
总结与意义
个体栖息地中的微生物群在相对组成和绝对丰度上存在差异。虽然测序方法可以确定分类群和基因的相对丰度,但它们并不提供绝对丰度的信息。在此开发了一种机器学习方法,仅根据相对丰度数据预测粪便微生物载量(每克微生物细胞数)。将预测模型应用于一个大规模的宏基因组数据集(n = 34,539),证明了微生物载量是肠道微生物群变异的主要决定因素,并与多个宿主因素相关,包括年龄、饮食和药物。进一步发现,对于某些疾病,微生物载量的变化比疾病本身更能解释患者肠道微生物群的变化。调整这一影响显著降低了大多数与疾病相关的物种的统计显著性。文章分析揭示了粪便微生物载量是微生物组研究中的主要混杂因素,强调了其在理解健康与疾病中的微生物组变异的重要性。
通讯作者
Peer Bork,EMBL Heidelberg 董事。EMBL Heidelberg生物信息学战略负责人、分子医学合作部门组长和 ERC 高级研究员。领导了多个国际知名的基因组和宏基因组项目,包括人类基因组计划、小鼠基因组计划、酵母蛋白质组计划、MetaHit、人类微生物计划和 Tara Ocean 计划等。发表了600多篇期刊论文,其中70多篇发表在Cell、Nature和Science等顶级期刊上。
Michael Kuhn,欧洲分子生物学实验室研究员。研究课题:中心体的进化分析,远距离物种之间组织特异性基因表达模式的保守性,以及大规模筛选数据的分析。自 2016 年以来,一直是Peer Bork实验室的研究员,部分管理实验室,并研究肠道微生物群和药物对人类的影响。