Discovery
of antimicrobial peptides in the global microbiome with machine learning
DOI:10.1016/j.cell.2024.05.013通讯作者:路易斯·佩德罗·科埃略,昆士兰科技大学生物医学科学学院微生物组研究中心文章链接:https://doi.org/10.1016/j.cell.2024.05.013
AMP有望成为潜在的治疗方法,并且已经在临床上用作抗病毒药物(例如,恩夫韦肽和特拉匹韦).具有免疫调节特性的AMP目前正在进行临床试验,可用于解决酵母菌和细菌感染的肽也是如此(例如,pexiganan、LL-37 和 PAC-113)。尽管大多数AMPs显示出广谱活性,但有些AMP仅对同一物种或属的密切相关成员具有活性。这种AMP是比传统广谱抗生素更具针对性的药物。此外,与传统抗生素相反,对许多AMP的耐药性演变发生率较低,并且与对其他类别广泛使用的抗生素的交叉耐药性无关。
由于技术限制,宏基因组分析在AMP研究中的应用受到限制,这主要源于区分真正的蛋白质编码序列和假阳性的挑战。因此,在(元)基因组分析中,小型开放阅读框(smORF)的重要性历来被忽视。近年来,人类相关smORFs的宏基因组分析取得了重大进展这些进步结合了机器学习(ML)技术来识别编码属于特定功能类别的蛋白质的 smORF。值得注意的是,最近的一项研究使用预测的 smORF 从人类肠道微生物组的宏基因组样本中发现了大约 2,000 个 AMP。然而,重要的是要注意,人类肠道只占整体微生物多样性的一小部分,这表明在全球各种栖息地中发现原核生物的AMP仍然具有巨大的潜力。
在这项研究中,我们使用ML来预测和编目目前在公共数据库中表示的全球微生物组的AMP。通过计算探索 63,410 个公开可用的宏基因组和 87,920 个高质量的微生物基因组,我们发现了大量的 AMP 多样性。这导致了AMPSphere 的创建,这是一个包含 863,498个非冗余肽序列的集合,包括来自(元)基因组数据的候选 AMP (c_AMPs)。值得注意的是,这些c_AMP序列中的大多数以前没有被描述过。我们的分析表明,这些c_AMPs是特定栖息地特有的,并且主要不是泛基因组中的核心基因。
此外,我们从AMPSphere 合成了 100
c_AMPs,发现 79 种是活性的,其中 63 种在体外对具有临床意义的 ESKAPEE 病原体表现出抗菌活性,这些病原体被认为是公共卫生问题。这些肽与加密肽(EPs)进行了进一步的比较,后者是隐藏在蛋白质序列中并通过计算挖掘的肽序列,并证明了它们靶向细菌膜的能力以及采用α螺旋和β结构的倾向。值得注意的是,主要候选药物在临床前动物模型中显示出有希望的抗感染活性。总之,我们的工作证明了ML方法从全球微生物组中识别功能性AMP的能力。
本文旨在利用机器学习方法,从全球微生物组中大规模预测和发现抗菌肽(AMP)。抗菌肽在抗生素耐药性日益严重的背景下,有望成为新型抗生素开发的重要资源。作者指出,虽然前人已在人体肠道微生物组中发现了约2000个AMP,但这只是整个微生物多样性的一小部分,尚有大量AMP有待发掘。研究内容一:AMPSphere 由来自多个栖息地的近 100 万只c_AMPs组成AMPSphere结合了使用 Macrel 的 ML 预测c_AMPs,一个使用随机森林来预测大型肽数据集的 AMP 的管道,强调精确度而不是召回率。它被应用于全球分布的63,410个公开可用的宏基因组(图1A;表S1)以及 87,920 个高质量的细菌和古细菌基因组。去除了单个样品中存在的序列,除非它们与 AMP 专用数据库 Data Repository of Antimicrobial
Peptides (DRAMP) 3.0 版中的序列具有显著匹配(定义为氨基酸同一性≥75%,E 值≤10-5)。这导致了 5,518,294 个基因,占预测的 smORF 总数的 0.1%,编码 863,498 个非冗余c_AMPs(平均 37 ± 8 个残基长;图 1A 和 S1)。与具有抗菌活性的验证序列类似,42,47,48来自AMPSphere的c_AMPs具有正电荷(4.7±2.6)、高等电点(10.9±1.2)、两亲性(疏水矩,0.6±0.1)以及与膜或其他蛋白质结合的潜力(Boman指数,1.14±1.1)。正如预期的那样,一般来说,来自AMPSphere,DRAMP的肽的物理化学性质的分布3.0 版,以及 Macrel 中使用的积极训练数据集彼此之间更相似,而不是负训练集(假设不是 AMP)。尽管如此,AMPSphere 的c_AMPs平均比 DRAMP 中的± 8 个残基长3.0 版(28 ± 22 个残基),我们观察到其他特征(例如,电荷、脂肪族、两性性和等电点;图S1)。
图1 AMPSphere 包含来自数千个宏基因组和高质量微生物基因组的836,498 个非冗余c_AMPs
随后,我们估计了smORF预测的质量,并在独立的公开可用的宏蛋白质组或宏转录组中检测到20%(172,840)的c_AMP序列(图2和S2A;参见STAR方法部分“c_AMPs的质量控制”),属于AMPSphere中包含的几个栖息地,例如人类肠道,植物等(表S6)。然后,我们对所有c_AMPs进行了一系列计算机质量测试(参见STAR方法部分“c_AMPs的质量控制”)。c_AMPs子集(9.2%或80,213 c_AMPs)通过了所有这些测试,该子集在以下被指定为高质量。使用其他 AMP 预测系统(AMPScanner v2、AmpIR中成熟肽的模型,40amPEPpy,APIN,AI4AMP,和 AMPLify),我们观察到 98.4%(849,703 个肽)的 AMPSphere c_AMPs也被至少一个其他 AMP 预测系统预测为 AMP。大约15%(863,498个肽中的132,440个)的AMPSphere c_AMPs通过所有使用的方法共同预测。图2 AMPSphere候选物的质量控制
研究内容二:AMP可由完整蛋白的突变截断或基因复制产生
许多 AMP 是由较大蛋白质的片段化在翻译后产生的。例如,EP是从人类蛋白质组和其他蛋白质组内的蛋白质序列中计算检测到的片段,这些蛋白质组已被证明具有高度活性。EP 具有不同的二级结构,并作用于细菌细胞膜,与已知的天然 AMP 相似,但与已知的 AMP 相比具有不同的物理化学特征。AMPSphere 仅考虑由专用基因编码的肽。尽管如此,我们假设其中一些起源于基因组水平上通过片段化而产生的较大蛋白质。为了探索这一点,我们将AMPSphere c_AMPs与GMGCv1中的全长蛋白进行了对齐并观察到其中约7%(61,020)与经典长度的蛋白质同源(图1B),其中27%的命中与较长的蛋白质共享起始密码子。这表明全长蛋白的早期终止是产生新c_AMPs的一种机制(图3A和3B)。
图3 编码大蛋白的基因突变产生c_AMPs作为独立的基因组实体
为了研究与 AMP 同源的全长蛋白的功能,我们绘制了 GMGCv1 的匹配蛋白从 eggNOG 5.0 到直系同源组(OG)。我们鉴定了 3,792 个(在 43,789 个)OG 中显着富集(p超几何< 0.05,在使用 Holm-Sidak 方法进行多次假设校正后)在 AMPSphere 的命中中。虽然功能未知的OG占所有已识别OG的53.8%,但当单独考虑时,这些OG平均小于其他类别的OG。因此,尽管每个 OG 的c_AMP命中数相对较少,但与 GMGCv1 中 OG 的背景分布相比,功能未知的OGs在c_AMP命中中富集度最高,平均富集度为10,857倍(p曼≤ 3.9 × 10−4; 图3C;表S3)。研究内容三:发现AMP具有生境特异性分布,主要为非核心基因我们观察到只有一小部分(5.9%,p排列= 4.8 × 10−3、N物种= 416) ProGenomes2 中存在的 c_AMP 个家族包含在来自同一物种的≥95%的基因组中(图4),这里称为“核心”。这与以前的工作一致,其中观察到AMP的产生是菌株特异性的相比之下,高比例(约68.8%)的全长蛋白家族是ProGenomes2的核心物种。有 1.9 倍的几率(p渔夫= 2.2 × 10−92),来自同一物种的一对基因组在属于同一菌株时至少共享一个c_AMP(99.5% ≤ ANI <99.99%)。
这种菌株特异性行为的一个例子是AMP10.018_194,这是在肺炎支原体基因组中发现的唯一c_AMP。肺炎支原体菌株传统上根据其 P1 粘附蛋白基因分为两组。在我们研究中存在的 76 个肺炎支原体基因组中,29 个被归类为 1 型,29 个被归类为 2 型,其余 18 个在该分类系统中未确定(参见 STAR 方法部分“附件 AMP 的测定”)。29 个 2 型基因组中有 26 个含有 AMP10.018_194,2 个未确定的类型基因组也含有 2 个,但没有一个 1 型基因组含有这种 AMP。图4 AMPSphere数据库中的 AMP 变体与分类相关
研究内容四:体外实验证实大部分预测的c_AMP具有特异的抗菌活性为了研究合成肽的性质和结构,我们首先将它们的氨基酸组成与来自实验验证序列(DRAMP3.0 版,抗菌活性和肽结构数据库 [DBAASP],和抗菌肽数据库 [APD]第 3 版)。总体而言,正如预期的那样,组合是相似的,因为Macrel的ML模型是使用已知的AMP训练的。值得注意的是,AMPSphere序列显示脂肪族氨基酸残基的丰度略高,特别是丙氨酸和缬氨酸。然而,这些AMPSphere序列与EP一致不同(图5A)。鉴定的c_AMPs和已知的AMP之间的氨基酸组成相似,表明具有相似的物理化学特征和二级结构,这两者都因其对抗菌活性的影响而得到认可。该c_AMPs表现出与来自数据库的AMP相当的疏水性、净电荷和亲两性(图S1)。此外,与其他EP相比,它们显示出轻微的无序构象倾向(图5B),并且具有较低的净正电荷(图5A)。
为了评估AMPSphere c_AMPs的结构和抗菌特性,我们首先在AMPSphere中过滤了由于其在水溶液中的溶解性和易于化学合成而被预测为适合体外测定的肽。我们根据其流行率和分类多样性选择了一组具有 50 个肽序列的高质量 AMP(参见 STAR 方法部分“用于合成和测试的肽选择”)。此外,为了对我们在这里报告的肽进行公正的评估,我们首先排除了一个已发表的数据库中具有同源物的任何肽,然后从AMPSphere中随机选择了50个额外的肽,包括25个AMP概率至少为0.6的肽(如Macrel报道)和25个概率较低的肽(0.5-0.6)。
随后,我们使用圆二色性对活性c_AMPs的二级结构进行了实验评估(图6B和S4)。与数据库中记录的 AMP 类似,源自 AMPSphere 的肽表现出采用α螺旋结构的不同倾向;此外,在所分析的所有介质中,其中一些是非结构化的或采用β反平行构象。值得注意的是,尽管它们的氨基酸组成与 AMP 和 EP 相似,但它们在水和甲醇/水混合物中也显示出异常高的β-反平行结构含量(图 5B)。我们将这些发现归因于丙氨酸和缬氨酸残基的出现略有增加,众所周知,丙氨酸和缬氨酸残基有利于β样结构,偏爱β反平行构象。图5 氨基酸组成、结构、抗菌活性和c_AMPs作用机制
研究内容五:动物实验证实AMP具有体内抗感染活性,有望开发为新型抗生素接下来,我们在皮肤脓肿小鼠感染模型中测试了AMPSphere衍生肽的抗感染功效(图6A)。小鼠受到鲍曼不动杆菌的感染,鲍曼不动杆菌是一种危险的革兰氏阴性病原体,以在包括血液、肺、尿道和伤口在内的身体各个部位引起严重感染而闻名。来自不同来源的 10 种先导 AMP 对鲍曼不动杆菌具有有效的体外活性:聚合霉素(AMP10.000_211, 8 μmol L−1)来自聚球菌属(珊瑚相关,海洋微生物组);蛋白杆菌素(AMP10.048_551,16μmolL−1)来自假单胞菌(植物和土壤微生物组);放线霉素(AMP10.199_072,64μmolL−1)来自放线菌(人类口腔和唾液微生物组);lachnospirin(AMP10.015_742,2μmolL−1)来自Lachnospira sp.(人类肠道微生物组);肠球菌素(AMP10.051_911,1μmolL−1)来自粪肠球菌(人类肠道微生物组);αprotecin(AMP10.316_798,1μmolL−1)来自Alphaproteobacteria(水生微生物组);示波螺素(AMP10.771_988, 8 μmol L−1)来自Oscillospiraceae(猪肠道微生物组);ampspherin (AMP10.466_287, 8 μmol L−1)来源不明;甲基纤维素(AMP10.446_571,2μmolL−1)来自Methylocella sp.(土壤微生物组);和reyranin(AMP10.337_875,16μmol L−1)来自Reyranella(植物和土壤微生物组)。皮肤脓肿感染是在 10 时以 20 μL 鲍曼不动杆菌细胞的细菌载量确定的菌落形成单位(CFU) mL−1到背表皮的受伤区域。将体外获得的各自MIC值的每种肽的单剂量施用于感染区域。感染后两天,集细胞素、放线霉素和示孢菌素具有抑菌活性,抑制鲍曼不动杆菌细胞的增殖,而lachnospirin、肠球菌素、ampspherin和reyranin的杀菌活性接近抗生素多粘菌素B(5μmolL−1),将 CFU 计数减少 3-4 个数量级(图 6B)。感染后 4 天,集血细胞素、lachnospirin、肠球菌素和安培球蛋白表现出接近抗生素多粘菌素B 的抑菌作用,与未治疗的对照组相比,CFU 计数降低了 2-3 个数量级。这些结果突出了来自 AMPSphere 的测试肽的抗感染潜力,因为它们在脓肿建立后立即一次性给药。监测小鼠体重作为毒性的代表,没有观察到显着变化(图6C和S6D),表明测试的肽没有毒性。
本文利用机器学习分析了全球范围的宏基因组和微生物基因组大数据,构建了有史以来规模最大、多样性最高的抗菌肽数据库AMPSphere,极大拓展了已知AMP序列空间,也为理解AMP 在不同生态环境中的分布、起源和进化奠定了基础。进一步通过体内外实验,作者系统验证了数据库中预测AMP 的抗菌活性和体内疗效,并揭示了其作用机制,证明了机器学习方法在AMP发现和开发中的有效性。这些发现为深入理解微生物组AMP 资源的生态学意义和开发新型AMP类抗生素提供了重要的资源和技术支撑,对于应对日益严峻的超级细菌和耐药性危机具有重要意义。
撰稿:帅文静
校稿:曹少攀