抗菌肽(Antimicrobial peptides,AMPs)是先天免疫系统产生的一类具有抑菌活性的小分子多肽,广泛存在于各类物种中。AMPs对各种微生物,特别是致病微生物表现出快速和广谱的抗菌活性,使其成为传统抗生素和防腐剂的有吸引力的替代品。重要的是,与传统抗生素相比,AMPs不太容易产生耐药性,这使它们在解决抗生素过度使用和超耐药细菌问题上受到广泛关注。但是,抗菌肽的工业化应用仍面临这两个主要挑战:一是部分商品化的抗菌肽表现出相对特异的抗菌谱,限制了其应用的范围;二是目前还缺少高效合成抗菌肽的方法。
态创生物科技(广州)有限公司联合汕头大学、湖北科技学院、江汉大学、翌圣生物科技(上海)股份有限公司和佳木斯大学等多家单位,在《Acta Pharmaceutica Sinica B》上发表文章“Screening antimicrobial peptides and probiotics using multiple deep learning and directed evolution strategies”,旨在利用人工智能和定向进化的技术高效筛选高活性抗菌肽、抗菌肽合成方法、以及产抗菌肽的益生菌突变体。如图1,作者利用基于神经网络算法 (NNA) 的集成训练方法和高通量 AMP 筛选方法,开发了一个名为 Comparing and Optimizing Multiple DEep Learning (COMDEL) 的 AMP 鉴定模型。COMDEL不仅具备高精度的优势,而且确保安全性。随后,他们给COMDEL 布置双重任务,筛选可食用作物中的广谱型 AMP和高产AMP的益生菌。在此基础上,他们进一步利用定向进化和无细胞AMP合成(CFAS)技术,显著提高了AMP的产量。
COMDEL架构包括三个主要模块:嵌入层、编码器层和任务层。嵌入层根据上下文将AMP序列的每个部分转换为多个数据点,然后对这些数据点进行标准化。编码器层使用一种特殊的技术来理解复杂的序列模式,确保最大限度地从序列中提取出独特的特征,并采用多头注意力机制来熟练地捕捉AMP数据的顺序性质。最后,任务层利用各种神经网络将AMP表示转换为与其分类相对应的概率分布,确保AMP识别的高精度。在训练和测试数据集中,COMDEL的精度分别提高到95.7%和92.4%,而其准确性提高到96.9%和94.1%(图2)。
在与其他五个基于机器学习的AMP鉴定模型的比较过程中,COMDEL表现出较高的真阳性率和较低的假阳性率,因此具有较高的总体准确性和精密度(图3)。这些结果证明COMDEL模型是一种有效和可靠的AMP鉴定工具。在之前报道的三种最先进的AMP鉴定模型中,准确性会随着肽长度的增加而明显提高。而在COMDEL模型中,这种长度偏差得到了极大的缓解,表明其具有优越的适应性。
为了进一步完善COMDEL模型,作者开展了高通量AMP筛选策略,从短于50个氨基酸的随机肽序列中有效筛选出AMPs(图4)。利用下一代测序(NGS)技术,他们在筛选出数十条短的AMPs。随后,他们将高通量筛选结果集成到COMDEL模型的训练中。结果显示优化后的COMDEL模型对AMP的总体准确度和精密度分别达到了94.8%和92.9%。最终,实验验证COMDEL模型的阳性率达到88%,是目前报道的最高水平。
目前大多数AMP产品来源于化学合成或天然提取方法,产率低且价格昂贵,限制了大规模AMP生产的发展。为了探索更有效的AMP合成途径,作者利用噬菌体辅助非连续进化(PANCE)筛选高活性的肽连接酶SrtA突变体,用于连接为了减少对宿主影响而拆分的AMPs(图5)。最终,成功分离出了一种SrtA突变体(SrtA*),其中含有S49G和M102I突变。对SrtA*和WT在体内连接的分裂型AMPs的评估显示,含有SrtA*与分裂型AMPs的大肠杆菌的生长速率约为含有野生型SrtA的大肠杆菌生长速率的一半。这有力地表明SrtA*在连接完整的AMP方面明显比野生型更有效。这些发现为体内外更有效的AMP合成开辟了一条有前景的途径。然而,需要承认的是,将AMP拆分为两种成分施加了内在的限制,导致AMP的产率较低。随后,作者利用无细胞AMP合成(CFAS)系统来一步合成AMPs,产量达到0.5~2.1 g/L,这为在数小时内大规模生产AMP提供了一条有希望的途径。
食用益生菌以其安全性和健康益处而闻名,在食品和医学中有着不同的应用,尤其是在高产AMP上。考虑到这一特点,作者使用COMDEL筛选具有高产AMP潜力的可食用益生菌(图6)。尽管植物乳杆菌在这些益生菌中表现出最有效的抑菌功效,但其天然AMP丰度不足以在各个领域广泛应用。认识到这一局限性,他们将荧光激活液滴分选(FADS)作为筛选高产AMP的植物乳杆菌突变体的可行策略,最终筛选出三种抑菌活性明显增强的植物乳杆菌突变体,并通过全基因组测序解析了它们的基因组图谱。
综上,通过利用深度学习和高通量方法,作者开发了COMDEL,一种先进的AMP识别模型,具有卓越的准确性和精度。此外,介绍了两种有效的合成AMP的方法:酶连接和无细胞合成。这些创新为AMPs的工业规模生产铺平了道路。利用COMDEL,成功筛选出具有高AMP生产潜力的食用益生菌,并通过定向进化进一步增强了其抗菌能力。最终,为了扩大本研究的可访问性,作者将COMDEL模型开发在https://ai.tidetronbio.com:7782/ampPredict.html(图7)。希望COMDEL模型将成为研究人员鉴定和设计具有高应用价值AMPs的宝贵工具。
态创生物首席科学家吴奕瑞教授,态创生物科学家江翱博士、翌圣生物研发总监曹振博士、佳木斯大学夏佳琪博士为本研究的共同通讯作者。态创生物的张豫研究员,CEO张志乾博士、汕头大学理学院硕士生刘丽花、湖北科技学院基础医学院许波博士、江汉大学教育学院何宜炀同学、翌圣生物科学家陈晶晶博士为本研究的共同第一作者。本研究特别感谢广州中国科学院先进技术研究所副研究员崔金明博士对PANCE技术的指导。
作者简介
态创生物科技(广州)公司首席科学家,天津科技大学兼职教授,曾任汕头大学教授、悉尼科技大学访问教授,广东省扬帆计划引进紧缺人才项目获得者。主要从事包括食品、医药和工业原料的绿色生物制造与合成生物学应用研究,探索生物活性功能成分合成及其在产-学-研方向的拓展。