随着抗生素耐药性的增加以及抗生素开发面临的挑战,开发新的抗菌疗法变得尤为迫切。目前,抗菌肽被视作治疗细菌感染的候选药物。
相对于抗生素来讲,这类肽类物质能有效对抗细菌、真菌、病毒以及某些癌细胞,且通常通过破坏微生物细胞膜的方式迅速发挥作用,从而减少了微生物对其产生耐药性的可能性。
此外,抗菌肽的天然来源和较少的副作用使其在临床应用中显示出较高的安全性,为现代医学提供了新的治疗方向。
但是其临床转化进程却因毒性、稳定性差、细胞穿透性有限和成本高昂等问题而缓慢。幸运的是,随着人工智能(AI)和机器学习(ML)技术的快速发展,我们现在能够更精确地预测生物分子的属性和结构,以及设计新型分子。
这些技术的进步不仅加速了科学研究,还为药物开发和生物技术领域带来了革命性的变革。特别是在抗菌肽的研究与开发中,机器学习技术已经展示出其强大的潜力。[1,2,3,4]
抗菌肽通常是一类由6到50个氨基酸组成的短肽链,能够通过破坏膜结构、特异性靶向结合、免疫调节、抗生物膜活性和干扰代谢过程等多种机制,杀死各种细菌、病毒和真菌。
尽管抗菌肽的发现可以追溯到20世纪40年代,并且迄今为止已经鉴定出超过5000种抗菌肽,但仅有不到50种抗菌肽获得了美国食品药品监督管理局(FDA)的批准或正在进行临床研究。机器学习模型在药物发现和开发中扮演着越来越重要的角色。通过从公开可用的肽类数据库中学习和利用知识,AI/ML已经发现了多种有效的抗菌肽,并通过实验验证了它们对细菌的靶向效果。预计在未来几年内,基于ML的抗菌肽设计将取得显著进展,这将有助于减少抗菌肽发现和开发的时间和成本。在构建和训练机器学习模型之前,正确选择输入表示(也称为特征)是关键步骤。输入表示应包含与目标属性(抗菌肽)相关的信息,以提高机器学习模型的准确性和效率。以下是几种可用于计算编码肽类信息的表示类型:
全局描述符(0D):输入表示通常是固定大小的向量,其值总结了相应肽类的一般(“全局”)属性。这些属性可能包括序列组成(如氨基酸组成和子串频率)、结构特征(如α-螺旋和β-折叠排列)和物理化学属性(如净电荷、疏水性和两亲性)。在抗菌肽研究中,全局描述符如总体疏水性、电荷和分子质量被用来预测肽的抗菌活性。常用的模型如逻辑回归或支持向量机(SVM)被应用于这些固定大小的向量表示,强调肽的固有物理化学属性,并简化与其生物功能相关的分类或回归任务。基于序列的表示(1D):这种输入表示类型捕获了原始氨基酸序列。给定长度为L的肽序列,可以使用n×L的矩阵来存储肽序列的顺序信息,其中n是每个字母(即氨基酸)的特征数量。基于序列的表示可通过深度学习模型,如卷积神经网络(CNN),Transformer模型等常用架构来处理氨基酸序列以提取序列中的局部模式和上下文信息。这种方法可以帮助预测抗菌肽的活性及其可能的作用机制,为进一步的生物活性研究提供数据支持。基于图的表示(2D):在基于图的表示中,输入是包含节点和节点连接性(“边”)的图。节点可以是原子或残基,边可以是化学键或原子或残基之间的几何距离。在抗菌肽设计中,分子可以通过图表示,其中节点代表氨基酸残基,边代表残基间的相互作用。利用图卷积网络(GCN),可以从结构的视角预测抗菌肽的功能特性,从而指导合成具有特定活性的肽。三维(3D)表示:除了使用基于图的表示外,具有可用3D结构的肽类可以使用体素化表示。具体来说,肽类的3D结构可以被视为3D图像,并被离散化为固定大小的体素。对于已知三维结构的抗菌肽,可通过三维卷积神经网络(3D-CNN)来分析其空间构型。这种体素化的表示方法可以用于识别肽分子内部潜在的活性位点,进而预测其与目标细菌细胞间的相互作用模式。数据驱动的表示:特征或表示学习自动从数据中学习特征,为肽类提供了另一种输入表示。最新的表示学习方法利用了自监督的概念——从输入数据本身学习“监督信号”或标签,然后使用这些标签来理解剩余的未标记数据。在抗菌肽的研究中,可通过使用自编码器等非监督学习技术从大规模未标记的肽序列中自动提取特征,可以无需事先定义特征的情况下发现新的、具有生物活性的抗菌肽。这种数据驱动的表示学习方法能够揭示新的生物活性规律,为抗菌肽的设计和优化提供支持。机器学习技术为抗菌肽的发现和开发提供了强大的工具,主要通过以下两种策略实现:利用预测模型扫描现有的生物数据数据库是一种有效的方法来识别具有抗菌潜力的肽。这种方法主要依赖于强大的分类或回归模型,这些模型根据肽序列的特征预测其抗菌活性。
通过这种方式,研究人员可以在庞大的生物序列数据库中筛选出那些预测显示具有高抗菌活性但尚未被实验验证的肽序列。一个具体的应用实例是在研究文章——<“Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences>https://www.nature.com/articles/s41551-022-00991-2研究者们利用机器学习模型,通过大规模的数据分析来预测和推荐具有高潜力的生物活性分子,极大地加速了抗菌肽的筛选和验证过程。通过这样的技术,研究人员可以更高效地利用现有的生物数据资源,加快新药的发现和开发速度。另一种方法是通过生成模型直接设计或优化新的抗菌肽序列。这类模型,如生成对抗网络(GANs)和变分自编码器(VAEs),能够学习现有抗菌肽的数据分布,并在此基础上生成全新的、具有预期生物活性的肽序列。这种技术不仅可以用于探索新的抗菌肽,还可以优化已知肽的属性,例如增加其稳定性或减少其毒性。具体案例可以参考文献 ——<"Discovering highly potent antimicrobial peptides with deep generative model HydrAMP">https://www.nature.com/articles/s41467-023-36994-z其中详细介绍了如何利用深度生成模型探索和创造新的蛋白质序列,包括抗菌肽。这项工作的核心进展在于能够有效地利用机器学习方法从大量的蛋白质数据中学习,并创造出既新颖又功能性的蛋白质序列,开拓了蛋白质工程和药物开发的新方向。预测模型侧重于从大量现有数据中识别具有潜在活性的肽,而生成模型则专注于从头创造可能具有预期生物活性的肽序列。通过这些先进的机器学习技术,科学家们能够更加高效和系统地进行新抗菌肽的探索和开发,推动抗菌肽研究进入一个新的阶段。结构预测:了解蛋白质和肽类的二级和3D结构,有助于阐明功能并指导设计具有特定功能和属性的新蛋白质和肽类。基于序列的3D结构预测平台,如AlphaFold2和RoseTTAFold,已经在基准集上展示了出色的准确性。属性预测:ML模型已经被开发用于预测影响抗菌肽发现和开发的属性,包括抗菌活性、毒性、稳定性。例如,通过使用深度学习模型和传统的机器学习方法(如支持向量机和随机森林)[5,6],研究人员可以从已知的抗菌肽序列中学习并预测新肽的抗菌活性。细胞穿透:AMPs的传递仍然是一个中心挑战。细菌感染可能是细胞内的,因此AMPs必须进入哺乳动物细胞以治疗感染。因此,验证AMPs能否进入哺乳动物细胞对于针对细胞内感染的肽类至关重要。在现有研究中,研究人员利用不同的机器学习方法来预测和验证细胞穿透肽(CPPs)。例如,通过支持向量机(SVM)[7] 训练的模型成功预测了四种可能的细胞穿透肽,这些预测随后通过荧光显微镜技术和定量摄取测量得到验证。同样,随机森林模型 [8] 被用来从随机肽序列中识别和分类CPPs,以用于磷酰胺酸二甲基脲(PMOs)的传递。还有一项研究中,使用神经语言模型来生成类似CPP的序列 [9],并用深度学习(DL)模型来预测这些序列的PMO传递效能,之后应用遗传算法根据PMO传递效能的预测结果来优化生成的CPP类序列。
作用机制:许多AMPs是膜活性的,这可能导致对人类细胞的附带毒性和对细菌细胞的非特异性活性。抗菌肽(AMPs)通常通过干扰和破坏细菌的细胞膜来发挥其抗菌作用。这种机制主要依赖于肽的两亲性,使其能够插入到细菌的膜中,并可能形成孔洞或通道,导致细胞内容物的泄漏,从而杀死或抑制细菌。然而,人类细胞和细菌细胞的膜在化学和物理结构上存在相似性,特别是在脂质组成方面。因此,具有膜活性的AMPs在攻击细菌的同时,也有可能与人类细胞的膜相互作用,引起人类细胞的损伤或死亡。这种对宿主细胞的潜在毒性是AMPs临床应用的一个主要限制因素。目前,MD模拟有助于识别膜活性AMPs的作用机制,但预测其他作用机制仍然是一个挑战。为了克服这一挑战,机器学习模型被用来预测AMPs可能的细胞内靶点以及与这些靶点的相互作用。例如,CAMP [10] 来预测AMPs与蛋白质的相互作用,这类型方法有望超越传统的分子对接方法,提供更准确的预测。
随着AI和ML技术在抗菌肽的识别和设计领域的不断深入应用,预计在未来几年内,这些技术将大幅加速抗菌肽的研究和开发进程。这将极大帮助科学家和临床医生在对抗传染病方面取得更多成就。未来工作的核心将聚焦于数据整理和质量、肽类表示和ML模型设计以及ML模型评估和选择。
1、数据整理和质量提升:为了更好地训练和评估机器学习模型,我们需要大量高质量的数据,包括各种标记的和未标记的数据,正面与负面的例子等。接下来的研究将专注于收集更多关于抗菌活性、毒性、稳定性等关键属性的数据。同时,随着高通量筛选技术的发展,我们可以更准确地对这些属性进行量化建模。
2、肽类表示和机器学习模型设计:当前的机器学习模型主要处理标准氨基酸的肽类,对非标准氨基酸或化学修饰的氨基酸处理不足。未来的研究将发展新的肽类表示方法,适应这些非标准氨基酸,并设计能够与之兼容的机器学习模型,提升模型的泛化能力。此外,利用3D结构和构象信息来提升肽类属性预测的方法也将是重要的研究方向。
3、机器学习模型评估和选择:为了确保机器学习模型的预测可靠性,将开发一致的训练-验证-测试集和全面的评估指标。这有助于选择合适的工具进行虚拟优化和设计抗菌肽。同时,自动化机器学习和神经架构搜索工具的发展将有助于数据驱动地选择最佳性能的模型和超参数。
除此之外,AI和ML的应用也可以突破现有的框架限制,例如通过跨学科合作、定制化治疗策略、自动化和自适应筛选设计流程等方式,发挥更大的潜能。
4、跨学科合作加速创新:抗菌肽研发是一个涉及化学、生物学、医学、计算机科学等多个领域的跨学科项目。加强这些领域间的合作,尤其是在数据共享和开放科学方面,将极大加速抗菌肽的研究进程。例如,建立开放的抗菌肽数据库,分享从实验室到临床试验的所有相关数据,这将为机器学习模型提供更丰富、更全面的训练和验证数据,提高模型的准确性和实用性。
5、定制化抗菌肽治疗策略:随着个体化医疗的发展,将AI和ML技术应用于开发定制化的抗菌肽治疗策略也是未来的一个重要方向。通过分析个体的基因组信息和微生物群落构成,AI模型可以帮助设计专门针对个体病原体特性和宿主生物特性的定制化抗菌肽。这种个性化的治疗策略有望在提高治疗效果的同时,最大限度地减少药物的副作用和耐药性的发展。
6、强化学习和自适应系统:未来的抗菌肽设计可以采用强化学习等更高级的机器学习技术,创建能够在迭代实验中自我优化的自适应系统。这种系统能根据实验结果不断调整设计策略,实时优化肽的结构和功能。此外,结合自动化的实验平台,如微流控芯片和高通量筛选系统,可以进一步加速实验的迭代速度,缩短从设计到验证的周期。
参考文献:
[1]https://www.nature.com/articles/s44222-024-00152-x
[2]https://www.nature.com/articles/s43588-023-00576-2
[3]https://www.nature.com/articles/s41564-023-01524-6
[4]https://www.nature.com/articles/s41467-023-39678-w
[5]https://academic.oup.com/bioinformatics/article/36/21/5262/5873588
[6]https://academic.oup.com/bioinformatics/article/37/14/2058/5948991
[7]https://journals.plos.org/ploscompbiol/article?
[8]https://www.frontiersin.org/journals/microbiology/articles/10.3389/fmicb.2018.00725/full
[9]https://www.nature.com/articles/s41557-021-00766-3
[10]https://www.nature.com/articles/s41467-021-25772-4关注我!不错过任何AIMShare学术资讯!!
【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!