Nat. Commun. | 少样本逆向设计:针对耐药菌的HDP模拟聚合物

学术   2024-09-14 00:01   韩国  

DRUGAI

今天为大家介绍的是来自华东科技大学的唐漾团队的一篇论文。宿主防御肽(HDP)模拟聚合物是具有广泛潜力的抗生素替代疗法。然而,现有的人工智能方法在大规模化学内容设计中表现出色,但在HDP模拟聚合物家族中,由于数据稀缺而远小于公共聚合物数据库的数据量,并且在探索高维聚合物空间时面临多重属性和结构约束的挑战。为此,作者开发了一个通用的AI引导的少样本逆向设计框架,通过设计多模态表示来丰富聚合物的信息预测,并创建图语法蒸馏方法来限制化学空间,从而提高了在多重约束下生成聚合物的效率,并结合强化学习来优化生成过程。以HDP模拟的β-氨基酸聚合物为例,作者成功地模拟预测了超过105种聚合物,并识别出83种最佳聚合物。此外,作者合成了一种最优聚合物DM0.8iPen0.2,并发现该聚合物对多种临床分离的耐药病原体表现出广谱且强效的抗菌活性,验证了AI引导设计策略的有效性。

随着全球抗菌素耐药性的风险不断上升,开发对抗耐药细菌的替代策略已迫在眉睫。当前临床上亟需发现针对革兰氏阳性和革兰氏阴性细菌的广谱抗菌剂,尤其是对抗耐药病原体的有效药物。HDP因其广谱抗菌特性和对抗菌素耐药性低的优势而备受关注。然而,HDP的应用受到其易于酶解和成本高昂的限制。为了克服天然HDP的这些缺点,研究人员设计了HDP模拟聚合物,这些聚合物已成为有前途的抗菌替代品。然而,HDP模拟抗菌聚合物的发现仍然依赖于传统的设计和优化策略,这种方法是半经验性的且效率低下。人工智能方法能够快速设计和优化各种化学成分,有望显著加速HDP模拟聚合物的发现。


然而,AI在聚合物设计中的实际应用面临两个根本性挑战,具体体现在聚合物预测和聚合物生成方面。对于聚合物预测,HDP模拟聚合物的少样本数据(每个家族的样本数少于102)远小于公共数据库中的聚合物数据。这种数据稀缺性会导致模型过拟合,特别是在方法迁移时,导致预测模型的性能下降。对于聚合物生成,聚合物空间是由聚合物的结构、组成、链长等众多变量构成的,这给AI在高维聚合物空间中高效准确地探索合理的、多属性约束的聚合物带来了挑战,其中某些属性可能甚至是相互矛盾的。这一挑战意味着现有的AI方法更多地侧重于优化具有特定序列或组成的聚合物,因为这些聚合物可以通过粗粒度模拟或枚举生成,而不是探索新颖的化学结构。因此,迫切需要开发一种高效的AI方法,能够在少样本聚合物数据的情况下,预测和生成具有多重约束的新型聚合物结构。


模型框架

图 1


作者的聚合物逆向设计框架的主要流程在图1中进行了说明。首先,作者收集了一组现有的数据,这些数据包括HDP模拟β-氨基酸聚合物的化学结构及其生物活性。这86种聚合物的化学结构由一个带正电荷的亚基和一个疏水亚基按不同比例组成,总链长为20(见图1a)。由于β-氨基酸聚合物结构丰富的特点,作者根据侧链取代基的位置及其环状/非环状取代模式进行了精细分类,并定义了11种骨架,以准确地一对一地表征聚合物结构。


其次,作者将聚合物结构转换为多模态聚合物表示,以捕捉全面的多尺度聚合物信息,用于训练预测模型,从而提升模型的性能(见图1b)。接着,作者开发了一种图语法蒸馏方法,对生成模型进行预训练,以基于化学原理生成更趋向于合理性和可用性的β-氨基酸聚合物结构(见图1c)。该图语法蒸馏方法不仅有助于限制聚合物的广泛和高维化学空间,还能生成更合理的新型聚合物结构以供实际使用。


最后,作者将这两个预训练模型结合在强化学习(RL)中,形成一个聚合物逆向设计框架。预测模型和生成模型分别被视为环境和代理,用于构建RL模式。生成模型生成一组新型聚合物,预测模型在评估其生物活性和结构后提供相应的奖励。通过这些奖励,生成模型的参数得到更新,以在下一次RL迭代中搜索新的聚合物结构。通过这样一遍又一遍的生成和预测模型迭代,最终根据预定义的生物活性值发现了一组候选聚合物。


多模态聚合物表示的构建与评估

作者随机选择了收集的86种聚合物中的80%作为训练集Dtrain_ori,其余20%的数据作为未见测试集Dtest。在这一阶段,作者构建了四个经典的基于机器学习的回归模型,包括梯度提升决策树(GBDT)、随机森林(RF)、极限梯度提升(XGB)和自适应提升(Adaboost),用于生物活性预测。作者采用了15折交叉验证,以评估不同模型在固定描述符下的性能(图2a–l)。

图 2


总体而言,GBDT模型在每个任务中均表现优于其他方法(图2a–c为GBDT,图2d–f为RF,图2g–i为XGB,图2j–l为Adaboost)。结果显示,GBDT在Dtrain_ori上预测聚合物的MICS.aureus、MICE.coli和HC10值时,平均R2值逐渐增加到0.626、0.640和0.795,表明随着描述符筛选的进行,逐步选择了更多相关信息(图2a–c,蓝框)。在应用数据增强后,平均R2值明显增加到0.739、0.681和0.831,表明与使用Dtrain_ori相比,预测准确性有所提高(图2a–c,红框)。通过使用GBDT在Dtest上的最终评估,平均R2值达到了0.672、0.537和0.834,作为本文的机器学习基准。所有机器学习模型在Dtest上的结果显示在图2m–o中。


此外,作者通过结合聚合物的文本序列、聚合物图和描述符的三种模式,进一步研究了所有预测网络的性能,并应用了之前讨论的描述符筛选和数据增强。此外,作者添加了GBDT、RF、XGB和Adaboost作为基本基准模型,并引入了最常用的聚合物表示Morgan指纹进行比较。结合三种模式“Seq+Graph+Descriptor_Opt”显示最高的平均R2值,分别为0.697、0.556和0.900,表明作者构建的多模态聚合物表示显著提高了少样本聚合物预测模型的准确性和稳定性。

图 3


作者进一步详细比较了所有聚合物的预测值与实际测量值之间的生物活性(图3a)。作者模型在DM系列聚合物的MICS.aureus、MICE.coli和HC10上的最终R2评分分别达到了0.91、0.88和0.91,而在MM系列聚合物上的评分分别为0.92、0.84和0.96。从雷达图中可以明显看出,预测值与实际测量值高度吻合,表明该预测模型能够对β-氨基酸聚合物的生物活性做出可信的预测。


此外,考虑到抗菌聚合物的多样性以及部分类型聚合物的稀有性,作者评估了所提出方法的可转移性,以扩大其适用性。根据评估结果,对于α-氨基酸聚合物,MICS.aureus和MICE.coli的MAE分别只有0.51和0.79,接近β-氨基酸聚合物的MAE(MICS.aureus和MICE.coli分别为0.17和0.40,见图3b–e)。这一事实表明,将作者的方法转移到具有与β-氨基酸聚合物相似结构特征的其他抗菌聚合物类别中具有良好前景。对于聚甲基丙烯酸酯,MICS.aureus和MICE.coli的MAE分别达到了1.24和1.95(几乎是β-氨基酸聚合物的六倍,见图3f–i)。对于聚甲基丙烯酰胺,MICS.aureus和MICE.coli的MAE分别达到了2.33和3.75(几乎是β-氨基酸聚合物的十倍,见图3j–m)。这些结果表明,由于与β-氨基酸聚合物存在显著差异,作者的模型在预测其他聚合物的属性时遇到了挑战。


图语法蒸馏的性能评估

作者使用ChEMBL数据集作为对照评估了通过图语法蒸馏预训练生成模型的性能。ChEMBL是一个常用的数据集,用于预训练生成模型,包含丰富多样的化学结构。作者在这两个预训练的生成模型上进行了450次强化学习微调过程,以在给定的多个限制条件下(如碳原子数量和侧链结构中的元素组成)生成具有所需化学结构的聚合物亚基。

图 4


结果显示,在RL训练的最后几次迭代中,图语法蒸馏预训练生成模型在聚合物的MICS.aureus值和碳原子约束上的平均总奖励获得了正值,表明生成的亚基符合设计要求(图4a)。相比之下,ChEMBL预训练生成模型的相应平均总奖励获得了负值,表明许多生成的亚基难以满足设计要求,尤其是在碳原子约束方面(图4b, c)。


作者进一步评估了图语法蒸馏预训练生成模型在所有三种生物活性、聚合物碳原子数量和碳环数量等多重约束条件下的性能。结果表明,图语法蒸馏成功地限制了高维化学空间,且通过它预训练的生成模型具有高效定制生成聚合物亚基的强大能力。


为了验证生成模型在多重约束条件下生成的聚合物的结构多样性,作者生成了包含2114种疏水亚基的β-氨基酸聚合物库,每个阳离子亚基对应一个疏水亚基,并使用拓扑数据分析映射器(TMAP)对所有疏水亚基进行了可视化(见图4d)。这些疏水亚基涵盖了可能的侧链结构,包含各种取代形式,均匀分布在定义的骨架中,包括代表性的六种β-氨基酸聚合物风格。这表明,作者基于图语法蒸馏的生成模型能够生成多种β-氨基酸聚合物,具有丰富的阳离子和疏水亚基,用于发现新的抗菌候选物。


基于AI预测的β-氨基酸聚合物结构与活性的可视化分析

以DM/MM作为代表性阳离子亚基,作者可视化了对MICS.aureus、MICE.coli和HC10生物活性的三种预测分布,并根据疏水亚基中碳原子数量的不同范围对这些聚合物进行了分类(见图4e–j)。根据预测结果,对于含有DM亚基的聚合物,分别有85.0%、92.2%和92.8%的聚合物在每个范围内(5-6、7-8和10-11)对革兰氏阳性细菌金黄色葡萄球菌(S. aureus)的MIC值小于25 μg/mL(见图4e),而对革兰氏阴性细菌大肠杆菌(E. coli)的比例分别为44.1%、36.5%和28.6%(见图4f)。相反,对于含有MM亚基的聚合物,较少的聚合物对S. aureus和E. coli表现出MIC值小于25 μg/mL的高活性,分别只有7.2%、29.7%和21.7%的聚合物对S. aureus达到该值(见图4h),而对E. coli的比例分别为7.5%、2.1%和0.0%(见图4i)。这些结果表明,含有DM亚基的聚合物在探索具有广谱抗菌潜力的聚合物方面具有更大的机会。


此外,对于给定的HC10值大于50 μg/mL的阈值,无论阳离子亚基是DM还是MM,在生成的19,026个样本中,聚合物的比例随着碳原子数量的增加而逐渐减少(见图4g, j)。上述发现指导我们在接下来的设计中选择一个更合适的碳原子数量范围(小于11)以获得更好的聚合物活性。


基于AI预测的β-氨基酸聚合物抗菌选择性指数(SI)的可视化分析


图 5


作者进一步对生成的β-氨基酸聚合物的抗菌选择性指数(SI)进行了整体预测,作为评估抗菌剂选择性和安全性的重要参数之一。在这里,作者重点探讨了通过选择合适的疏水亚基,使用DM作为阳离子亚基,来寻找具有高SI值的最优抗菌β-氨基酸聚合物。作者使用统一流形近似与投影(UMAP)方法,将所有具有DM亚基的β-氨基酸聚合物投射到一个二维嵌入化学空间中(见图5)。通过分别计算HC10/MIC对S. aureus和E. coli的值,作者收集了所有生成的19,026种聚合物的SI值,并根据SI范围对这些数据进行了分类和可视化分析。


广谱抗菌候选聚合物的发现

图 6


作者利用框架来发现具有理想生物活性的广谱抗菌聚合物(MICS.aureus < 25 μg/mL,MICE.coli < 25 μg/mL,HC10 > 100 μg/mL)。通过使用不同的β-氨基酸聚合物骨架,作者对候选聚合物进行了系统性的探索,最终通过将疏水亚基的碳原子数量限制在11个以下,发现了83种新的广谱抗菌候选聚合物。以β3-氨基酸骨架为例,作为疏水亚基模型,作者在强化学习微调过程中使用DM作为阳离子亚基,并收集了640种不同取代的β3-氨基酸聚合物(见图6a)。作者利用预测模型对MICS.aureus、MICE.coli和HC10的值进行了预测,并将所有值投射到一个以这三个属性为坐标的三维空间中(见图6b)。


AI预测的β-氨基酸聚合物的合成及广谱抗菌验证

图 7


为了验证AI系统对HDP模拟β-氨基酸聚合物抗菌活性和溶血毒性的预测准确性和可靠性,作者从众多候选聚合物中选择了β-氨基酸聚合物DMxiPeny。首先,通过共聚合DM单体和iPen单体,并随后脱保护,获得了具有不同正电荷和疏水性比例的β-氨基酸聚合物(见图7a)。凝胶渗透色谱(GPC)对N-Boc保护的聚合物的表征显示,分子量分布窄(D = 1.09–1.15),且具有可控的分子量和链长(DP = 20–23)(见图7b)。N-Boc脱保护聚合物的氢核磁共振(1H NMR)表明,疏水亚基的比例持续增加(见图7c)。


然后,作者使用人脐静脉内皮细胞系(HUVEC)和非洲绿猴肾成纤维细胞(COS7)作为代表性哺乳动物细胞,测试了该聚合物库对人红细胞(hRBCs)的溶血毒性和细胞毒性。结果发现,随着iPen组分比例的增加,溶血和细胞毒性活性增强(值降低),导致50%溶血的最低浓度(HC50)从200 μg/mL下降到12.5 μg/mL,导致50%抑制的最低浓度(IC50)从200 μg/mL下降到75 μg/mL。当疏水性比例达到30%时,聚合物的溶血性显著增强(见图7d–f)。


结合溶血、细胞毒性和抗菌活性的实验数据,DM0.8iPen0.2作为最优的抗菌候选物表现出广谱且强效的抗菌活性,这与作者通过AI系统预测的结果一致。作者的AI系统准确地预测了抗菌活性,并找出了具有低毒性的阳离子/疏水亚基比例。此外,DM0.8iPen0.2对哺乳动物细胞hRBC、HUVEC和COS7的抗菌选择性指数(SI)值为12–32(见图7g–i),抗菌SI值大于10表明该候选物具有选择性抗菌活性和潜在的应用前景。这证明了有希望的抗菌替代物的发现。


β-氨基酸聚合物(DM0.8iPen0.2)20的抗菌机制研究

图 8


作者研究了最优聚合物(DM0.8iPen0.2)20对耐药性革兰氏阳性和革兰氏阴性细菌的抗菌机制。针对代表性的S. aureus,作者使用DiSC3(5)染料作为细菌膜电位探针进行细胞质膜去极化测定,并使用碘化丙啶(PI)染料作为核酸染色剂进行细胞质膜通透性测定,以评估(DM0.8iPen0.2)20与细菌膜之间的相互作用。结果发现,(DM0.8iPen0.2)20对金黄色葡萄球菌表现出与Triton X-100(TX-100)相当的显著去极化效果,并且具有强烈的膜通透作用(见图8a, b)。扫描电子显微镜(SEM)表征显示,与未处理的正常金黄色葡萄球菌相比,(DM0.8iPen0.2)20处理的金黄色葡萄球菌细胞膜有明显的损伤(见图8c)。此外,作者进行了时间推移荧光共聚焦成像,使用绿色荧光染料标记的(DM0.8iPen0.2)20观察了动态的杀菌过程。在以1倍MBC(最小杀菌浓度)处理金黄色葡萄球菌后,观察到绿色荧光的(DM0.8iPen0.2)20和红色荧光的PI几乎同时进入细菌的细胞质,时间大约为30秒,这与强烈的膜通透效果相呼应(见图8d)。上述实验均表明(DM0.8iPen0.2)20通过与细菌膜的强烈相互作用来杀死耐药性金黄色葡萄球菌的抗菌机制。


针对代表性的E. coli,作者通过外膜通透性测试发现(DM0.8iPen0.2)20具有强烈的外膜扰动能力(见图8e)。连续的研究表明,(DM0.8iPen0.2)20对大肠杆菌表现出强烈的去极化和通透作用,这与SEM表征中(DM0.8iPen0.2)20处理的大肠杆菌膜表面出现皱纹的实验结果一致(见图8f, g)。此外,动态杀菌过程的共聚焦成像显示,带有绿色荧光的(DM0.8iPen0.2)20逐渐富集在膜表面,然后红色荧光的PI开始进入细菌细胞质(见图8h)。所有这些实验结果表明,(DM0.8iPen0.2)20通过膜损伤的抗菌机制来杀死耐药性大肠杆菌。


讨论

本文开发了一个端到端的AI引导逆向设计框架,用于在86个少样本数据的条件下有效探索新型宿主防御肽模拟聚合物。通过多模态聚合物表示提取多尺度信息,提高了预测模型在少样本数据设置下的准确性。框架还整合了β-氨基酸和天然α-氨基酸的数据,构建了更集中的化学空间,使生成模型能够在多重约束下有效生成具有高化学合理性和合成可行性的聚合物。最终,模型生成了超过10万个新型聚合物,并筛选出83个最优候选聚合物,其中一个候选物(DM0.8iPen0.2)20显示出广谱且强效的抗菌活性,验证了AI策略的有效性和可行性。

编译 | 于洲

审稿 | 曾全晨

参考资料

Wu T, Zhou M, Zou J, et al. AI-guided few-shot inverse design of HDP-mimicking polymers against drug-resistant bacteria[J]. Nature Communications, 2024, 15(1): 6288.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章