近年来,在预测蛋白-配体对接构象与蛋白-配体亲合性这两个关键任务中,深度学习模型的表现十分出色。然而,许多现有模型通常忽略了非共价相互作用的建模,从而限制了其泛化能力和可解释性。为了解决这一问题,腾讯人工智能实验室与湖南大学曾湘祥教授团队、斯坦福大学团队合作,提出了一种全新的基于图神经网络架构的模型——Interformer。这一模型在对接任务上达到了SOTA水平。该研究成果于近期发表于Nature
Communication期刊【1】。1.模型概述
如图1a所示,Interformer利用Graph-Transformer处理蛋白质和配体的3D结构,其中节点表示原子,边表示原子之间的距离,通过分子内图和分子间图进行处理,进行特征交互与更新。随后,这些信息输入一个基于交互感知混合密度的网络(Mixture
Density Network, MDN)以捕获非共价相互作用。混合密度函数是一种通过多个高斯分布的加权组合来表示复杂概率分布的函数形式。文中的高斯分布涵盖普通的原子对间相互作用、疏水相互作用以及氢键相互作用。通过这种方式,MDF能够有效地表示不同类型原子对之间的距离分布及其概率,帮助模型的预测结果所展示的相互作用情况贴近真实情况下的相互作用,输出更合理的蛋白配体对接构象。Interformer使用PDBbind
2020 general set训练其对接模型。PDBbind数据库系统地收集和整理了Protein
Data Bank(PDB)中各类复合物的三维结构信息及其对应的亲合性实验数据。在此基础上,研究人员为每个样本生成了20个对接构象,得到392,406个样本。其中,阳性样本87,579个(RMSD
< 2 Å),阴性样本304,827个(RMSD
> 2 Å),用于亲合性和打分模型的训练。在这个对接构象的基础上,Interformer模型在亲合性预测和构象打分模块中使用对比学习,引入伪Huber损失函数,用于区分正负样本的结合构象(图1b)。当模型输入的构象是好构象时(正样本),这一损失函数使模型预测的亲合性值接近实验值;而当模型的输入是差构象(负样本)时,这一损失函数会限制模型对不合理的结合构象输出过高的亲合性预测值。图1.Interformer架构概述
2.模型结果
Interformer在多个基准测试中表现卓越,包括PoseBusters和PDBbind测试集。PoseBusters数据集是一个评估对接构象的新测试集,数据来自PDB数据库,它强调结合构象的物理合理性,排除了原子间的空间冲突等问题【2】。PDBbind测试集不仅包含蛋白-配体结合构象的晶体结构,还包含其相应的亲合性数据。在预测对接构象的任务中,Interformer的对接模块会预测大量的对接构象,由好到差依次输出。一般情况下,预测构象和晶体结构之间RMSD
< 2 Å即表示构象预测成功。该模型在这两个测试集中Top1准确率分别达到84.09%和63.9%,达到目前最先进的(SOTA)性能。模型还显著提升了氢键和疏水相互作用的恢复率,展现了对复杂分子间相互作用的敏感捕捉能力。经PDBbind测试集评估,DiffDock平均只能还原29.42%、23.55%的氢键【3】【4】。相比之下,基于构象打分任务的Interformer平均能恢复57.25%的氢键和43.7%的疏水相互作用(图2)。
图2.通过不同方法恢复不同相互作用的数量统计图
此外,由于该模型使用对比学习策略,将负样本纳入训练集,因此其在预测亲合性时能够区分优劣构象,从而提升了实际场景中的预测能力。在CASF-2016基准测试中,Interformer在使用晶体构象和对接构象预测亲合性时,预测结果的Pearson相关系数分别是0.809和0.810,表现优异(图3)。图3.不同方法在CASF-2016
coreset上的表现,以Pearson相关系数和Spearman相关系数表示。†表示使用晶体结构,‡表示使用Interformer生成的对接姿势。w/和w/o分别表示包含和不包含负样本训练时模型的效果。
此外,Interformer在四个真实场景测试集中也展现出优异的亲合性预测能力:在ChEMBL-Kinase数据集上,该模型对27个蛋白靶点,2539个数据点进行评估,Pearson相关系数达到了0.229,与SOTA模型GNINA表现相当。在针对癌症靶标LSD1的小分子优化任务中,模型的预测结果相关系数达到0.523(图4上中),优于GNINA。在Mpro共价结合测试中,Interformer超越了传统的CovDock方法,Pearson相关系数达到0.460。在内部Mpro药物开发项目中,最优化合物的亲合性达16
nM,预测结果的相关系数为0.604(图4下中)。3.模型应用
在实际药物研发项目中,Interformer已成功应用于两种药物的开发管线。针对LSD1,模型协助发现了靶标亲合性为0.7
nM的小分子化合物。而在针对新冠病毒主蛋白酶(Mpro)的研究中,模型帮助设计了一种靶标亲合性为16
nM的小分子抑制剂,展示了其在抗病毒药物开发中的潜力。此外,相关实验结果也进一步证明了,用含有负样本的数据训练对于模型的预测效果有着较大的提升。图4.LSD1(上)和Mpro(下)管线。从左往右依次是最有潜力的化合物、含有负样本训练的Interformer预测结果与实验结果的相关性、不含负样本训练的Interformer预测结果与实验结果的相关性。
4.总结
Interformer凭借其创新的交互感知混合密度网络(MDN),不仅可以比较可靠地预测蛋白-配体的对接构象,还为预测亲合性提供了可靠性和可解释性。未来,该模型的框架有望扩展到蛋白-蛋白和蛋白-核酸等多样化分子相互作用的研究中,为生物计算和药物设计提供更多支持。值得思考的是,该模型主要关注氢键和疏水作用两种经典非共价相互作用,但在某些药物设计任务中,金属配位键、π
- π堆积、卤键等相互作用同样重要。这些特殊相互作用是否可以纳入MDN网络的考虑范畴,从而提升模型的性能,可能是值得进一步探索的方向。参考文献:
【1】Lai H, Wang L, Qian R, et
al. Interformer: an interaction-aware model for protein-ligand docking and
affinity prediction. Nat Commun, 2024, 15(1): 10223.
【2】Buttenschoen, M., Morris,
G.M., Deane, C.M. Posebusters: Ai-based docking methods fail to generate
physically valid poses or generalise to novel sequences. Chemical Science, 2024,
15(9), 3130–3139.
【3】Méndez-Lucio, O., Ahmad,
M., del Rio-Chanona, E. A. &Wegner, J. K. A
geometric deep learning approach to predict binding conformations of
bioactive molecules. Nat. Mach. Intell.2021, 3, 1033–1039.
【4】Corso, G., Stärk, H.,
Jing, B., Barzilay, R. & Jaakkola, T. Diffdock: diffusion steps, twists,
and turns for molecular docking. International
Conference on Learning Representations (ICLR), 2023.