蛋白质-蛋白质相互作用 (PPI) 是几乎所有生物过程的基石,它决定了信号通路的动态变化以及细胞功能所必需的结构框架。正确理解蛋白-蛋白相互作用对蛋白质工程和药物发现的进步至关重要。其中,亲合性作为描述蛋白-蛋白相互作用强度的关键因素决定了蛋白质复合物的形成和特异性。传统实验和理论方法在高通量测试场景中面临着人力和成本的双重挑战。目前,已有多项基于机器学习方法进行蛋白-蛋白相互作用预测的研究得到报道,但由于缺乏全面的数据,该领域仍未得到全面的探索。针对这一领域中的问题,南洋理工大学慕宇光团队通过人工筛选创建了迄今为止最大的基于结构的蛋白质相互作用数据集,并在此训练集上开发了ProAffinity-GNN——一种基于蛋白质语言模型以及图神经网络的深度学习框架,可实现高准确性的蛋白-蛋白亲合性预测,在多个基准测试集的评估结果表明,ProAffinity-GNN 不仅在准确性方面优于现有模型,而且还表现出强大的泛化能力。近日,这一研究工作发表在美国化学会出版的计算化学核心期刊Journal of
Chemical Information and Modeling期刊上。1首先,作者基于PDBbind 20202构建了一个蛋白复合物数据集用于基于结构的蛋白-蛋白亲合性预测。对于PDBbind中的原始数据,作者标记了链间最小相互作用的单元。图1展示了常见的几种蛋白-蛋白复合物情况,分别包括异链相互作用对、对称寡聚复合物、同源多聚体复合物等等。除复杂的情况采取专门处理外,针对不同的复合物情况,作者遵循了特定的划分准则,最终得到2283个标记好的成对蛋白结构。而后这些结构通过相似度计算去冗余,并以8:2的比例划分为训练集与测试集。
图1 处理数据过程中常见的蛋白-蛋白复合物情况
随后,作者在自行构建的数据集上开发训练了一个基于图网络的蛋白-蛋白亲合性预测模型——ProAffinity-GNN。模型的架构如图2所示。蛋白质复合物的结构被建模为两种类型的图:蛋白链内图和蛋白链间图。链内图描述蛋白质内部的相互作用,而链间图捕捉不同蛋白质之间的相互作用。在这些图中,节点代表单个氨基酸残基。在链内图中,当两个节点之间的距离小于或等于 3.5Å 时,定义它们之间存在边;而在链间图中,若异链节点之间的距离小于或等于 6Å,则定义它们之间存在边。在两种类型的图中,作者使用ESM2 3进行节点嵌入,ESM2的输入为单条链的氨基酸序列。完成图的构建后,作者采用多个具有注意力机制的图神经网络层,以从每个图中提炼和学习复杂的特征。值得注意的是,作者使用了AttentiveFP框架4作为图网络的核心,以高效地处理输入图信息。在这些图网络层更新每个图中的特征之后,池化操作会在每个图中的所有节点上聚合这些更新的特征,以捕获全面的图级信息。而后作者将这些来自每个图的聚合特征拼接起来,确保组合的特征向量封装了来自蛋白质-蛋白质相互作用表面和每个蛋白质内部的全面信息。随后拼接的特征向量会经过几个由ReLU激活的全连接层,最终经过线性层输出预测的蛋白-蛋白亲合性。
图2 ProAffinity-GNN架构
作者随后对模型预测的性能进行了测试,在五折交叉验证中,模型的预测平均Pearson相关系数为0.63,平均MAE为1.54 kcal/mol,与PPI-Affinity报道的结果相比有显著提升。此外,作者还在三个基准测试集中与现有方法进行了比较分析,三个基准测试集分别为:从基于结构的蛋白质-蛋白质亲合性基准数据集5中提取的包含79个数据的基准测试集1,该数据集已广泛应用于相关工作中;基准测试集2为PPI-Affinity6中使用的从PDBbind数据库中提取的双链蛋白复合物结构,作者仅选取了其中亲合性表示为kd的数据,共包含数据82个;基准测试集3为以上两数据集的加和,共包含161个数据。在基准测试集1上,ProAffinity-GNN的表现与PRODIGY相当, Pearson相关系数约为0.7。而在其余两个测试集上,ProAffinity-GNN的Pearson相关系数达到约0.65,而现有方法的相关系数均在0.5及以下,ProAffinity-GNN的表现显著优于现有方法并表现出较强的通用性。 而后,作者对模型进行了消融实验,用以剖析模型的组成成分对于预测性能的影响。研究的模型变体包括包含三层且没有边特征的GAT、仅具有分子间图的AttentiveFP基线模型、仅具有分子内图的AttentiveFP基线模型以及代表整个结构的单个图构成的AttentiveFP基线模型(包含链间及链内边特征)。消融实验结果如表1所示,单独使用GAT层会导致模型性能下降,这表明AttentiveFP结构能够更高效地聚合图中的信息。此外,与仅关注单一信息的模型相比,将链间信息与链内信息结合以描述整个复合物结构的模型通常表现更优。进一步分析显示,链间信息是主要的贡献因素,而链内结构信息则起到辅助作用。表1 模型消融实验结果
此外,作者还使用模型进行了实际案例探究,对丝氨酸蛋白酶(HtrAs)的PDZ结构域与多肽相互作用强度进行排序。对于人源HtrA1,ProAffinity-GNN成功将优化后的多肽配体准确识别为排名第一。而在HtrA3的预测中,由于多肽片段较短,信息量较少,模型将优化后的肽段排在第五位。然而需要指出的是,排名前五的肽段IC50值差异很小,仅在0.5 μM范围内。此案例研究强调了 ProAffinity-GNN的多功能性,展示了其处理蛋白质-蛋白质和蛋白质-多肽相互作用的能力,展现了模型在不同生物背景下的广泛适用性。
在本项研究中,作者整理了一个基于PDBbind的精选数据集,重点关注成对相互作用的蛋白质-蛋白质复合物,并手动添加标签以识别相互作用的两条链。此外,作者开发一种新颖的蛋白-蛋白亲合性预测深度学习方法——ProAffinity-GNN,模型利用蛋白质语言模型和图神经网络,将空间结构与包含大量潜在信息的蛋白质序列相结合输出预测亲合性数值。评估表明,ProAffinity-GNN 不仅比现有方法具有更优异的性能,而且在各种外部数据集中表现出卓越的泛化能力。此外,蛋白质-多肽相互作用排序的扩展案例研究更凸显了ProAffinity-GNN的多功能性和广泛适应性。这一基于结构的亲合性预测方法有望为蛋白-蛋白亲合性预测领域提供新的解决思路。参考文献:
(1) Zhou, Z.; Yin, Y.; Han, H.; Jia, Y.; Koh, J.
H.; Kong, A. W.-K.; Mu, Y. ProAffinity-GNN: A Novel Approach to Structure-Based
Protein–Protein Binding Affinity Prediction via a Curated Data Set and Graph
Neural Networks. J. Chem. Inf. Model. 2024.
(2) Liu,
Z.; Su, M.; Han, L.; Liu, J.; Yang, Q.; Li, Y.; Wang, R. Forging the Basis for
Developing Protein–Ligand Interaction Scoring Functions. Acc. Chem. Res.2017, 50 (2), 302–309.
(3) Lin,
Z.; Akin, H.; Rao, R.; Hie, B.; Zhu, Z.; Lu, W.; Smetanin, N.; Verkuil, R.;
Kabeli, O.; Shmueli, Y.; dos Santos Costa, A.; Fazel-Zarandi, M.; Sercu, T.;
Candido, S.; Rives, A. Evolutionary-Scale Prediction of Atomic-Level Protein
Structure with a Language Model. Science 2023, 379 (6637),
1123–1130.
(4) Xiong,
Z.; Wang, D.; Liu, X.; Zhong, F.; Wan, X.; Li, X.; Li, Z.; Luo, X.; Chen, K.;
Jiang, H.; Zheng, M. Pushing the Boundaries of Molecular Representation for
Drug Discovery with the Graph Attention Mechanism. J Med Chem 2020,63 (16), 8749–8760.
(5) Kastritis,
P. L.; Moal, I. H.; Hwang, H.; Weng, Z.; Bates, P. A.; Bonvin, A. M. J. J.;
Janin, J. A Structure-Based Benchmark for Protein–Protein Binding Affinity. Protein
Science 2011, 20 (3), 482–491.
(6) Romero-Molina,
S.; Ruiz-Blanco, Y. B.; Mieres-Perez, J.; Harms, M.; Münch, J.; Ehrmann, M.;
Sanchez-Garcia, E. PPI-Affinity: A Web Tool for the Prediction and Optimization
of Protein–Peptide and Protein–Protein Binding Affinity. J. Proteome Res.2022, 21 (8), 1829–1841.