【佳作推荐】伯明翰大学与澳门理工大学Shan He团队Nat. Commun论文:基于分子粗粒度建模蛋白-蛋白复合物特性预测模型

学术   2025-01-01 08:55   上海  

近年来,深度学习在预测蛋白-蛋白相互作用(PPI)复合物的性质方面取得了显著进展。然而,现有的模型大多基于原子尺度或残基尺度的图结构表示,存在计算成本高或无法有效整合精细的化学相互作用细节等问题。为了解决这些挑战,伯明翰大学与澳门理工大学Shan He团队提出了一种名为MCGLPPI的几何表示学习框架。该框架结合了图神经网络(GNN)和MARTINI分子粗粒化(CG)模型,能够在保证预测精度的同时,显著降低计算成本。该研究成果于近期发表于Nature Communication期刊【1】。

1.模型概述

如图1所示,MCGLPPI框架主要包含三个部分。首先,图1a模块将原子尺度的PPI结构转换为CG结构,并使用MARTINI力场参数生成CG复合物图。MARTINI模型是蛋白质MD模拟中广泛认可的CG级模型,将平均四个重原子及其相关的氢原子表示为一个CG珠。它将珠表示为多种主要物理类型,包括极性、非极性、疏水性和带电性等等。这些性质作为图表示的节点特征,节点之间的连接则代表珠子之间的相互作用,包括化学键和范德华力等。

1b模块使用GNNCG复合物图进行编码,提取其高维几何表示。编码器能够有效地捕捉图中的复杂关系,例如节点之间的距离、角度、二面角等信息,用于亲合性预测、蛋白界面分类的任务。

最后,图1c展示了基于Domain-domain interactionDDI)的CG尺度图编码器预训练,该模块使用3DID数据库【2】中的结构域-结构域相互作用结构进行预训练,增强模型对PPI下游任务的预测能力。预训练过程采用自监督学习方法,通过对图结构进行扰动和重建,使模型学习到DDI结构的普遍规律。

1.MCGLPPI架构概述

2.模型结果

MCGLPPI在多个基准测试中表现卓越,包括PDBbind数据集中的严格蛋白质二聚体子集(PDBbind-strict-dimer数据集)【3】、ATLAS数据集【4】和MANY/DC数据集【5】【6】。

PDBbind-strict-dimer数据集是PDBbind数据集中蛋白-蛋白亲合性数据的一个子集,仅包含蛋白质二聚体结构。ATLAS数据集包含T细胞受体(TCR)与主要组织相容性复合体(pMHC)形成的复合物结构及其亲合性值。这两个数据集都用于测试模型在亲合性预测任务上的效果。在PDBbindATLAS数据集中,MCGLPPI分别实现了相关系数(RP0.5970.832,同时GPU内存消耗和运行时间较现有的原子尺度和残基尺度模型减少了约3倍。表1展示了不同模型在PDBbind-strict-dimer数据集上的准确率与计算成本。

1.使用一台A100 GPU 40GB,在PDBbind-strict-dimer数据集上,测试不同方法在batch size32的情况下,模型的性能和计算成本(MCGLPPI-M2MCGLPPI-M3分别表示由MARTINI22MARTINI3生成的CG表示)。

MANY/DC数据集包含具有生物界面或晶体堆积界面的二聚体结构,结果表明,MCGLPPI在区分生物界面与晶体堆积界面任务上表现出色,AUROC值达到0.883,优于其他原子尺度和残基尺度方法(表2)。

2.使用一台A100 GPU 40GB,在MANY/DC数据集的上测试不同方法在batch size32的情况下,模型的性能和计算成本(MCGLPPI-M2MCGLPPI-M3分别表示由MARTINI22MARTINI3生成的CG表示)。

总体而言,这两种模型在不同批量大小下的性能均优于原子尺度和残基尺度模型。这种性能提升的原因可能在于MARTINI力场的引入,该力场整合了蛋白质热力学和特定二级结构支持信息,这些信息被注入到粗粒度(CG)复合图的键(边)中,为模型提供了相较于原子尺度和残基尺度模型更强的区分能力。

此外,研究人员还尝试了在3DID数据库中的41,663个结构域-结构域结构(DDI)数据上进行预训练,模型在预训练过程中对输入的粗粒化图结构引入噪声(如扰乱节点或边的特征),通过学习恢复原始的无噪声图。这些预训练的知识使模型在后续任务(如PPI亲合性预测和界面分类)中更快地收敛,并具备更好的泛化能力。如图2所示,在PDBbind数据集中,预训练的模型在亲合性预测的相关系数从0.597提升到0.606;在ATLAS上也可观察到预训练对预测结果有一定的帮助。然而,在界面分类的任务上,这一预训练却损害的模型的效果,可能是预训练数据主要来自真实的生物学交互,而分类任务中需要区分的晶体堆积界面并非生物学交互的一部分。

2.基于DDI扩散去噪的预训练对三个下游数据集性能的影响。

3.总结

MCGLPPI框架通过融合图神经网络(GNN)与MARTINI粗粒度模型(CG模型),实现了蛋白质-蛋白质相互作用(PPI)亲合性及界面分类任务的快速且精确预测。未来,MCGLPPI框架有望扩展到其他生物分子相互作用的研究中,为生物医学领域的发展提供更多支持。

值得注意的是,虽然该模型显著缩短了训练周期,但在图表示构建过程中,MARTINI的运算消耗同样不容忽视。此外,测试中用于比较的网络较为有限,仅选用了GearNet GVP-GNN。可以引入更多对比模型,以全面展现本模型在性能上的优势。

参考文献:

【1】Yue, Y., Li, S., Cheng, Y., Wang, L., Hou, T., Zhu, Z., & He, S.. Integration of molecular coarse-grained model into geometric representation learning framework for protein-protein complex property prediction. Nature Communications, 15(1), 9629 (2024).

【2】Mosca, R. et al. 3did: a catalog of domain-based interactions of known three-dimensional structure. Nucleic Acids Res. 42, D374–D379 (2014).

【3】Wang, R. et al. The PDBbind database: collection of binding affinities for protein− ligand complexes with known three-dimensional structures. J. Med. Chem. 47, 2977–2980 (2004).

【4】Borrman, T. et al. ATLAS: a database linking binding affinities with structures for wildtype and mutant TCRpMHC complexes. Proteins Struct. Funct. Bioinform.85, 908916 (2017)

【5】Baskaran, K. et al. A PDB-wide, evolution-based assessment of protein-protein interfaces. BMC Struct. Biol. 14, 1–11 (2014).

【6】Duarte, J. M. et al. Protein interface classification by evolutionary analysis. BMC Bioinform. 13, 1–16 (2012).

ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章