【佳作推荐】澳大利亚蒙纳士大学Webb小组NMI论文:从序列数据中学习蛋白质-配体相互作用指纹的物理化学图神经网络

学术   科学   2024-09-16 09:26   上海  
药物设计成功的关键在于正确理解药物分子与靶蛋白的相互作用,特别是在计算机辅助药物设计领域,合理的蛋白-配体相互作用指纹可以为计算方法提供精确且有效的相互作用信息。目前相互作用指纹的生成方法按照输入方式的不同可分为三类:基于序列的方法、基于结构的方法、基于复合物的方法。其中后两种方法以分子三维结构作为输入,普遍认为在空间和分子理化性质等方面的精度优于基于序列的方法。但在实际应用中,蛋白、配体和复合物的空间结构必须通过实验获得,这会极大地增加研发成本并且延长研发时间。

近日,澳大利亚蒙纳士大学Geoffrey I. Webb小组针对这一问题,设计出一种从序列数据中学习蛋白质-配体相互作用指纹的物理化学图神经网络PSICHIC,该模型以配体SMILES和蛋白序列作为输入,通过结合理化性质的聚类算法约束图网络,使得该网络产生的相互作用指纹具有较高的精度和可解释性。近日,该研究论文发表在著名期刊Nature Machine Intelligence(Nat Mach Intell 6, 673–687)1

1. 模型概述

PSICHIC模型以蛋白序列和配体SMILES作为输入,分别编码为2D的蛋白图和分子图,其中每个节点除常规特征编码外还被赋予了物理化学性质。随后,作者设计了理化性质指导的图卷积网络层,每层网络执行三步运算:①节点按照图网络的运算规则进行分子内信息交换,②分子内所有节点按照其被赋予的理化性质进行聚类,配体分子划分为官能团集合,蛋白分子划分为蛋白区域集合,③蛋白与配体分子间按照聚类结果进行信息交换,通过交叉注意力网络计算蛋白-配体特定聚类区域之间的相互作用。经过三层图网络的特征运算后,蛋白图与小分子图将被整合为相互作用指纹供后续任务使用。

1-PSICHIC模型架构

2. 模型评估

首先,为了验证PSICHIC产生的相互作用指纹在蛋白-配体相互作用性质预测方面的效果。作者设计了如下四个任务:①蛋白-配体亲合性打分任务:使用PDBbind v2020v2016refined set对模型进行训练,并在test set评估亲合性打分性能;②蛋白-配体相互作用二分类任务:从HumanBioSNAPBindingDB数据库中提取的序列数据按7:2:1的比例划分为训练集、验证集和内部测试集,用于模型的训练与测试。此外,作者还搭建了外部测试集,以测试模型的泛化能力;③将小分子功能分为激动剂、拮抗剂和无相互作用三类,作者从ExCAPEPapyrusCortellis数据库中提取相关数据,对模型进行训练和测试;④虚拟筛选任务:为使模型适用于虚拟筛选,作者构建了一个大规模交互数据集,并采用多任务、多采样策略对PSICHIC模型进行训练,使其能够同时预测亲合性与分子功能,并根据预测出的性质对化合物进行排序。作者还使用A1R拮抗剂对模型进行了微调,并将常规模型和微调后的模型应用于A1R的虚拟筛选任务,评估其虚拟筛选性能。

亲合性预测任务中,PSICHICPDBbind v2020 test set上的MAE达到了1.015,优于所有以序列作为输入的模型和大部分以结构作为输入的模型。在二分类任务中,相比于同样以序列作为输入的STAMP-DPIDrugBANPSICHIC表现出了优异的二分类能力(图2),并且在外部测试集上仍然有较好的表现,说明模型具有不错的泛化能力。在小分子功能预测任务中,(图3),PSICHIC可清楚地分辨小分子对于指定蛋白的功能,测试中该模型的准确性得分为0.96,分类加权F1得分为0.92,显著优于其他基于序列的模型。在虚拟筛选任务中,无论是常规模型还是根据靶点微调之后的模型,PSICHIC均能将阳性分子排至较高的位次,常规模型为21位,微调后的模型为第3位,显著优于其余2个模型。综合以上四点,PSICHIC模型被认为可以产生有效的蛋白-配体相互作用指纹。

2-蛋白-配体相互作用二分类任务测试结果

3-小分子功能预测任务测试结果

随后,作者分别从配体和蛋白两个方面对PSICHIC模型进行可解释性分析。配体方面,通过查询PSICHIC模型对各个配体-蛋白相互作用对分配的权重,发现配体分子中形成相互作用的原子得到的分数明显高于无相互作用的原子(图4),可以作为一种潜在的药效团分析方法。在蛋白方面,通过查询蛋白不同区域残基被赋予的权重,发现越靠近蛋白原本口袋的区域,模型赋予的权重越高,并且高权重区域倾向于聚集在真实结合位点(图5)。综合以上两点,可以认为PSICHIC从物理化学方面理解了蛋白-配体相互作用知识,模型具有较好的可解释性。

4-配体方面可解释性分析结果

5-蛋白方面可解释性分析结果

最后,考虑到药物设计过程中,配体分子选择性的预测是最高难度的任务之一。作者通过预测腺苷受体拮抗剂在不同亚型的腺苷受体上的亲合性来测试PSICHIC模型在评估配体选择性任务上的表现,结果表明(图6),除A2B-NECA体系上模型预测结果偏低外,其余体系中模型均有良好的表现,经过进一步的分析,发现模型可以精确区分不同亚型的配体-蛋白相互作用对,使得PSICHIC有着优秀的配体选择性预测能力。

6-配体选择性测试结果

小结:本研究使用基于物理化学知识的聚类方法来限制图网络中信息交换的方向,大幅减少了图网络运算中由于随机性和分散性造成的过拟合现象。通过多种测试方法展现了该模型在蛋白-配体相互作用性质预测方面的优秀性能和不俗的可解释性。近年来新出现的蛋白-配体相互作用预测模型中引入物理化学性质的模型不占少数,大都是将性质编码进特征中,本研究则是以性质限制图网络的信息交换,具有不错的创新性。但小编同样要指出,本研究所有测试方法中PSICHIC模型的训练数据和训练方法均不相同,这种测试方法是否值得推崇,有待商榷。

参考文献

[1] Koh, H.Y., Nguyen, A.T.N., Pan, S. et al. Physicochemical graph neural network for learning protein–ligand interaction fingerprints from sequence data. Nat Mach Intell 6, 673–687 (2024). https://doi.org/10.1038/s42256-024-00847-1


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章