随着深度学习技术广泛应用于蛋白配体亲合性预测的研究,近年来报道的打分函数已经能够取得较为良好的预测性能,并在虚拟筛选等具体的应用场景中更快更高效地发现潜在的活性分子,起到积极的促进作用。然而,比起外推更擅长于插值的机器学习和深度学习算法,在相对陌生的体系面前,其预测性能都出现了一定程度的下降;同时,结构与亲合性之间的规律隐藏在了部分采用的低维结构特征输入和越发海量的模型参数中,使得用户难以判断输出的亲合性打分是否符合基本的物理化学知识。为了提高深度学习亲合性预测模型的泛化能力和可解释性,增强打分函数的真实预测能力,中山大学智能工程学院的陈语谦团队进行了一系列探索,通过异质图来区分表征蛋白配体复合物中的共价和非共价相互作用,并在加和原子对的亲合性贡献基础上引入偏差校正项,开发了预测性能出色的EHIGN模型,在模型的泛化能力和可解释性上也有良好的表现。近期,该论文发表在国际人工智能领域期刊IEEE Transactions on Pattern Analysis and Machine
Intelligence上(IEEE Trans. Pattern Anal.
Mach. Intell. 2024, 10.1109/TPAMI.2024.3400515.)【1】。
图1:EHIGN模型设计与框架
当下在亲合性预测领域,基于相互作用图神经网络(interaction graph neural network,IGNN)的深度学习打分函数表现出了较为良好的性能及发展潜力。作者认为,原因在于这些模型利用了复合物的三维结构,对蛋白配体相互作用的表征为模型设置了符合一定物理化学规律的归纳偏置,使得它们更有机会学习到复合物结构中的相互作用关联并进行预测。然而,许多IGNN模型采用了同质图作为表征方式,将蛋白和配体的原子、键分别视作同类型的节点和边。这一做法没有考虑到对配体而言,蛋白配体间非共价相互作用占据了主导地位,在消息传递更新节点特征的过程中,配体分子内部共价键的影响被明显降低,导致了潜在的信息丢失。因此,作者将其改进为异质图的表征方案,区分了蛋白和配体的原子,也区分了相互作用的类型,从而以四类不同的相互作用对蛋白配体复合物进行表征(图1)。在模型结构上,作者所采用的归纳偏置假设了总的亲合性可由所有的蛋白配体原子对所产生的非共价相互作用加和得到,这约束模型必须根据相互作用来给出亲合性预测,从而有望提高模型的泛化能力和可解释性(图1)。更重要的是,在亲合性打分的输出上,作者也意识到了简单加和的方式所带来的潜在偏差,因而设计了可学习的偏差校正项来尽可能消除这一偏差造成的影响,进而改善模型的泛化能力(图1)。为了充分测试评价EHIGN(explainable heterogeneous interaction graph neural
network)模型的亲合性预测能力,作者将PDBbind v2016的蛋白配体数据集用于训练和验证,在PDBbind v2013和v2016的核心集上进行测试,并在相同的训练、验证数据集条件下与若干代表性的亲合性打分函数(如RF-Score、Pafnucy、IGN、EGNN、GIGN等)的重新训练版本进行了比较。结果表明,EHIGN在2013和2016核心集上均超越了所有参与比较的重训练版SOTA模型。随后,作者分别设计了冷热启动测试、PDBbind v2019新数据测试及CSAR-HiQ外部测试三组实验来进一步考察EHIGN模型的泛化能力(图2)。其中,冷热启动测试是分别按照30%蛋白序列一致性、配体分子骨架和随机划分的方案,将原先的训练集以8:1:1的比例重新划分出训练-验证-测试集后进行的实验。在三组实验中,尽管均较PDBbind核心集上的测试指标有所降低,EHIGN均取得了最好的表现,在独立的CSAR-HiQ测试集上也能达到Rp = 0.811的较高相关性,反映了其在相对陌生的、更接近于真实世界应用场景下也具备较为良好的预测性能。
图2:EHIGN等模型在不同测试集上的打分及泛化能力展示
为了分析模型设计中异质图表征、原子对亲合性加和以及偏差校正项对亲合性预测性能和泛化能力的贡献,作者构建了四种变体开展消融实验。EHIGN模型和其四种变体在PDBbind v2013和v2016的核心集以及PDBbind v2019新数据上的测试结果充分表明了,复合物的异质图表征、加和所有原子对的亲合性贡献、引入偏差校正项三个设计均对模型的亲合性预测能力起到了一定的贡献。其中,后者对于模型泛化能力的提升更加明显,在相对更陌生的PDBbind v2019新数据面前,变体4(H+A)在引入偏差校正后,其亲合性预测的Rp提升幅度最大(图3)。
图3:EHIGN模型的消融实验结果
为了展示模型的实用性与可解释性,作者采取了案例研究的方式,考察了EHIGN与经典打分函数smina对SARS-CoV-2的主蛋白酶Mpro共价抑制剂奈玛特韦在不同突变体上的亲合性预测结果,表明前者的亲合性打分与实验亲合性数据趋势一致,反映出EHIGN可以发现结合位点处的残基突变对亲合性的影响。由于EHIGN采用了加和各原子对的非共价相互作用的策略,因此可以直观地可视化分析各配体原子受到的相互作用对亲合性打分的贡献,所得到的贡献特征符合已知共晶结构的结合模式变化趋势(图4)。
图4:奈玛特韦与不同Mpro突变体的结合模式及EHIGN模型打分可视化分析
小编评论:
这篇论文的工作在复合物结构表征和亲合性打分方式上进行了有意义的探索,开发了具有良好预测性能、泛化能力和可解释性的亲合性预测模型EHIGN。其中,改进亲合性打分为各蛋白配体原子对非共价相互作用贡献之和加上偏差校正项的策略,对于模型的泛化能力起到了明显的提升作用。值得一提的是,如果将Δ-ML策略视作用机器学习算法学习经典打分函数预测的潜在偏差,那么将这项工作中的偏差校正项视为学习了简单加和各原子亲合性贡献的潜在偏差未尝不可。从其对泛化能力的改进上,或许提示了日后开发亲合性预测模型中,不妨结合模型自身设计,为输出的亲合性打分设置可学习的某种偏差校正方式,以降低难以避免的潜在偏差影响。参考文献:
【1】Ziduo Yang*, Weihe Zhong, Qiujie Lv, Tiejun Dong,
Guanxing Chen, and Calvin Yu-Chian Chen*, Interaction-Based Inductive Bias in
Graph Neural Networks: Enhancing Protein-Ligand Binding Affinity Predictions
From 3D Structures. IEEE Trans.
Pattern Anal. Mach. Intell. 2024.
https://doi.org/10.1109/TPAMI.2024.3400515.