抗体在免疫应答中发挥着核心作用,提高抗原抗体的结合亲合力对于诊断和治疗至关重要。然而,传统的体外亲合力成熟方法耗时且成本高昂,通常需要数月时间来构建突变库并筛选。鉴于抗体互补决定区(CDR)内潜在的突变组合极为庞大,传统的实验筛选方法难以全面探索。尽管分子动力学模拟能够提供较高的预测精度,但其计算速度限制了其在大规模筛选中的应用。近年来,深度学习方法被引入以提高亲合力预测的效率,但受限于数据集规模,模型的准确性和可靠性仍有待提高。基于上述挑战,复旦大学应天雷课题组与百奥几何(BioGeometry)团队联合开发了一种名为GearBind的预训练几何图神经网络。GearBind通过构建多关系图、采用几何消息传递机制,并利用大规模未标记蛋白质数据进行预训练,显著提高了抗体亲合力预测的准确性和效率。在一系列测试中,GearBind展现了优秀的性能,特别是在仅合成二十个抗体的情况下,就实现了约十倍亲合力的提升,证明了其在抗体设计领域的强大潜力。该研究的成果以“Pretrainable geometric graph neural network for antibody affinity
maturation”为题近日发表在Nature
Communications期刊上。GearBind模型基于几何图神经网络,接受两个蛋白分子复合物结构(即野生型和突变型结构)作为输入,并输出两者之间的结合自由能变化(ΔΔ G bind)。在处理蛋白质复合物结构时,GearBind通过构建包含多重关系的蛋白质接触面原子图来模拟蛋白质复合物的相互作用。首先,模型使用几何关系图神经网络(GearNet)获取接触图的原子级表示。然后,通过构建线图并在线图中传递消息,将原子对之间的角度信息编码到边的特征中。并使用类似于AlphaFold的三角注意力机制来更新节点和边的特征。在获得了每个残基的原子和边特征后,模型应用几何图注意力层在残基之间传递信息。同时为了解决蛋白质-蛋白质相互作用数据稀缺导致网络的过拟合问题,研究者开发了一种基于对比学习的预训练算法。该算法利用CATH数据库中丰富的未标记单链蛋白质结构,通过区分原生结构和随机突变结构,学习蛋白质结构的势能面。这种预训练方法有助于模型理解侧链相互作用模式,这对于准确预测蛋白质-蛋白质结合具有重要作用。图1:GearBind模型架构。GearBind采用共享图神经网络对野生型和突变型复合物结构进行编码,并通过几何图神经网络GearNet执行多关系和多层次的消息传递以提取接触面的表示,并通过最终的反对称预测器来预测相对结合自由能的变化。
图2:GearBind的自监督预训练。预训练的GearBind(GearBind+P)通过自监督、对比预训练来利用大规模未标记的蛋白质结构,来学习蛋白质侧链扭转角的信息。
二、模型的训练数据和训练方法
GearBind使用SKEMPI v2数据集进行训练和验证,预处理后的数据集涵盖了340个复合物共5729个相对结合自由能变化的数据。作者首先使用PDBFixer修复蛋白质缺失的结构,并使用FoldX4对野生型蛋白的晶体结构进行采样,从而得到每个突变型蛋白质的结构,并采用五倍交叉验证的方法进行训练。模型预训练时使用了CATH v4.3.0结构域的非冗余子集,其中包含有30948个序列一致性低于40%实验蛋白质结构。三、模型性能评估
作者在SKEMPI以及HER2数据集上测试了GearBind以及同类模型的性能。针对SKEMPI数据集,作者根据与训练集数据的相似度对SKEMPI数据集进行了难易程度的划分。模型在该数据集上的实验结果如图2a,2b所示,在数据相似度较高的测试集上,GearBind的性能要优于其他模型(其中Bind-ddG是基于机器学习的方法,GearBind+P是指经过预训练的GearBind模型),而在相似度较低的测试集上,GearBind的预测效果仍有待提高。各个方法HER2数据集上的测试结果如图2c所示,结果显示GearBind在该数据上的表现优于其他方法。作者还在SKEMPI数据集上开展了GearBind的消融实验,发现边特征以及原子特征对于模型的性能有重要贡献,说明GearBind的全原子建模是非常有效的。此外作者还使用KNN以及简单图网络(RGCN)替换模型现有架构,发现使用KNN会导致模型性能有明显的下降,使用RGCN会导致性能部分下降,该结果说明使用多维的图的确能有效地提高预测效果。为了进一步提升性能,作者还将多个方法集成并测试,结果表明集成模型在两个数据集上的测试结果要优于其他单一模型。而图2d和2f则展示了各个模型对于集成模型的贡献,其中GearBind+P对于模型的性能具有最大的贡献。
图3: GearBind及其他模型在SKEMPI以及HER测试集上的性能表现(a)
(b)各模型在SKEMPI测试集上预测结果的Pearson系数以及Spearman系数,其中绿蓝红对应三种不同预测难度的测试集;(c)各模型在HER2测试集上预测结果的Peason系数以及Spearman系数;(d)集成模型在HER2测试集上的消融实验;(e)GearBind在SKEMPI测试集上的消融实验;(f)集成模型在SKEMPI测试集上的消融实验。
随后,作者基于GearBind的预测结果对抗体CR3022以及UdAb的改造,以验证GearBind应用于抗体改造场景时的表现。结果显示:研究团队在仅合成和测试20种候选抗体后,酶联免疫吸附试验(ELISA)测量结果显示突变后的抗体CR3022以及UdAb与对应抗原的结合率分别提高了17倍和5.6倍,生物层干涉法(BLI)测量结果显示抗体CR3022以及UdAb与对应抗原的结合率分别提高了6.1倍和2.1倍。作者最后还针对亲合力提高的突变型抗体展开动力学模拟,分析结果发现这些抗体经改造后产生了更多的氢键和硫水相互作用,使得蛋白质间的相互作用更加稳定。
图4:优化的CR3022和UdAb结构分析(a)(b)基于GearBind优化的抗体CR3022以及UdAb与对应抗原结合的复合物结构;(c)(d)(e)抗体CR3022中发生突变的位点;(f)抗体UdAb中发生突变的位点;(g)(h)分子动力学模拟中CR3022以及UdAb的野生型和突变型抗体抗原复合物在突变区域的氢键数量对比。
四、总结
GearBind模型使用多维的图结构,多尺度的信息传递以及预训练方法,能够有效地预测蛋白-蛋白复合物相对结合自由能的变化,并成功地被应用于抗体亲合力的优化。该成果为研究蛋白-蛋白相互作用提供了有价值的见解与方法。然而GearBind模型也存在一些局限。其中最明显的局限是GearBind进行准确预测的前提是输入的复合物结构是准确的。然而在实践中,多数情况下抗原-抗体复合物结构需要依赖同源建模或通过序列进行预测。因此,如何获取准确的复合物结构以及提高模型的泛化能力仍然是该模型需要面对的问题。[1]Cai
H, Zhang Z, Wang M, et al. Pretrainable geometric graph neural network for
antibody affinity maturation. Nature Communications, 2024, 15(1): 7785.