虚拟筛选是发现先导化合物的一个关键环节,其目标是从大型化合物数据库中筛选出针对特定蛋白靶点的潜在活性分子,而快速、准确地预测蛋白-配体复合物的三维结构是虚拟筛选的核心。传统的配体对接方法通常采用启发式或穷举搜索算法来探索潜在配体构象,但这些方法难以充分覆盖巨大的构象空间,可能因此遗漏合理的结合构象。尽管近年来深度学习技术的发展带来了许多新的对接方法,但这些方法往往过于依赖粗粒度的残基级蛋白质表示。粗粒度表示在简化蛋白质结构的同时,也可能扩展配体构象搜索的空间,导致原子间冲突,降低对接预测的准确性。为了解决这一问题,郑明月研究团队提出,分子表面是一种更高级、精确且简洁的蛋白质表示方式。分子表面信息能够更准确地描述结合口袋的几何特性,从而有效缓解分子间的冲突。此外,氨基酸序列在蛋白质表征中同样具有重要价值,其引入可以进一步提升对接预测的准确性。在这一研究背景下,郑明月团队开发了一种基于几何扩散模型的蛋白-配体复合物预测工具——SurfDock。SurfDock整合了多模态蛋白质信息(包括表面特征、残基结构特征和预训练的序列特征)至节点特征中,能够生成物理合理且高度准确的蛋白-配体结合构象。同时,SurfDock内置了蛋白-配体构象评分模块SurfScore,用于评估生成构象的置信度。实验表明,SurfDock在多个基准数据集中的对接成功率达到了目前的最高水平,显著优于以往深度学习方法。近日,该项研究工作发表于Nature Methods期刊上[1]。 SurfDock包含两个主要模块:用于生成构象的扩散网络以及用于辅助的构象打分模块(SurfScore)。其中生成模块和打分模块都采用相同的输入特征。如图1所示,SurfDock使用三种蛋白口袋特征表示方法:序列特征、残基图特征以及蛋白质表面图特征。序列特征以及残基图特征均来自蛋白质大语言模型 ESM-2 [2]的结构信息和嵌入特征,而后两种特征进行拼接后得到残基图嵌入特征。而后,作者利用MaSIF[3]工具对蛋白结合口袋的分子表面进行参数化处理,并将残基图特征映射到口袋表面,生成表面图嵌入特征。对于配体,SurfDock将其表示为原子图,其中节点表示原子,边表示原子间距离。
图1 SurfDock蛋白特征表示方法
基于上述特征,SurfDock的几何扩散网络能够学习以蛋白结合口袋为条件,从随机初始化的配体构象中逐步去噪,生成预测的结合构象,如图2所示。作者使用PDBbind 2020对扩散模型进行训练。扩散过程逐渐将噪声引入结构中,包括平移、旋转和扭转向量的随机扰动,而生成过程则通过去噪还原噪声化的配体结构,逐步逼近真实结合构象,最终生成符合物理约束的预测结果。除此之外,模型还内置有蛋白-配体构象打分模块SurfScore,与扩散模块使用相同的特征作为输入,而在下游的预测模块使用不同的网络进行构象的打分。不同于以往模型的生成模块和打分模块通常使用不同的训练目标, SurfDock的构象生成和打分模块都旨在捕捉以具有相同表面表示的蛋白质口袋为条件的真实配体构象的底层分布。这种一致性进一步提升了模型在构象生成和打分任务中的准确性和可靠性。
图2 几何扩散模型架构
模型训练完成后,作者对SurfDock的对接表现进行了测试。在PDBbind 2020数据集上,SurfDock的Top1对接成功率(rmsd≤ 2 Å)为68.41%,远远高于其余深度学习和传统对接方法(成功率在50%及以下)。在更严格的度量下,即rmsd < 1 Å ,SurfDock 的成功率甚至超过了几种方法在rmsd < 2 Å 度量下的成功率。值得注意的是,在与训练集中不存在“硬重合”蛋白的外部测试集中,SurfDock的Top1成功率仍然优于所有其余模型的Top1成功率,这一测试结果证明了SurfDock良好的泛化能力。 随后,作者在DEKOIS 2.0数据集4上测试了SurfDock的虚拟筛选性能。结果如图3所示,SurfDock在所有评估指标上的表现均优于其他对接算法。值得注意的是,在EF 0.5%指标上,SurfDock实现了富集程度21.00倍,这一结果表明了模型在处理大型化合物库时具有较高的应用价值。此外,作者还评价了其在筛选过程中所需的计算资源和速度,目前SurfDock可以在约5天的时间内筛选100万种化合物分子。
图3 DEKOIS 2.0数据集上不同对接方法性能评估
而后,作者在实际用例中进一步评价了SurfDock的筛选性能。作者使用SurfDock在ALDH1B1靶点上进行了虚拟筛选实验,在共约37,410中化合物的库中选出了排名在前500名的化合物,并聚类为50个化合物簇,从中选取了84个代表分子进行了湿实验测试,最终获得了7个具有全新骨架的阳性化合物,SPR实验结果表明这些分子与蛋白的亲合性范围在0.44-10.10uM之间。以上实验表明, SurfDock具有发现新骨架的化合物的潜力,展现了SurfDock在实际药物发现中的应用前景。小结:
目前,传统对接方法和大部分基于深度学习的对接方法都面临着对接精度或构象合理性的挑战。在本研究中,作者提出了SurfDock,一种利用蛋白口袋表面信息进行蛋白-配体复合物结构预测的扩散生成模型。作者在多种基准测试中评估了SurfDock的性能。在这些测试中,SurfDock 在对接成功率和构象合理性方面显著超越传统方法和大部分深度学习方法,同时SurfDock在回顾性和前瞻性筛选实验中都表现良好,展现了模型在大型化合物库中高效识别阳性分子的潜力。总而言之, SurfDock 非常适合以蛋白质口袋为条件的蛋白-配体对接,并且可以应用于实际药物研发场景中。但同时,模型也存在一定不足,作者指出,如果蛋白质在配体结合后发生显着的构象变化,SurfDock可能无法准确预测蛋白质-配体复合物的结构。在未来,相信随着计算能力的不断提升以及化合物结构空间的持续探索,SurfDock有望通过进一步优化,成为基于结构药物发现中的一个重要工具。 参考文献:
(1) Cao, D.; Chen, M.; Zhang, R.; Wang, Z.; Huang,
M.; Yu, J.; Jiang, X.; Fan, Z.; Zhang, W.; Zhou, H.; Li, X.; Fu, Z.; Zhang, S.;
Zheng, M. SurfDock Is a Surface-Informed Diffusion Generative Model for
Reliable and Accurate Protein–Ligand Complex Prediction. Nat Methods 2024,
1–13.
(2) Lin,
Z.; Akin, H.; Rao, R.; Hie, B.; Zhu, Z.; Lu, W.; Smetanin, N.; Verkuil, R.;
Kabeli, O.; Shmueli, Y.; dos Santos Costa, A.; Fazel-Zarandi, M.; Sercu, T.;
Candido, S.; Rives, A. Evolutionary-Scale Prediction of Atomic-Level Protein
Structure with a Language Model. Science 2023, 379 (6637),
1123–1130.
(3) Gainza,
P.; Sverrisson, F.; Monti, F.; Rodolà, E.; Boscaini, D.; Bronstein, M. M.;
Correia, B. E. Deciphering Interaction Fingerprints from Protein Molecular
Surfaces Using Geometric Deep Learning. Nat Methods 2020, 17(2), 184–192.
(4) Bauer,
M. R.; Ibrahim, T. M.; Vogel, S. M.; Boeckler, F. M. Evaluation and
Optimization of Virtual Screening Workflows with DEKOIS 2.0 – A Public Library
of Challenging Docking Benchmark Sets. J. Chem. Inf. Model. 2013,53 (6), 1447–1462.