DRUGAI
本文介绍一篇由浙江大学侯廷军教授/谢昌谕教授团队联合碳硅智慧于近期在Journal of Medicinal Chemistry上发表的文章“Improving the Reliability of Language Model-Predicted Structures as Docking Targets through Geometric Graph Learning”。该文提出了一种“两步式”柔性对接策略CarsiDock-Flex,可以直接从ESMFold预测得到的蛋白结构以及配体小分子的二维结构出发预测配体的结合构象。该方法首先构建了一个基于等变图神经网络的蛋白口袋诱导模型CarsiInduce, 可在特定配体诱导下对ESMFold预测的蛋白口袋的局部残基进行优化;随后通过碳硅智慧自主研发的AI对接方法CarsiDock将配体重新对接回诱导后的口袋中,进而实现配体构象的准确预测。实验结果表明,CarsiInduce可针对特定配体对ESMFold预测口袋进行有效诱导,进而明显提升CarsiDock在缺少复合物晶体结构的场景中的对接精度。整体而言,该方法为柔性对接程序的开发提供了一种新思路,有望为蛋白-配体相互作用更深层次的理解以及配体与蛋白的柔性建模提供一种高效且可靠的新工具。
研究背景
以AlphaFold2、RoseTTAFold和ESMFold为代表的基于AI的蛋白质结构预测方法已被广泛引入到生物医药领域之中,但它们在多数情况下仅能预测得到蛋白的apo构象,却难以考虑不同配体的结合对蛋白构象变化的影响,因此它们预测出的结果通常与有配体结合的holo构象相去甚远。此外,早期的蛋白质结构预测方法无法直接预测蛋白-配体复合物的三维结构,依然需要依赖分子对接等基于结构的药物设计方法来进一步阐明配体与靶标蛋白之间的相互作用。
传统分子对接方法往往依靠构象搜索算法来对结合构象进行采样,然后采用打分函数来量化各个构象与靶标之间的相互作用,得分最高的构象通常被认为是最合理的结合构象。尽管分子对接已在药物设计和发现中发挥了重要作用,但鉴于传统构象搜索算法在收敛能力以及传统打分函数在预测精度方面的局限性,其可靠性仍待改进。另一方面,目前主流对接方法通常采用半柔性对接的形式,即将蛋白视为刚性,仅对配体构象进行搜索。这种简化方式可显著节省计算资源,却无法模拟不同配体结合所引起的蛋白口袋残基的潜在动态变化,尤其当我们仅能通过蛋白质结构预测方法来获取蛋白三维结构的情况下。由此可见,如何在兼顾蛋白柔性的情况下准确预测配体的结合模式依然是领域的一大挑战。
近年来,AI技术的不断发展为配体结合构象的预测带来了新思路。在该研究中,作者首先提出了一个基于几何深度学习的蛋白结合位点诱导模型CarsiInduce,以提升ESMFold预测的蛋白结构作为对接模板的可靠性。随后,作者进一步提出了一个“两步式”柔性对接方法CarsiDock-Flex,即首先通过CarsiInduce将ESMFold预测的蛋白口袋诱导成与相应配体匹配的holo构象,随后采用CarsiDock将配体重新对接回诱导后的口袋中,进而实现配体结合构象的预测。多个测试场景中的出色表现也展示出CarsiDock-Flex在蛋白与配体柔性建模中的巨大潜力,有望为蛋白-配体相互作用更深层次的理解提供新见解。
模型架构
CarsiDock-Flex整体流程可如图1A所示,其中CarsiInduce可视为一个诱导契合的过程,蛋白和配体构象被逐步调整以达到最佳匹配,进而生成最适合特定配体的诱导口袋,而CarsiDock的重对接则模拟一个构象选择的过程,以在最优蛋白构象基础上进一步对配体构象的位置和朝向进行优化。CarsiDock-Flex可以称得上是诱导契合和构象选择理论的有机结合。
CarsiInduce的构建流程可如图1B所示,其主要包含三个模块:一个用于获取蛋白-配体异构图的初始表示的嵌入模块,一个用于对配体和蛋白的节点表示进行更新的编码模块,以及一个对配体和蛋白的最终坐标进行更新的预测模块,并通过构建一个简单且有效的回归模型来对残基的平移旋转以及配体的原子移动进行更新。CarsiDock则是一个AI驱动的对接方法,其首先通过构建深度学习模型来预测蛋白-配体之间的原子距离矩阵,随后通过对配体构象的平移、旋转、二面角参数进行更新来讲距离矩阵重构为最终结合构象。
图1 CarsiDock-Flex的整体概览及CarsiInduce的模型架构示意图
结果与讨论
CaisiInduce对ESMFold预测蛋白口袋的诱导效应
作者首先在他们自行构建的PoseBusters-ESMFold测试集上评估了CaisiInduce对ESMFold预测的蛋白口袋的诱导能力。如表1所示, 71.97%的EMSFold预测的蛋白口袋与晶体结构的RMSD值在2.0 Å以内,所有测试样本的平均RMSD值为1.793Å;而经过CarsiInduce诱导后,其相应指标提升为80.81%和1.569 Å。此外,当测试集样本的序列与训练集样本的一致性低于35%时,CaisiInduce依然能够表现出对ESMFold的诱导效应(成功率为68.03% vs 72.79%)。
表1. CarsiInduce对ESMFold预测蛋白口袋的诱导效应
CarsiDock-Flex在以ESMFold预测蛋白口袋为模板时的对接精度
作者随后测试了CarsiDock-Flex在以ESMFold预测蛋白口袋为模板时的对接精度,并与11种常用传统对接程序以及9种较新的AI对接方法作比较。如表2和图2所示,直接从ESMFold输出的蛋白结构并不完全适合用于阐明配体与蛋白之间的相互作用,大多数对接方法在大部分测试样本中均无法得到令人满意的对接构象。尽管如此,当RMSD阈值分别设为2.5 Å和5.0 Å时,CarsiDock-Flex可分别取得56.57%和82.58%的top1对接成功率,且所有样本的平均RMSD值为3.024 Å,要明显优于CarsiDock(相应指标为50.25%、78.79%和3.270 Å)及其他测试方法。
表2. 不同对接方法在PoseBusters-ESMFold测试集上的对接精度比较
图2.不同对接方法在PoseBusters-ESMFold测试集上的对接精度比较。A. RMSD值的累积分布曲线;B. 所有样本的平均RMSD情况。
同样,作者还分析了训练集和测试集蛋白的序列一致性对对接精度的影响。如图3所示,CarsiDock及一些传统方法对蛋白相似性并不那么敏感,其性能的波动可能主要来自蛋白本身的差异。然而,CarsiDock-Flex的成功率明显下降,特别是当以2.5 Å 作为RMSD阈值时的top1成功率。尽管如此,CarsiDock-flex在低相似度样本中依然表现出相比于CarsiDock及其他方法的优势,这也表明其具有较优的泛化能力。
图3. 训练集和测试集样本的序列一致性对不同对接方法对接精度的影响。A. RMSD阈值为2.5 Å时的top1成功率;B. RMSD阈值为5.0 Å时的top1成功率;C. 所有样本的平均RMSD情况。
而与AF3、RFAA、UMol、NeuralPLexer3等新近报道的蛋白共折叠方法相比,CarsiDock-Flex也表现出一定的竞争力。在PoseBuster基准集的428个复合物样本中,根据Umol论文中的数据,Umol、NeuralPlexer和RFAA在RMSD阈值设为2.0 Å下的成功率分别为18%、24%和41%,而加入口袋信息(Umol-pocket)可以将Umol的成功率提升至42%;当然AF3性能最为突出,其在盲对接和指定口袋对接的情况下可分别取得76.4%和90.2%的成功率。倘若已知口袋信息,在ESMFold的帮助下,CarsiDock-Flex也能够从序列出发直接预测复合物结构。即使将未被ESMFold成功预测的复合物均认为是失败的案例,CarsiDock-Flex依然可取得44.4%的成功率,虽然明显低于AF3,但与其他方法相比仍具竞争力。
此外,该研究还探索了CarsiInduce的诱导效应对CarsiDock-Flex对接精度的影响、以及CarsiInduce中引入的预训练策略对诱导效应和对接精度的影响,并展示了一些CarsiDock-Flex的应用案例等。更详细的内容可以阅读原文章。
总结
该工作提出了一个基于几何深度学习的蛋白口袋诱导模型,通过将ESMFold预测构象诱导为与特定配体结合的holo构象来提升其作为对接模板的可靠性。通过与CarsiDock进行整合,即使是在与训练集样本序列相似度较低的蛋白上,该模型依然可以取得较优的性能。作者进一步探索了诱导效应与对接精度的关系、以及预训练策略对预测性能的影响。结果表明,该方法更适用于那些配体结合将会引起较大口袋构象变化的靶标,且将百万级对接复合物用于模型预训练可显著提升模型性能。最后,作者也通过一些案例分析进一步验证了方法的适用性。总而言之,虽然以AF3为代表的共折叠方法在一定程度上已颠覆小分子配体结合构象预测领域,但该工作提出的“两步式”柔性对接策略有望为开发考虑兼顾蛋白柔性的AI对接方法提供有价值的见解。
参考资料
Shen, C., Han, X., Cai, H. et al. Improving the Reliability of Language Model-Predicted Structures as Docking Targets through Geometric Graph Learning. J Med Chem (2025).
https://doi.org/10.1021/acs.jmedchem.4c02740.