Nat. Methods | SurfDock:利用表面信息的扩散生成模型实现蛋白质-配体复合物结构精准预测

学术   2024-11-29 00:02  

理解蛋白-配体相互作用是分子生物学和生物化学的基础。从酶催化到信号传导,这些相互作用构成了众多细胞过程的核心。对蛋白-配体相互作用的深入理解对基于结构的药物设计至关重要,研究人员可以据此发现或设计与特定蛋白质结合的配体。基于人工智能(AI)技术,我们能更精准地理解蛋白-配体相互作用,加速药物发现的进程。人工智能与生命科学的交叉正在改变人类健康和医学研究的格局,为疾病研究和靶向治疗药物开发开辟新的途径。


近日,中国科学院上海药物研究所郑明月团队开发了一种基于生成式AI的蛋白-配体复合物结构预测方法SurfDock。该方法通过利用蛋白质表面信息构建几何扩散神经网络,高精度自动生成配体结合构象,并已成功应用于基于结构的虚拟筛选。相关研究论文"SurfDock is a surface-informed diffusion generative model for reliable and accurate proteinligand complex prediction"20241127日在Nature Methods在线发表。

背景

药物的有效性主要取决于分子层面上与靶标蛋白质的结合程度。因此,快速准确地预测蛋白-配体复合物结构并评估其结合强度,对基于结构的药物设计至关重要。利用AI技术,基于结构的高通量虚拟筛选技术取得了显著进展。


由于蛋白质与配体相互作用具有动态特性,预测配体分子如何与蛋白质结合(即分子对接)是一个复杂的问题。随着蛋白-配体复合物三维结构数据不断积累,利用深度学习解析这些复合物中的相互作用变得愈发重要。早期的研究,如Uni-MolEquiBindE3BindTANKBind,将分子对接视为(坐标)回归问题处理。这些方法虽然计算速度更快,但相比传统方法,精度提升有限。这一局限性可能源于基于回归的方法无法很好地描述配体与靶标结合的多模态特性(即在同一结合过程中存在多个稳定状态)。


近年来,扩散模型在分子构象生成等任务中取得了突破性进展,这启发研究者开发了DiffDock,将分子对接作为深度生成建模问题处理。与回归方法不同,DiffDock在对接的关键自由度(平移、旋转和扭转)上定义了扩散过程,用于学习配体构象分布。通过从随机构象出发,逐步优化平移、旋转和扭转角度,DiffDock能够迭代改进配体结合构象,有效模拟了分子相互作用的动态过程。尽管该领域取得了重大进展,但仍面临诸多挑战。研究表明,盲对接方法的对接能力可能不及传统方法。同时,许多深度学习方法存在两个主要问题:生成的构象缺乏物理合理性,以及在新蛋白质上的泛化性能较差。这些局限性给实际药物筛选应用带来了重大挑战。


在这项工作中,研究团队提出了一种新型基于蛋白表面的几何扩散网络SurfDock,用于生成精准可靠的蛋白-配体复合物构象。SurfDock从蛋白质口袋和随机配体构象开始进行扩散过程。该模型将多种蛋白质信息(包括表面特征、残基结构特征和预训练序列特征)整合到表面节点的表示中,并配备了一个称为SurfScore的内部评分模块,通过对蛋白-配体复合物的训练来评估构象的置信度。此外,SurfDock还整合了一个可选的基于力场的优化步骤,进一步提升了其性能。这些创新设计使得SurfDock在多个基准测试中展现出优异的对接能力,其生成构象的合理性显著超越了现有的深度学习方法。值得注意的是,SurfDock能够有效地适应新的蛋白质、口袋和空(apo)结构,即使在处理高度柔性的配体时也表现出色。在实际应用中,研究团队通过针对ALDH1B1的筛选实验证实了SurfDock的实用价值,成功的快速筛选出七个具有新骨架的先导分子。


结果

SurfDock架构

图1. SurfDock模型示意图。a, SurfDock的蛋白多模态表征示意图。b, SurfDock工作流程。


1所示,SurfDock首先利用等变网络整合蛋白质的多模态表征,随后将该表征与配体共同输入扩散生成模型进行加噪/去噪训练。在推理阶段,生成的构象可通过可选的力场优化步骤进行微调。最后,系统使用内置的SurfScore打分模块对构象进行评分和排序,从而得出最终结果。


SurfDock具有良好的对接能力和泛化性

表1. PDBbind2020时间划分测试集性能比较。

1所示,在PDBbind2020时间划分数据集上,SurfDocktop1构象上实现了68.41%的对接成功率(r.m.s.d.2 Å),明显优于其他深度学习和传统的对接模型。与基于口袋版的DiffDock相比,SurfDock在成功率上仍具有显著优势。这一观察结果与其他研究的观点一致:当前的深度学习方法倾向于识别结合位点,而非准确预测结合构象。此外,SurfDock在新的蛋白上同样展现出良好的对接精度,表明其具有较强的泛化能力。在性能评估中,研究团队比较了使用和不使用力场优化的SurfDock表现。结果显示,经过力场优化后,SurfDock生成的构象通过PoseBuster物理合理性检测的比例显著提升(约提升19%)。关于力场优化模块的详细影响分析,作者在补充材料中提供了完整的比较数据。


为了进一步比较,研究团队还在PoseBuster数据集上对SurfDock进行了测试。

图 2. PoseBuster和Astex数据集测试结果。a, 不同方法在PoseBuster和Astex数据集上的对接成功率。b, PoseBuster测试集中与训练数据具有不同序列相似度蛋白的对接成功率。


2b所示,SurfDock在对接成功率和物理合理性方面超过了所有的深度学习方法,在通过力场优化步骤后,这两个方面都超过了传统方法在内的所有方法。此外,在图2c中可以看到,在与训练数据序列相似度小于30%的蛋白上,其他深度学习方法对接能力和物理合理性都显著的下降,而SurfDock则相对鲁棒。在力场优化后,即使在与训练数据序列相似度小于30%的蛋白上,SurfDock在对接成功率和物理合理性上都超过了所有比较的的方法。研究团队还进行了更多的测试,都发现SurfDock具有良好的泛化性,这表明SurfDock学习到了配体与其结合位点之间的相互作用


构象采样和打分评估

图3. 评估SurfDock的构象采样能力和SurfScore的打分能力。a, 在PDBbind测试集上不同r.m.s.d.阈值下的比例。b, 生成不同样本数量对最终结果的影响。c, 改变晶体结构后SurfScore的打分变化。d, 可视化的对接过程。


3b所示,在SurfDock中,构象生成模块生成的构象数量会影响最终结果。当生成数量超过10个后,性能提升幅度逐渐减小。这表明SurfDock打分模块在生成10个样本时就能识别出大部分成功的对接构象,不过与最优挑选策略相比,其打分模块仍有提升空间。为进一步证明SurfScore捕捉到了蛋白质和配体之间的关键相互作用,作者在3c中以6G2B为例进行了研究。该配体具有两个可旋转键,以晶体配体构象为参考,通过改变扭转角ω1和ω2,作者绘制了SurfScore的打分分布。将负分视为""势能后,可以观察到以参考构象为中心的能量景观:扭转角度变化较小时,""势能变化不明显;而当扭转角度显著偏离时,""势能急剧升高。这进一步表明SurfScore能够准确感知配体构象的细微变化。最后,作者在3d中可视化了6G2B6ST3这两个不同柔性程度分子的对接过程。结果显示,生成的配体pose呈现明显趋势,逐步向低能状态移动。在此过程中,SurfDock能够快速克服局部能量最小值,有效接近晶体构象状态。值得注意的是,随着生成步骤的推进,模型在调整配体结合构象时呈现出层次性改进:从初期主要关注平移和旋转,到后期着重于二面角的精细调整。这些观察表明,SurfDock的生成阶段能够有效模拟分子与蛋白质间的相互作用,从而找到最佳结合构象。在4中,进一步展示了SurfDock对接的动态过程。作者在补充材料中还提供了丰富的可视化实例。

图4. SurfDock对接的动态过程可视化示例。



SurfDock具有良好的筛选能力并成功应用于真实的筛选实验

图5. SurfDock在DEKOIS2.0数据集上的筛选能力测试。


5所示,作者采用DEKOIS 2.0数据集评估了SurfDock的筛选性能。结果表明,SurfDock在所有评估指标上均优于其他对接算法。在虚拟筛选中,对接算法的主要目标是优先识别(即"富集")活性化合物,以减少后续需要进行资源密集型实验验证的化合物数量。特别值得注意的是,SurfDock0.5%富集系数达到了21.00,这充分展现了其在筛选大型化合物库时可能具有较好的性能。为了验证SurfDock在实际小分子发现项目中的应用能力,作者以ALDH1B1为靶点进行了虚拟筛选实验,过程如6a所示。通过对内部小分子库的筛选,作者发现了7个具有新骨架的ALDH1B1抑制剂。这些化合物与现有的两类ALDH1B1抑制剂和底物相比具有全新的分子骨架,显示出进一步开发的潜力。这一实验结果不仅证实了SurfDock发现新骨架化合物的能力,也验证了其在实际应用场景中的实用价值。

图6. SurfDock用于筛选ALDH1B1靶点的新骨架化合物。a, 筛选流程示意图。b, 找到的hit分子的化学结构和参考分子的化学结构。c, 7个hits的剂量-反应曲线。d, 7个hit和IGUANA-1对ALDH1B1蛋白热稳定性的影响。e, 实验活性鉴定结果总结。f, 用SPR法测定的426D9与ALDH1B1蛋白的结合亲和力。


讨论

无论是传统的对接方法还是基于深度学习的对接方法,目前都存在对接精度和构象合理性的局限。针对这些问题,研究团队提出了SurfDock。该方法通过表面启发的扩散模型建模,显著提高了对接成功率和构象合理性,并展现出对新蛋白质和结合口袋的良好泛化性。研究分析了配体柔性对SurfDock性能的影响,证实了其在处理柔性配体方面优于其他方法。SurfDock在回顾性和前瞻性筛选实验中均表现出色,证明了其在实际应用场景中的实用价值。然而,SurfDock也存在一些局限性。当蛋白质在配体结合时发生显著构象变化时,由于无法考虑蛋白的柔性,SurfDock可能无法准确预测蛋白-配体复合物结构。此外,SurfDock对接后需要依赖基于力场的能量最小化步骤才能在物理合理性上超越传统方法,这表明该方法仍有提升空间。


准确预测蛋白-配体复合物的能力不仅能显著提升我们对蛋白质生物学的理解,还能促进新型治疗药物的设计。随着计算能力的提升以及各类化学空间可及性的增加,作者认为,SurfDock通过持续改进将有望成为SBDD领域的关键工具,为新靶点的化学验证开辟道路,从而在基础生物学研究和药物发现方面发挥重要作用。


浙江大学与上海药物研究所联合培养博士研究生曹端华,上海科技大学与临港实验室联合培养博士研究生陈铭安和上海药物所硕士研究生张润泽为本文的共同第一作者。上海药物研究所郑明月研究员为本文通讯作者。本研究得到了国家自然科学基金、国家重点研发专项、上海药物所与上海中医药大学中医药创新团队联合研究项目、中国科学院青年创新促进会会员项目、上海市科技重大专项资助。


参考资料

Cao, D., Chen, M., Zhang, R. et al. SurfDock is a surface-informed diffusion generative model for reliable and accurate protein–ligand complex prediction. Nat Methods, 2024. Doi: 10.1038/s41592-024-02516-y(点击下方阅读原文跳转)

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章