Nat. Mach. Intell. | 突破对接瓶颈:ColabDock革新蛋白质-蛋白质结构预测

学术   2024-09-06 00:03   韩国  

DRUGAI

今天为大家介绍的是来自北京大学的高毅勤团队的一篇论文。蛋白质复合物结构预测在药物发现和抗体设计等多个应用中发挥着重要作用。然而,由于预测精度有限,预测结果与实验数据之间经常存在不一致性。为此,作者提出了ColabDock,这是一种通用框架,能够将深度学习结构预测模型与不同形式和来源的实验约束相结合,而无需进行大规模的再训练或精细调优。通过生成-预测架构和训练有素的排序模型,ColabDock在使用AlphaFold2作为结构预测模型时,不仅在具有模拟残基和表面约束的复杂结构预测中优于HADDOCK和ClusPro,而且在结合核磁共振化学位移扰动和共价标记辅助的情况下也表现出色。它还可以通过模拟界面扫描约束来辅助抗体-抗原界面的预测,这些约束可以通过深度突变扫描等实验获得。作为一个统一的框架,作者希望ColabDock能够帮助弥合实验蛋白质科学与计算蛋白质科学之间的鸿沟。

在生物过程中,蛋白质作为核心成分,主要通过与其他分子的相互作用来执行其功能。理解蛋白质复合物的结构对于深入理解生物机制和基于结构的药物发现至关重要。目前,实验上确定复合物结构的方法包括X射线晶体学、核磁共振(NMR)光谱和冷冻电子显微镜等。虽然这些方法在结构生物学领域得到广泛应用,但它们自身也存在局限性,且有时成本高昂或耗时漫长,因此高效的计算方法显得尤为必要。


蛋白质-蛋白质对接是计算生物学中最重要的问题之一。典型的自由对接方法在已知各组分的结构基础上,通过快速傅里叶变换算法生成大量复合物构象,并使用定制的评分函数进行评估。尽管已有诸多成功的算法开发出来,如ZDOCK、pyDock、SwarmDock、HADDOCK和ClusPro等,但这些自由对接方法由于评分函数精度有限,常常无法达到理想的预测效果。为解决这一问题,研究人员尝试将实验数据中提取的约束条件整合到对接过程中,这些约束条件提供了关于复合物界面的关键信息,且通常获取相对容易且成本较低。例如,化学交联可以提供固定长度试剂连接的两个残基之间的距离,而NMR中的核Overhauser效应可以测量原子对之间的距离。


为利用这些实验约束,已有多种对接算法被开发出来。例如,HADDOCK允许用户定义复合物中的活性和被动残基,并将这些残基转换为模糊交互约束,作为优化和构象排序中的能量项。ZDOCK则使用接触残基来筛选对接构象,而pyDock采用类似的后验策略,将满足约束条件的比例作为伪能量项纳入评分函数。ClusPro通过为每个约束生成可行的平移集,并从交集集合中选择高频率的平移。


另一方面,多种基于深度神经网络的模型已被提出用于从头蛋白质结构预测,如AlphaFold2 (AF2)、AlphaFold-Multimer (AF-Multimer) 和RoseTTAFold2。这些模型通过从大量蛋白质结构数据中学习出近似的生物物理能量景观,并在蛋白质模型质量评估中表现出色。然而,由于预测精度有限,有时模型预测与实验观察之间仍存在不一致性,尤其在处理灵活的蛋白质-蛋白质相互作用时。


模型框架

图 1


如图1所示,ColabDock是一个通用框架,能够在无需大规模再训练或精细调优的情况下搜索最优满足给定实验约束的复合结构。该框架可以处理不同类型和来源的约束。在本研究中,作为概念验证,作者采用了AlphaFold2(AF2)作为ColabDock中的结构预测模型。AF2虽然仅在蛋白质结构域上进行了训练,而非蛋白质复合物,但这保证了后续评估和比较的公平性。为了选择最佳构象,作者还训练了一个排序算法,并在超参数选择后,使用标准设置进行了所有实验。


本研究主要关注两种类型的约束。第一种约束限制了残基对之间的距离低于某一阈值,属于残基-残基层面的约束(称为1v1约束)。这类约束包括源自交联质谱(XL-MS)的约束。第二种约束定义了在蛋白质表面上可能接触的两组残基之间的约束,但具体的接触信息未知。此类约束属于界面层面的约束(称为MvN约束),典型示例包括多种NMR实验和共价标记(CL)。在接下来的研究中,作者首先在验证集上评估了ColabDock在模拟的1v1和MvN约束下的表现。随后,作者将其性能与两个先进算法HADDOCK和ClusPro在基准数据集上的表现进行了比较。最后,作者对NMR化学位移扰动(CSP)、共价标记和模拟的抗体-抗原集合进行了评估。


ColabDock在模拟约束条件下的性能验证

图 2


如图2a所示,在仅提供两个1v1约束的情况下,81.08%的蛋白质复合物的最大DockQ值超过了0.23,尤其考虑到从这些约束中获取的结构信息相对有限。当提供三到五个约束时,成功率接近100%。如图2b所示,对于含有两、三和五对约束的蛋白质复合物,其约束满足率分别为0.55、0.77和0.80。这些结果表明,ColabDock能够高效利用提供的约束来获得高质量的复合物结构。


为了评估ColabDock在MvN约束下的性能,作者基于上述1v1样本生成了MvN样本。这些样本的挑战性更大,因为MvN约束的模糊性使得多个1v1约束组合可能满足同一组MvN约束。如图2c所示,111个样本中有100个预测结构的最大DockQ值超过了0.23。其中,75个样本的top1结构的DockQ值超过0.23。随着约束数量的增加,ColabDock的准确性也相应提高,top1结构的成功率从两个约束时的62.16%上升到三个和五个约束时的70.27%。在预测结构中,约束满足率与实验结构中的比例相似(图2d)。这些结果表明,ColabDock同样能够高效利用模糊的约束条件来改善结构预测。


为了评估ColabDock中预测阶段的必要性,作者在上述1v1和MvN约束实验中,收集了最后十个优化步骤中的结构,大多数优化过程已经收敛。在生成阶段和预测阶段的DockQ值差异较大的情况下(这里定义为大于0.1),预测阶段在69.9%的1v1约束复合物中表现更好(图2e),在MvN约束复合物中这一比例为68.8%(图2f)。这些结果表明,AF2的能量景观可以帮助优化生成阶段的构象并提高预测的准确性。


ColabDock优于其他受约束的对接方法

为了将ColabDock与传统的受约束对接方法进行比较,作者构建了一个包含37个蛋白质复合物的独立基准集。为与ColabDock进行比较,作者选择了两个代表性受约束的对接方法,即HADDOCK和ClusPro。

图 3


对于基准集中的每个复合物,作者采样了两、三和五个1v1约束来指导对接,最终生成了111个样本。ColabDock在大多数样本中优于HADDOCK和ClusPro(图3a)。ColabDock的平均DockQ值为0.477,而HADDOCK和ClusPro的DockQ值分别为0.287和0.191。无论1v1约束的数量多少,ColabDock在三种方法中均表现最佳(图3b)。这些结果表明,ColabDock在稀疏约束条件下有生成可靠结构的潜力,这与验证集的观察结果一致。


为了进一步评估ColabDock在界面级别约束下的表现,作为验证数据集,作者将上述描述的1v1约束转换为MvN约束。由于ClusPro在111个样本中有7个无法给出预测,作者将其排除,并对剩余的104个样本进行比较。与1v1约束下的表现相比,由于MvN约束的模糊性,ColabDock、HADDOCK和ClusPro在MvN约束下的表现有所下降,但ColabDock仍然优于其他两种方法(图3c)。实验再次表明,无论MvN约束的数量多少,ColabDock在DockQ上均表现最佳(图3d)。


实验衍生的约束中常常包含相距较远的残基,作者将其称为“松散约束”。为了测试模型在相关任务中的表现,作者故意在距离范围为8Å到20Å之间加入了松散约束。对于基准集中的每个复合物,松散约束的数量从1到5不等,而总约束数量固定为5个,共生成了185个样本。作者排除了9个ClusPro无法处理的样本,并对剩余的176个样本进行了三种方法的比较。结果显示,ColabDock表现最佳,平均DockQ值为0.344,平均α碳原子r.m.s.d.(Cα-r.m.s.d.)为6.55Å(图3e)。这些结果表明,ColabDock对约束的质量依赖较低。当与高质量约束结合时,ColabDock能够预测出比其他两种方法更为精确的结构。


使用NMR衍生的CSP约束进行对接

CSP是一种NMR的表面检测实验,它并不直接识别相互作用的残基对,而是提供位于界面处的一系列残基。因此,衍生的约束属于MvN约束类别。作者从Dominguez的研究中获得了两个带有CSP实验约束的蛋白质复合物样本(EIN和E2A),以形成CSP集。

图 4


在进行比较之前,作者首先评估了CSP约束的质量。较高的KL散度表明分布差异更大,约束信息量更大。EIN和E2A的KL散度分别为1.83和2.20,它们的相应分布如图4a所示。这些统计结果证明了NMR约束的高质量。


在这两个样本上,ColabDock预测的结构表现出较高的准确性。它们的DockQ值分别达到了0.603和0.936,远高于HADDOCK(EIN: 0.385和E2A: 0.411)和ClusPro(EIN: 0.347和E2A: 0.131)。此外,ColabDock预测的前10名结构的DockQ方差较低,这表明在提供高质量约束时,ColabDock表现稳定(图4b)。


不同CL约束下的性能表现

CL可以用试剂标记残基的侧链,具有显著修饰比率变化的残基更可能位于界面上。CL约束也属于MvN约束,但通常具有比CSP约束更宽的距离范围。因此,CL约束的KL散度通常低于CSP约束的KL散度。

图 5


CL数据集由五个样本组成,在大多数样本上ColabDock的表现优于HADDOCK和ClusPro(图5a)。在高质量CL约束的样本中,如4INS4和4INS12(图5b, c),与CSP数据集上观察到的情况类似,ColabDock表现出稳定且准确的性能。同时,在低质量约束的样本上,ColabDock的表现依然令人满意。例如,4INS8中的实验约束并不主要分布在界面上(图5d),而2F8O中的约束距离大于10Å(图5e)。在这两个案例中,ColabDock能够预测出合理的结构,而HADDOCK和ClusPro则生成了不正确的构象。


样本1YAG是一个特殊案例,链A中的七个残基已知与链B接触(图5f, 亮橙色部分),但关于链B中接触残基的其他信息并未提供。图5a展示了ColabDock和HADDOCK均能生成质量令人满意的结构。然而,ColabDock预测的结构与实验约束更为一致。


抗体-抗原复合物的结构预测

抗体-抗原复合物建模一直是一个长期存在的挑战,因为互补决定区(CDRs)的灵活性和缺乏共同进化信号。深度突变扫描(DMS)是一种常用技术,用于确定可能参与抗体-抗原结合的残基。在这项研究中,作者建立了一个包含45个复合物的抗体-抗原基准集,通过采样界面上的残基来模拟DMS衍生的约束。

图 6


如图6a所示,ColabDock优于HADDOCK和ClusPro,其平均DockQ值为0.223,平均r.m.s.d.为9.57Å。对于DockQ值大于0.49的样本数量,ColabDock也超过了HADDOCK和ClusPro(图6b)。


在这项研究中,以1AHW为例:1AHW是一个人类组织因子-抗体(5G9)复合物,参与了血液凝固蛋白酶级联过程。如图6c所示,作者随机从抗体中采样了五个界面残基(轻链的His91和Gly92,重链的Asp31、Tyr32和Asn100),以及从抗原中采样了七个界面残基(Lys165、Thr167、Val192、Thr197、Val198、Asn199和Asp204)。这些在抗体中采样的残基主要分布在L1 CDR、H1 CDR和H3 CDR区域。图6d展示了AF-Multimer的预测结构以及三种对接方法的结构。如图6e所示,ColabDock捕捉到了大多数界面上的天然接触,其DockQ值为0.770,r.m.s.d.为1.17Å,而其他方法的预测结构与天然构象有较大差异。这一案例研究表明,ColabDock在构象探索和构象排序方面都优于其他两种方法。


讨论

ColabDock是一种通用框架,它针对蛋白质复合物的受约束构象预测,将实验约束通过梯度反向传播整合到深度学习模型的能量景观中,无需大规模再训练。实验结果表明,ColabDock在高质量约束下优于HADDOCK和ClusPro,且在抗体-抗原数据集中表现出色,具有潜在的抗体设计应用。然而,ColabDock目前仅适用于距离在22Å以下的约束,且在处理大型复合物时受限于内存和计算时间。未来,框架有望扩展至如蛋白质-配体对接等更广泛的应用领域。

编译 | 于洲

审稿 | 曾全晨

参考资料

Feng S, Chen Z, Zhang C, et al. Integrated structure prediction of protein–protein docking with experimental restraints using ColabDock[J]. Nature Machine Intelligence, 2024: 1-12.


DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章