近年来,深度学习模型在蛋白质-配体对接和亲和力预测中的应用引起了越来越多的关注,这种应用对于基于结构的药物设计至关重要。然而,许多这些模型忽略了复合物中配体和蛋白质原子之间相互作用的复杂建模,从而限制了它们的泛化和可解释性的能力。2024年11月25日,腾讯人工智能实验室团队在Nature Communications上发表文章Interformer: an interaction-aware model for protein-ligand docking and affinity prediction。作者提出了Interformer,一个建立在图Transformer架构之上的模型,利用相互作用感知混合密度网络捕获蛋白质-配体相互作用。此外,作者引入了蒙特卡罗采样策略,促进了相互作用分布的有效校正,以进行亲和力预测。实验表明,Interformer的性能超越了现有方法。如图1所示,Interformer是一种基于晶体结构数据训练的深度学习模型,用于蛋白质-配体对接亲和力预测任务。它的架构受到图Transformer的启发,最初是为图表示学习任务而提出的。首先,该模型以晶体结构中的单个初始配体三维构象和蛋白质结合位点作为输入。图被广泛用于各种方法来说明配体和蛋白质,如图1a所示,其中节点表示原子,边表示两个原子之间的接近度。作者使用药效团原子类型作为节点特征,使用两个原子之间的欧几里得距离作为边特征。这些药效团原子类型提供了基本的化学信息,从而使模型能够更好地理解特定的相互作用,如氢键或疏水相互作用。在第二阶段,对接流程如图1b所示,通过内部模块(intra-block)处理来自蛋白质和配体的节点特征和边特征。内部模块通过捕获同一分子内的相互作用来更新每个原子的节点特征。然后将这些更新的节点特征输入到相互作用模块(inter-block)中,捕获蛋白质和配体原子对之间的相互作用,从而进一步更新节点和边特征。边输出层随后结合这两组特征来生成每个蛋白质配体原子对的相互作用表示(Inter-representation)。在这里,内部模块和相互作用模块都由图Transformer实现。利用强大的自注意力机制,图Transformer在学习节点关系方面表现出色,并在各种图任务中取得了卓越的性能,其最关键的是,在Transformer的多头自注意力中增加了一个通过边特征来编码的偏置项,以融合图结构信息。随后,相互作用表示由感知交互的混合密度网络(MDN)处理。该网络预测了每个蛋白质-配体原子对的四个高斯函数参数,它们分别受到不同可能的特定相互作用的约束。前两个高斯函数封装了所有类型的对相互作用(g1, g2),第三个高斯函数表示疏水相互作用(hydro),第四个高斯函数表示氢键相互作用(hbond)。通过对这四个高斯函数进行积分,得到了一个混合密度函数(MDF),它表示任意给定的蛋白质-配体原子对的距离条件概率密度函数。该MDF可以作为能量函数来估计蛋白质原子与其相应配体原子之间的最可能距离。氢键和疏水相互作用在结合自由能中起重要作用。这些特定相互作用的分布明显不同于其他典型相互作用的分布。为此,作者设计了每个特定相互作用分布的单独模型,例如疏水的第三项和氢键的第四项。因此,MDF生成的对接姿势固有地显示了这些特定的相互作用,就像大多数天然晶体结构一样。相比之下,其他方法利用有限的MDF来模拟所有类型的蛋白质-配体对,从而混合了各种不同类型的对,忽略了特定相互作用的重要性。或者,像DiffDock这样的方法仅仅最小化均方根误差(RMSD)作为损失函数,导致对接过程仅仅近似晶体结构,而不是捕获关键的特定相互作用。在第二阶段的最后,所有蛋白质-配体对的MDF被聚合成一个能量函数和,然后将其引入蒙特卡罗(MC)采样方法,以生成相对于其蛋白质目标的前k个候选配体构象。MC取样最初将配体定位在蛋白质结合位点内的不同位置,并分配随机扭转角,然后寻求最小化与配体构象相关的给定能量函数。通过汇总所有按能量值排序的候选姿态,可以得到前k个候选对接姿态。在第三阶段,对接姿态评分和亲和力预测流水线如图1c所示。从生成的对接位姿中,蛋白质和配体原子之间的距离和特定相互作用更新了新的边特征。然后通过内部模块和相互作用模块处理节点和边特征以创建隐式交互。虚拟节点通过自注意力机制收集绑定位姿的所有信息。最后,将虚拟节点的绑定嵌入馈入亲和位姿层,预测对应对接位姿的绑定亲和值和置信度位姿得分。通过负采样结合差的位姿,利用对比伪Huber损失函数来指导模型识别位姿是好还是差。训练目标确保模型预测较差的位姿值较低,较好的位姿值较高,其主要区别在于它们之间的相互作用。这种策略有助于模型学习关键的交互,而不是人工特征。这种特征即为对位姿的相互作用感知,在现实世界的药物开发项目中表现出优异的性能。作者将Interformer与一些具有代表性的方法进行了比较,在PDBBind测试集上,确定RMSD小于2Å的对接姿势的成功率(越高越好),以及RMSD的中位数(越低越好)。作者研究了对接的两种主要场景:第一种是提供整个蛋白质结构作为输入,称为“盲对接”,第二种是基于已知的参考配体,称为“指定的口袋残基”。结果如表1所示,作者提出的方法显著优于以往的所有方法,在两种场景下的前1名成功率为63.9%,显著高于其他方法。加上位姿得分模型,前1名的成功率下降到62.1%。尽管RMSD似乎降低了,但所选择的姿势往往表现出更准确的特定相互作用。与基于指定的口袋残基方法相比,Interformer耗时也更短。作者设计了消融实验来验证模型设计的有效性。实验在PoseBusters数据集上进行,该数据集包含308对蛋白质-配体对。大多数深度学习方法的主要目标是最小化对接配体和晶体配体之间的RMSD。然而,生成的对接姿势往往与晶体配体非常相似,而不是遵循非共价相互作用等物理原理。作者对四种不同方法(DiffDock,DeepDock,包含位姿分数的Interformer,不包含位姿分数也就是仅使用能量函数的Interformer)对氢键相互作用和疏水相互作用的还原率分别进行了分组分析。DiffDock和DeepDock平均只能还原29.42%、23.55%的氢键和19.36%、16.26%的疏水相互作用。相比之下,具有位姿评分的Interformer平均能恢复57.25%的氢键和43.7%的疏水相互作用。然而,在没有位姿评分的情况下,氢键和疏水相互作用的平均回收率分别下降到52.7%和41.6%。这一发现表明位姿评分模型可以进一步提高特定交互的准确性。作者还进行了案例分析。为了验证Interformer在实际场景中的有效性,作者研发了两个药物开发流程。这两个项目都涉及小分子优化,由药物化学专家根据参考小分子的晶体结构和结合模式设计候选小分子列表。然后Interformer对这些候选分子进行亲和性评分,并通过各种ADMET分子性质预测模型验证,以确保最终设计的小分子在性质和亲和性方面表现良好。LSD1是一个潜在的癌症治疗靶点。作者开发了两个小分子系列,产生了54种化合物。最强的亲和力为0.7nM,如图3所示,化合物Cpd 27 pg 64随后在口服和静脉注射小鼠试验中进行了代谢稳定性评估。作者还针对治疗SARS-CoV-2病毒的药物进行了研发,该病毒的一个关键靶点是主蛋白酶(Mpro)。作者采用了对小分子进行大环修饰的策略,设计了9个小分子。其中最有效的亲和力为16 nM,如图3所示。在亲和力预测任务中,LSD1和Mpro项目中Interformer实际pIC50值与预测pIC50值的相关系数分别为0.523和0.604,相比之下,只训练晶体结构、而未加入位姿的负采样评分的亲和预测模型,其pIC50的相关性仅为0.330和0.097。这些现实世界的制药场景强调,当实际的对接姿势可能不精确时,仅对晶体结构进行训练的模型表现欠佳。在LSD1项目中,作者进行了对接位姿的构效关系(SAR)研究,并分析了参考小分子PDB ID: 6W4K的晶体结构。Cpd27维持参考分子与LYS-661的临界氢键相互作用,同时修饰其他官能团,与GLN-358和ALA-539形成两个额外的氢键相互作用,代谢稳定性和亲和力均优于参考分子。在Mpro项目中,作者分析了参考小分子PDB ID: 7RFS的晶体结构。这种抑制剂是共价抑制剂。因此,这一系列小分子必须考虑共价弹头腈基(warhead nitrile group)的定位,它必须与CYS-145形成共价键。通过SAR分析,TAD 6-ref在空间上是合理的。几乎所有其他相互作用都与参考分子保持一致。
本文提出了Interformer,这是一个专门为蛋白质配体对接亲和力预测设计的深度学习生成模型。该模型集成了基于图Transformer的分子表示学习模型,以及一个强大的相互感知混合密度函数,能够成功地以高效率恢复特定的相互作用。Interformer有效地解决了最先进的深度学习模型的共同缺陷,也就是这些模型往往忽略了关键的非共价相互作用。此外,基于配体对特定靶标的亲和力,对配体进行排序或筛选的能力同样至关重要。本文认识到许多最先进的深度学习模型容易过度拟合晶体结构,因此,Interformer采用了一种新颖的训练策略,利用负采样来提高位姿估计灵敏度。这种方法通过关注蛋白质和配体原子对之间的特定相互作用,使Interformer能够区分不太准确和更有利的对接位姿,使模型能够增强在现实场景中预测的泛化能力。实验表明,Interformer在蛋白质与配体对接任务上超越了现有方法,产生了物理上合理的对接姿势,增强其在加速药物设计过程方面的巨大潜力。在未来,Interformer的应用将可以扩展到更广泛的现实世界的生物挑战中,包括蛋白质-蛋白质和蛋白质-核酸相互作用等。
参考文献
Lai et al. Interformer: an interaction-aware model for protein-ligand docking and affinity prediction. Nature Communications. 2024