Nat. Comput. Sci. | Bruno Correia团队提出等变扩散模型DiffSBDD

学术   2025-01-16 00:02   韩国  

DRUGAI

今天为大家介绍的是来自瑞士洛桑联邦理工学院(EPFL),英国剑桥大学,美国康奈尔大学团队合作的一篇论文。基于结构的药物设计(Structure-based drug design,SBDD)旨在设计能够与预定蛋白质靶点高亲和力和高特异性结合的小分子配体。生成式SBDD方法利用药物与其蛋白质靶点的结构数据来提出新的药物候选物。然而,现有的大多数方法要么仅专注于从头设计化合物,要么采用特定任务模型解决其他药物开发挑战。后者需要对合适的数据集进行筛选整理,对模型进行精心设计,并且每个任务都需要重新训练。在此,作者展示了如何将单个预训练扩散模型应用于更广泛的问题,如现成的性质优化、显式负向设计和使用修复技术的部分分子设计。作者将SBDD构建为一个三维条件生成问题,并提出了DiffSBDD,这是一个基于蛋白质口袋生成新型配体的SE(3)-等变扩散模型。此外,作者还展示了如何使用额外的约束条件根据各种计算指标来改进生成的药物候选物。

设计具有药物特性的微小分子仍然是基础研究和生物制药研究中的一大挑战。基于结构的药物设计(Structure-based Drug Design, SBDD)旨在寻找能够以高亲和力和高特异性结合蛋白质特定三维(3D)位点的小分子配体。传统上,SBDD研究通常通过对大型化学数据库进行高通量实验筛选或虚拟筛选来启动。然而,这些方法通常耗费昂贵的成本和大量时间,并且将化学空间的探索限制在先前研究过的分子范围内,且更多地强调化合物的商业可得性。此外,初始先导分子的优化过程往往具有较大的主观偏差,过于依赖于人类直觉。


近年来,几何深度学习在建模生物分子的3D结构方面的进展,为SBDD提供了一个极具潜力的发展方向。尽管深度学习在替代对接模型方面取得了显著进展,但基于深度学习设计能与目标蛋白结合的配体仍然是分子建模中的一项重要难题。早期尝试包括将分子表示为原子密度图,并使用变分自编码器生成对应于新分子的原子密度图。然而,将这些密度图映射回分子空间并不简单,还需要一个额外的原子拟合阶段。另一种替代方法是将分子表示为包含原子坐标和类型的3D图,这种方法自然地避免了后处理步骤。Li等人提出了一种自回归生成模型,在蛋白质结合口袋的条件约束下采样配体。然而,顺序生成方法的主要假设在实际场景中可能并不成立,因为它在生成过程中引入了人为的顺序设定,从而可能丢失生成配体的全局上下文信息。


最近,一些扩散模型被提出用于目标特异性分子设计。这些模型可以同时放置所有原子,使其能够同时考虑整个分子,并通常实现更快的采样速度。尽管这类模型在从头生成配体方面已经展示出极大的潜力,但它们在药物设计流程中其他部分的应用潜力尚未得到充分探索。


在本研究中,作者提出了DiffSBDD,这是一种用于基于结构药物设计(SBDD)的SE(3)-等变三维条件扩散模型,该模型能够遵循平移、旋转和置换对称性。


模型部分

图 1


作者利用等变去噪扩散概率模型(DDPMs)来同时生成针对特定蛋白质靶标的分子及其结合构象。图1a以示意图展示了三维扩散过程。在训练过程中,对真实配体的三维结构添加不同程度的随机噪声,神经网络则学习预测分子的无噪声特征。在采样时,这些预测被用于参数化去噪的转移概率,从而逐步将样本从标准正态分布映射到数据流形(manifold)上。蛋白质和配体都被表示为三维点云,其中原子类型被编码为独热向量,所有对象均被作为图来处理。


为了提高计算效率,作者为配体和结合口袋节点之间的分子间边,以及同一分子中两节点之间的分子内边,定义了可独立调节的距离阈值(图1b)。这意味着信息只在空间上接近的原子之间传播。神经网络被设计为遵循分子系统的自然对称性,包括旋转和平移,但排除了不可叠加的变换。也就是说,该模型以等变的方式处理刚性变换,但不包括反射(reflection)。这一设计选择源于一些药物的立体化学影响其活性和毒性的研究实例。例如,抗抑郁药citalopram(图1e)有两种对映异构体(enantiomer),但只有S型对映异构体具有所需的治疗效果。然而,分子S型和R型的差异只能通过对反射敏感的GNN检测到。


为了将蛋白质结合口袋的结构作为条件约束应用于三维生成模型,作者提出了两种不同的方法。第一种方法是DiffSBDD-cond,在去噪过程的每一步中提供固定的三维上下文。具体而言,在扩散时间步t中,将配体的原子点云与蛋白质结合口袋的节点结合,后者在整个逆向扩散过程中保持不变(图1a)。第二种方法是DiffSBDD-joint,首先训练一个扩散模型来逼近配体和结合口袋对的联合分布,然后仅在推断阶段注入目标结合口袋的信息。该方法类似于后文描述的子结构修复方法(图1c)。


这两种方法都适用于小分子设计任务,其主要区别在于神经网络输入的是结合口袋的原始版本还是带噪声的版本。


与其他基线模型的比较

图 2


作者首先探讨DiffSBDD模型其是否能够准确表征真实配体的性质,并将结果与四种近期发布的自回归模型进行比较,包括Pocket2Mol、ResGen、PocketFlow和DeepICL,这些模型代表了SBDD领域先前的先进机器学习方法。测试中使用了这些模型公开可用的代码和权重。需要注意的是,基准模型并非都在相同的训练集上进行训练。


图2a显示,DiffSBDD和Pocket2Mol的Vina评分都集中在参考值附近,但扩散模型的分布范围更广,这表明其生成的样本中包含更多得分较低的分子,同时也包含潜在结合力可能强于天然配体的配体。在下游设计应用中,通常更关注最具竞争力的结合物,而非平均水平的候选物,因此高得分分子比例较高这一特性尤为重要。类似的观察结果也出现在Binding MOAD数据集中,该数据集包含实验测定的结合复合物。然而,与CrossDocked数据集不同的是,Binding MOAD数据集的对接评分平均而言低于其参考配体的得分。作者认为其原因主要有两点:Binding MOAD训练集规模较小,且包含更多具有挑战性的真实配体(即天然结合物),而CrossDocked复合物可能存在不现实的蛋白质-配体相互作用。这一假设通过人工合成数据集的参考分子较低的平均Vina评分(-7.68对比-9.17)得到了支持。这一结果强调了高质量训练集对旨在设计高亲和力结合物的SBDD模型的重要性。


最后,DiffSBDD生成的分子在平均水平上与参考分子更加相似(图2a和图2d),并且包含的五元环和六元环数量与天然配体相当(图2b和图2e)。然而,小于四元环或大于七元环的环系统在DiffSBDD生成的分子中通常过度表现。值得注意的是,两种条件扩散方法(DiffSBDD-cond和DiffSBDD-joint)之间的差异通常比DiffSBDD与其他模型之间的差异小得多。因此,实证结果并未明确支持其中一种条件扩散方法优于另一种。


图2c和图2f展示了从每个测试集中选取的一个目标的代表性分子。这些选择经过筛选,包含具有类药性(药物样性定量估计,QED > 0.5,QED全称为quantitative estimate of drug-likeness)且与Enamine筛选集合中的可购买分子相似的示例。这些筛选条件代表了药物设计中期望的理想特性。例如,具有PDB ID为6c0b的靶标是一种涉及微生物感染的受体,也可能与肿瘤抑制有关。参考分子是一种长链脂肪酸(图2f,底部),有助于受体结合,但由于其旋转键过多以及氢键供体/受体数量较少,并不被认为是一种合适的药物样化合物(QED = 0.36)。然而,作者的模型通过添加由少量旋转键连接的芳环,生成了具有类药性(例如第一个示例中QED = 0.87)且大小合适的分子。这种设计方法允许分子采用互补的结合几何结构,并通过减少自由度在熵上具有优势,这是药物化学中的经典方法。


从已知的子结构生成生成化学物质

药物研发中,常见的做法是围绕先前识别的活性子结构设计分子。例如,一些重要任务包括围绕一组功能基团设计骨架(称为骨架跃迁,scaffold hopping)或扩展现有的片段以构建完整分子(称为片段增长,fragment growing)。基于给定分子上下文或其部分来生成化合物类似于图像修复技术,该技术最初用于补全图像中缺失的部分,但也已被应用于包括生物分子结构在内的其他领域。


通过一种称为“替代法”的修复技术,可以实现多个药物发现的子任务。这种方法通过在子结构的固定区域内或周围添加新原子来设计完整的分子(见图1c)。与以往方法不同,使用DiffSBDD无需针对任何特定或合成数据集重新训练模型。整理此类数据集通常耗时费力,并且通常依赖于可能不理想的假设(例如片段的定义),以将一般的小分子数据集转化为可用于训练专用模型的任务特定数据集。而在作者提出的方法中,仅需定义一个简单的二进制掩码,就足以使扩散模型推广到任何修复任务,同时使用的是在所有可用蛋白质-配体原始数据上训练的神经网络。

图 3


图3展示了五种不同设计应用的示例。对Binding MOAD测试集的系统性测试涵盖了连接体设计、骨架跃迁和骨架扩展任务。结果显示,将固定区域限制为蛋白结合口袋中高度互补的子结构显著提升了与基础版DiffSBDD相比的Vina评分。在片段连接任务中,作者的通用采样策略甚至实现了与专用模型DiffLinker相当的结果。


迭代搜索更好的候选分子

实际应用中,进行命中化合物识别和先导分子的优化时,仅从整个训练数据分布中采样分子是不够的。相反,通常关注的是分布中表现更优的尾部部分,仅选择最有潜力的候选分子。研究表明,DiffSBDD能够重现训练集的化学空间,包括高评分分子,因此总能找到具有强对接评分、良好合成可行性以及其他理想特性的潜在药物候选物。

图 4


作者提出了一种简单的方案,通过反复添加/去除噪声并在每次迭代中选择最有潜力的候选分子来高效获取这些分子(见图1d)。图4a–d展示了在合成可行性、QED评分和Vina评分优化方面的结果。


此外,作者考虑了高度选择性激酶抑制剂设计的挑战性案例(图4e–g)。在实验中,作者针对目标激酶BIKE(PDB ID:4w9w)进行正向设计,同时针对结构相似的非目标激酶MPSK1(PDB ID:2buj)进行负向设计(图4e)。经过五轮优化,作者成功地将目标激酶的对接评分从−7.2提升至−13.9,同时将非目标激酶的对接评分从−10.8降低至−8.7,显示出显著提高的选择性。

编译|黄海涛

审稿|王梓旭

参考资料

Schneuing, A., Harris, C., Du, Y., Didi, K., Jamasb, A., Igashov, I., ... & Correia, B. (2024). Structure-based drug design with equivariant diffusion models. Nature Computational Science, 1-11.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章