基于三维结构的分子生成是生成式人工智能在药物发现中的成功应用之一。早期出现的基于原子的分子生成模型如LiGAN、Pkt2Mol、DiffBP和ResGen等,输出的分子通常具有较好的对接分数,但同时也普遍存在两个问题:一是生成的分子构象经常出现扭曲或偏离口袋(图-1 GraphBP和DiffBP);二是倾向于生成大的并环结构来填充口袋(图-1 PktMol和ResGen)。虽然这样的结构可能会与靶蛋白产生更强的相互作用,但是复杂的结构往往不利于合成且易导致毒性。基于片段的分子生成以可合成的分子片段为基础,为提高生成分子的可合成性提供了方向,但是现有的基于片段的分子生成模型如FLAG,在生成具有合理几何形状的分子方面表现不佳(图-1)。因此,在基于结构的药物设计中,迫切需要一种可靠的基于片段的分子生成模型。浙江大学侯廷军课题组联合中国科学技术大学和蒙特利尔学习算法研究所在Chemical Science上发表文章“FragGen: Towards 3D Geometry Reliable Fragment-based
Molecular Generation[1]”。基于现有分子生成方法的优缺点,作者提出了一种组合策略并基于该策略开发了基于片段的分子生成方法FragGen,该方法显著提高了生成分子的结构质量和可合成性,克服了以前模型的主要局限性。FragGen已经成功地应用于现实场景并在nM水平上设计了II型激酶抑制剂。
图-1 不同方法生成的分子部分列举。
为解决生成分子几何结构不合理的问题,作者总结了目前在分子生成领域常用的六种几何结构处理方法(图-2):1)内部坐标法,在预测键长、键角和二面角之前先确定所有原子的连接顺序,但基于复杂的蛋白质口袋环境生成合理的拓扑顺序是困难的,且该方法主要关注局部的原子连接信息,忽视了分子整体的空间结构和对称性。2)笛卡尔坐标法,通过对三维坐标进行概率学习来预测原子坐标,由于没有考虑原子间的局部化学结构约束,每次预测误差的累积会导致最终几何结构不合理。3)相对矢量法,通过预测原子间的坐标向量差将自由度限制在键长上,减少需要预测的信息量,降低预测误差对整体分子几何结构的影响。4)GeomGNN,利用等变图神经网络学习原子之间的力并用于更新原子坐标,不仅训练和推理过程简单直接且能够高效生成符合全局几何特性的分子,但在实现局部几何结构的准确性方面仍存在局限性。5)GeomOPT,通过模拟分子内部的力场相互作用来预测原子的位置,理论上可以避免生成局部结构不合理的分子模型,但是为了找到合理的分子结构需要进行大量的迭代计算,在优化过程中还有可能陷入局部能量最小值,从而导致最终分子构象的扭曲。6)距离几何法,通过模拟原子间的距离来避免神经网络设计中的等变性需求,减少了模型构建的复杂性,但自由度过剩使得无法从距离矩阵中确定唯一的三维坐标,因此常导致构象扭曲。
图-2 不同几何处理方法的工作流程、面临的挑战、应用举例和其他模型信息(MG:分子生成,S-MG:基于结构的分子生成,CG:构象生成和S-CG:基于结构的构象生成,即分子对接)。
基于以上各种方法的优缺点,作者提出了一种用于基于片段的分子生成的组合策略(图-3):首先通过相互作用学习模块分析蛋白质口袋中的几何特征和关键位点,从片段库中挑选合适的初始片段并将其放在口袋合适的位置,接着利用相对矢量法检测潜在子口袋以确定后续片段组装的合适位置,然后预测下一个片段的类型并使用GeomOPT通过力场优化方法调整片段之间的键长、键角和相对位置,确保连接部分的几何结构合理性,同时结合化学知识如杂化轨道理论对生成的分子碎片进行初始化以保证其遵循化学规则,最后使用von Mises损失函数预测分子片段之间的二面角,确保二面角的旋转符合分子整体的几何约束,并使生成的分子片段能在三维空间中合理排布。
图-3 FragGen生成分子的工作流程。
作者引入了两个新的指标来定量评估生成分子的几何合理性:松弛能量(Relax E)和优化均方根偏差(OptRMSD)。即计算对生成分子进行力场优化后释放的能量(图-4A)和RMSD。由于大的芳香族体系不易产生构象变化,因此OptRMSD在多环化合物中的值一般较小,因此ResGen与FragGen生成化合物的OptRMSD值虽然相似,但FragGen生成化合物释放的能量却更低(图-4B-D),展现了其在生成合理几何构象方面的优势。对于FLAG这种易生成扭曲构象的模型,在两个指标上的结果均不理想(图-4B)。
图-4 (A)生成和优化后分子几何形状在能量景观图中的位置;(B-D)三种方法中三个例子的RelaxE和OptRMSD值。
作者评估和比较了FragGen和其他分子生成方法在CrossDock基准测试集上的性能,结果表明FragGen在Vina Score上的表现优于其他所有方法,在可合成性方面,当其他方法的SA值还在0.3到0.6范围内波动时,FragGen的SA值已经稳定在0.7以上。为证明FragGen在现实场景中的适用性,作者评估了该方法在几个经过充分研究的药物靶标上的性能。结果表明FragGen生成分子与Active数据集(实验验证的化合物)中分子的Vina Score分布较为接近(图-5A),且在Vina Score相似的情况下,FragGen在生成可合成性较好的分子方面的表现远优于ResGen(图-5B)。
图-5 (A)FragGen和FLAG在AKT1、CDK2和JAK2三个靶点上生成分子的结合能力(VinaScore)分布;(B)对比可视化前5个分子与靶标的结合能力和可合成性。
最后,参考PDGFRβ靶点基于I型抑制剂信息设计II型抑制剂的思路,作者使用FragGen设计了激酶LTK的II型抑制剂并进行了湿实验验证。首先基于间变性淋巴瘤激酶ALK建立LTK DFG-out同源模型,接着将已报道的ALK I型抑制剂对接到LTK模型中并提取与I型口袋核心区域有紧密相互作用的分子片段,然后基于该分子片段进行分子生成。在10分钟内,FragGen生成了97种分子,以氢键供体数< 5,氢键受体数< 10,2 < LogP < 5和可旋转键数< 10为条件过滤后获得10个分子,根据可合成性选择其中的三个进行了湿实验验证分析。其中化合物Darma-1具有最好的活性,IC50值为75.1 nM(图-6A)。对结合模式的分析表明Darma-1与LTK的II型口袋形成了全面的物理相互作用(图-6B-D),包括与ASP-155、LYS-35和GLU-52形成的氢键相互作用和其他疏水相互作用。这表明FragGen能够生成在三维空间中形状和排列合理且能够与蛋白质活性位点正确结合的分子结构。
图-6 (A)FragGen设计的三个化合物的结构及其对Ba/F3-CLIP1-LTK细胞的抑制活性(IC50);(B)Darma-1结合构象;(C)三维蛋白-配体相互作用分析;(D)二维蛋白-配体相互作用分析(绿色表示疏水相互作用,蓝色表示氢键相互作用)。
小结:
作为一种基于片段的分子生成方法,FragGen生成的分子不仅在结合亲合力方面与目前最优的方法表现相当,而且在可合成性方面也表现出较大的优势,对II型LTK抑制剂的成功设计表明了FragGen在实际应用中的潜力。但是FragGen的几何处理策略较为复杂,在复杂体系中进行多次迭代优化时,可能需要大量计算资源,这在应用于大规模片段库筛选时可能会成为瓶颈。此外FragGen在其他靶点上的应用仍需进一步验证。参考文献:
[1] Yu, M.; Zeng, Y.; Wang, M.; Hua, C.; Cui, S.; Pan, P.; Hsieh, C.-Y.; Hou, T.; Zhang,
O.; Huang, Y.; Chen, S.; Zhang, X.; Lin, H.; Wu, Z.; Zhao, H.; Zhang, Z.; Kang,
Y. FragGen: Towards 3D Geometry Reliable Fragment-based Molecular Generation. Chem.
Sci. 2024 Oct 16.