虚拟筛选是靶向药物研发的常用技术之一,是通过分子对接技术考察一批化合物与靶标分子结合的能力,并在打分函数的指导下预测候选化合物的生理活性。除了计算方法的局限性,虚拟筛选主要受到化合物库的限制,难以实现对化学空间的充分探索。从头药物设计(de novo drug
design)原则上可以突破这个桎梏。近年来,基于各类深度学习模型的分子生成模型不断被提出,一些方法不能直接生成针对特定蛋白的分子,需要与分子对接或强化学习结合进行靶向药物设计。此外,模型所生成的分子除了亲合性和多样性需要关注,还应当考虑可合成性、毒性等必要的性质,这也是目前分子生成模型所欠缺的。 针对上述问题,湖南大学的曾湘祥教授及其团队受到DNA编码化合物库(DNA-encoded
compound library)技术的启发,将组合化学和基于片段的药物设计方法与深度学习相结合而提出了DeepBlock模型。DeepBlock将分子生成过程创新性地分为两个步骤:分子砌块(building
blocks)的生成和片段连接。模型基于靶点序列,逐步生成分子砌块序列并最终组装出类药分子。近日,该工作发表在计算机科学领域中的著名刊物Nature
Computational Science上(Nat Comput Sci, 2024, 4, 851–864)。【1】 DeepBlock的主要架构BGNet采用配体和蛋白分别编码的方案,其中蛋白序列的编码使用预训练模型ESM-2,而有关分子砌块的自动编码器的预训练使用来自ChEMBL31的类药小分子结构开展。基于靶蛋白序列进行分子生成的推理过程,作者则使用CrossDocked 2020的蛋白-配体数据进行训练。自监督的预训练模型和蛋白语言模型ESM-2的使用明显提高了模型对序列的理解和特征提取能力。
图1、DeepBlock模型框架示意图。a)DeepBlock工作流程示意图。b)DeepBlock的模型架构。c)DeepBlock生成分子的过程。d)分子生成过程中进行性质优化的过程。e)分子砌块划分和重组过程。
值得关注的是,DeepBlock生成分子的一大优势是具有良好的合成性,一方面来自于模型的推理能力,另一方面来自于合理的分子砌块划分方法。BRICS(the Breaking of Retrosynthetically Interesting
Chemical Substructures)规则定义了一系列可断裂的化学键,是一种被广泛使用的片段划分方法。但是,图结构固有的组合爆炸问题使得难以仅靠BRICS分割的砌块重新连接成起始结构。因此,作者通过砌块的相对质量和断点的原子索引进行排序的方法定义了一种基于图的分子划分和重组算法解决了这个问题。 在分子生成性能的评估中,作者主要选择TargetDiff和Pocket2Mol两个模型进行横向对比。结果如图2所示,DeepBlock生成的分子与另外两个模型生成的分子在Vina打分上接近,但DeepBlock结果的打分值更加集中,表明其具有相对稳健的生成能力。尽管另两个模型能生成更多高对接分数的分子,但通过QED和Retro*打分评估分子的类药性和可合成性时,结果表明TargetDiff和Pocket2Mol生成的高打分的分子往往具有不理想的可合成性和类药性。相比之下,DeepBlock所生成的分子结构和理化性质更接近已知的活性配体。
图2、分子生成算法的对比结果。a)各方法生成分子和参考分子的理化性质分布。b)TargetDiff、Pocket2Mol和DeepBlock生成分子的散点分布图,蓝色表示逆合成分析失败,绿色表示逆合成分析成功。c)TargetDiff、Pocket2Mol和DeepBlock生成分子Vina打分分布的箱型图。d)预训练对模型性能的影响。
为了验证模型在无结构信息的全新蛋白上的分子生成能力,作者选择了KIAA1363蛋白进行了案例研究。作者使用DeepBlock生成了100个配体并从其中选择了对接分数最高的5个进行分析。这些分子与已知抑制剂JW480具有类似的子结构和结合口袋,都具有较好的类药性和可合成性。长时动力学模拟得到的RMSD曲线表明生成的分子能与蛋白形成类似JW480的稳定结合,并能形成更丰富的相互作用。此外,图3d显示出分子的生成和逆合成分析过程,其高度相似性证明了DeepBlock的生成能力,也表明作者提出的砌块划分的合理性。
图3、KIAA1363靶点的分子生成案例研究。a)生成分子的结构及结合模式示例。b)JW480与蛋白相互作用的残基尺度分析。c)DeepBlock所产生的亲合性打分最高的分子与蛋白相互作用的残基尺度分析。d)子图c中分子可合成性分析示意图。
在性质优化的案例研究中,作者从CrossDocked 2020测试集中选择F16P1作为靶点,并从ChEMBL随机选择了5000个小分子作为优化的起点。结果如图4,亲合性在-7±0.5范围的分子中57.53%成功优化,对于初始亲合性较低的分子被优化效果更明显,并且优化前后保持一定的分子相似性。图4c显示初始亲合性大于-7.2的分子有76.04%取得了较大幅度(平均值0.5 kcal/mol)的亲合性提高。尽管优化后可合成性下降,但仍在可接受的范围之内。
图4、优化前后的亲合性对比。a)不同亲合性区间分子优化的成功率。b)低亲合性分子的优化结果。c)低亲合性分子优化前后各项性质对比。
与随机退火算法或贝叶斯优化算法结合,DeepBlock还可以完成靶点感知的性质优化。与现有方法不同,这可以在优化中使用保持靶点约束,确保分子不损失对靶点的亲合性。本文中,作者还对模型进行了可解释性研究,证明了模型的结合位置预测和分子生成是在准确的结构感知基础上完成的。小编评论
本文提出了一种全新的基于图的片段式分子生成模型。相比于逐个原子的生成策略,基于片段的药物设计能够产生类药且易合成的分子,但这类方法一直受到图的片段组合的复杂性的限制。作者在本文中提出的适合分子图的片段划分和重组方法很好地解决了这个问题,为此类方法的发展提供了思路。参考文献
【1】Li, P., Zhang, K., Liu, T. et al. A
deep learning approach for rational ligand generation with toxicity control via
reactive building blocks. Nat Comput Sci 4, 851–864
(2024).