【佳作推荐】微软研究院科学智能中心、全球健康药物研发中心和中科大联合团队发表NC论文:靶标感知分子生成模型TamGen

学术   2024-12-26 08:55   上海  
生成式药物设计是一种创新的药物设计方法,它在不依赖现有模板或分子骨架的前提下生成具有特定性质的化合物。与基于筛选的方法(如高通量筛选和虚拟筛选等)相比,该方法突破了现有分子库的局限性,为发现那些尚未被充分研究的化合物类别及全新化合物提供了可能。近年来,越来越多的方法被提出用于指导基于靶蛋白信息的分子生成,包括自回归模型、生成对抗网络(GAN)、变分自编码器(VAE)和扩散模型等。虽然这些方法生成的化合物通常展现出较好的多样性和新颖性,但在物理化学性质方面往往不尽如人意。因此,尽管分子生成模型在理论上具有探索广阔化学空间的潜力,但在生成具有实际应用价值的化合物方面仍面临诸多挑战。

近期,微软研究院科学智能中心、全球健康药物研发中心和中国科学技术大学联合团队在Nature Communications期刊上发表了关于靶标感知的分子生成模型TamGen的重要成果[1]。该模型采用类似GPT的化学语言模型,允许基于蛋白质结构生成靶标感知的化合物和基于种子化合物进行结构优化。值得一提的是,TamGen不仅能够生成初始化合物,还可以基于已生成的化合物或已报道的候选分子信息进行多轮优化并生成新分子。在实际应用中,研究团队通过TamGen发现了14个对结核ClpP蛋白酶具有良好抑制活性的化合物。

TamGen 主要包含三个模块(图-1):1化合物解码器:作为TamGen 的核心模块,该模块使用从 PubChem 数据库中随机选取的 1000 万个 SMILES 字符串进行预训练。预训练策略模仿 GPT 生成文本的方式,基于已生成的 SMILES 字符串预测下一个字符。通过这一策略,TamGen可以学习大量化合物的普遍性和多样性知识,确保生成符合化学规律的化合物。2蛋白质编码器:该模块采用 Transformer 架构,通过对氨基酸进行one-hot编码和三维坐标的线性映射,同时结合旋转、平移变换等数据增强方法来有效地捕捉蛋白质的空间信息。该模块的输出将通过交叉注意力模块传递给化合物解码器,以确保生成的化合物与靶蛋白的三维构象相匹配。3上下文编码器:该模块采用变分自编码器(VAE)架构,通过利用先前生成的化合物或文献中报道的候选分子与靶蛋白之间的相互作用信息来优化或生成新的化合物。它将输入的配体-靶蛋白口袋配对信息映射到潜在空间(一个低维向量空间,代表蛋白质-配体交互的潜在特征),然后将从潜在空间中采样得到的潜在向量输入到化合物解码器模块,同时结合可合成性等评分对化合物结构进行调整以生成优化后的化合物。

-1 TamGen模型的基本架构。

为评估TamGen的总体性能,作者将其与五种近期推出的分子生成方法进行了比较。首先使用与这些方法相同的训练和测试数据对 TamGen 进行微调。然后,针对 CrossDocked2020 测试集中的每个靶蛋白,TamGen生成100个化合物,并采用一套综合性指标对其进行评估。评估结果显示,TamGen在六项关键指标(对接分数、药物相似性QEDLipinski五原则、可合成性评分SAS、脂水分配系数logP和分子多样性)上均展现出了优于其他分子生成方法的表现(图-2a),尤其是在生成对接分数高且可合成性良好的化合物方面,TamGen表现最佳(图-2b)。值得注意的是,在现有基于结构的分子生成方法中,为获得具有较好结合亲合力的分子,大多数模型倾向于生成具有较多融合环的结构,以尽量填满整个靶蛋白口袋。然而,这种结构通常伴随着较差的可合成性和潜在的毒性。相比之下,TamGen生成的分子在融合环数量上低于目前性能较优的其他几种模型,且与目前FDA批准化合物所含融合环数量基本相当(图-2c)。

-2 多个模型所生成分子的性质的对比评估

最后,为检验TamGen在实际药物研发中的潜力,作者设计并实施了一套完整的“设计-优化-测试”的工作流程,并将其成功应用于靶向结核ClpP蛋白酶抑制剂的研发(图-3)。在设计阶段,TamGen仅基于靶蛋白结构生成了2612个化合物。通过分子对接技术剔除了与阳性化合物硼替佐米相比对接分数更差的化合物。接着,利用化合物表型活性预测模型Ligandformer进一步筛选出具有潜在活性的化合物,并排除了那些ADMET性质通常较差的拟肽化合物。经过这一系列严格筛选,最终确定4个候选化合物作为进一步的研究对象。进入优化阶段,作者以设计阶段挑选的4个化合物和3个已报道的经实验验证的弱抑制活性化合物(IC50 100 - 200 μM)为种子化合物,然后利用TamGen基于靶蛋白结构生成8635个优化化合物。随后使用与设计阶段相同的筛选策略对这些新化合物进行过滤,最终保留296个具有潜在优化价值的化合物。在最后测试阶段,作者首先在含约45万个化合物的商业化合物库中进行搜索,成功获得了159个与先前筛选出的化合物结构相似的候选物。随后对这些候选物进行了生物实验测试,结果显示有5个全新的化合物对ClpP的抑制活性IC50值在20 μM以下。此外,作者自行合成的三个化合物在生物实验中也表现出对ClpP较好的抑制活性。

-3 使用TamGen设计靶向ClpP抑制剂的工作流程。

为进一步验证 TamGen 所生成化合物的独特性和创新性,作者将其生成的化合物与现有化合物库中的化合物进行了比较(图-4),这一对比分析结果清晰地展示了 TamGen 生成化合物与现有化合物库中化合物在化学空间分布上的差异。这不仅凸显了 TamGen 在药物设计领域探索未开发化学空间的强大能力,也进一步证明了其能够为药物研发提供新颖且独特分子结构的潜力。

-4 TamGen生成化合物与化合物库中化合物的化学空间分布及TamGen设计的8个活性良好的结核ClpP蛋白酶抑制剂化学结构和空间分布。(灰色:从现有化合物库中采样的化合物;绿色:第一阶段生成的化合物;红色:第二阶段生成的化合物)

【小结】

作为一种基于靶蛋白结构的分子生成模型,TamGen能够结合靶蛋白口袋信息和已知候选分子信息通过多轮优化生成在多种指标上均表现较好的化合物,尤其在目前多数基于原子的分子生成模型致力于解决的平衡生成分子的结合亲合性和可合成性方面,TamGen表现出较大的优势。但是该模型仍存在一定的局限性:1)对靶蛋白中微小差异(如点突变或同源蛋白)并不十分敏感,即可能无法生成具有较好选择性的分子;2)作为一种基于结构的药物设计方法,TamGen需要靶蛋白的三维结构和潜在结合口袋信息,若靶蛋白的结构信息不完整或不可得,模型的应用将受到限制。因此,虽然TamGen在生成分子的结合亲合性和理化性质等方面表现出优势,但仍然具有一定的改进空间。

参考文献:

[1]Wu K, Xia Y, Deng P, Liu R, Zhang Y, Guo H, Cui Y, Pei Q, Wu L, Xie S, Chen S, Lu X, Hu S, Wu J, Chan CK, Chen S, Zhou L, Yu N, Chen E, Liu H, Guo J, Qin T, Liu TY. TamGen: drug design with target-aware molecule generation through a chemical language model. Nat Commun. 2024 Oct 29;15(1):9360.


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章