Nat. Commun. | ClickGen: 一种基于模块化反应和强化学习对可合成化学空间定向探索的生成式AI模型

学术   2024-11-25 00:02   韩国  

DRUGAI

本文介绍一篇浙江大学药学院侯廷军教授、谢昌谕教授以及碳硅智慧联合于在‌《Nature Communications》上发表的分子生成新方法的论文。该论文提出了一种基于生成式AI的全新药物设计模型ClickGen,该模型能够利用模块化反应(如点击化学)组装分子,并结合强化学习和图像补全技术,确保生成的分子具备高度的多样性、新颖性、靶标高亲和性以及优秀的可合成性。此外,本文还针对ClickGen生成的多聚腺苷二磷酸-核糖聚合酶1(PARP1)配体分子进行了实验验证。由于该模型确保了生成分子的高合成性,并提供了合成路线参考,仅20天内便成功合成并测试了这些新化合物的体外生物活性。在生物活性实验中,两个先导化合物表现出对癌细胞株抗增殖效果、对正常细胞的低毒性,以及对PARP1酶的纳摩尔级抑制活性。该方法有望使得基于AI的自动化实验和分子设计的闭环更进一步。



研究背景

全新药物设计(DNDD)领域,深度学习(DL)的应用已成为备受关注的跨学科焦点。基于DL的DNDD在多种药物设计任务中展示了良好的性能,包括多目标优化、基于片段的药物设计,以及基于蛋白口袋的药物设计等。与传统药物设计类似,这些方法大致可分为两大类:基于配体和基于受体的方法。在基于配体的方法中,二维(2D)表示方式,如SMILES或分子图,常作为DL框架的输入和输出。这些方法利用如logP、合成性系数和QSAR活性等理化性质预测模型来引导配体的生成。代表性的配体生成方法包括ChemVAE、REINVENT和GENTRL。虽然这些配体生成方法能够产生有效且新颖的分子,但往往忽略了生成分子的三维(3D)构象。为克服配体生成方法的局限性,基于受体的方法应运而生,这些方法采用3D分子表示,例如LIGAN、ResGen和SurfGen。这些方法在生成过程中可显式地建模蛋白与配体之间的分子间相互作用,通过学习3D结构训练数据中的基本物理原理,生成更具优势构象的分子。


然而,尽管上述方法取得了很大的进展,但大部分方法存在同样的缺陷,即如何保证生成分子的可合成性。为提高生成分子的可合成性,一些研究人员尝试将传统药物设计中的组合化学技术引入DL生成模型中,例如BBAR、Synnet和DeepLigBuilder+。这些模型通过预定义的反应规则将合成子组装在一起,构建新颖的分子,部分模型甚至在输出中提供了合理的反应途径。尽管这些方法可能为生成分子具有高合成性提供了有力证据,但类似于传统组合化学技术,它们仍面临一些显著的局限:

  • (1) 生成分子的实际合成难度:这些基于组合的生成方法虽然通过反应规则指示如何拼接合成子,但通常不考虑副反应、反应条件、额外的活化步骤和空间位阻等因素。因此,实际的化学实验室合成往往因原材料稀缺和苛刻的反应条件而受阻,需耗费大量时间和资源。

  • (2) 生成分子的活性不确定性:这些基于反应的生成模型主要确保生成分子具有高合成性,但通常不能保证生成分子的生物活性。尽管提供了具有潜在药效团、良好对接构象或者在自由能扰动(FEP)分析中表现良好的结构,但在没有湿实验验证的情况下,这些分子作为潜在药物先导的实用性仍存在不确定性。

易合成的分子生成模型的核心在于预定义的化学反应规则集,反应规则在很大程度上决定了组合生成的分子是否能够在实验室实际合成。铜催化的叠氮-炔基环加成(CuAAC)反应在室温至中等温度(25°C至60°C)下进行,使用铜(I)催化剂(如CuBr或CuI)。或者在还原剂(如抗坏血酸)存在下,可从铜(II)盐(如CuSO₄·5H₂O)原位生成铜(I)。该反应在极性溶剂如水、乙醇、DMSO或THF中进行,混合叠氮化物和炔后加入配体(如三苯基膦或菲咯啉)以稳定铜(I)催化剂。CuAAC反应的特点是快速且具有高度选择性,通常在数分钟至数小时内完成,不需要苛刻的反应条件或复杂的纯化步骤。CuAAC以其标准化的反应条件、极少的副反应和高产率,被认为是一种理想的模块化反应,适用于生成模型。其高效性和简单性使其广泛应用于药物开发、材料科学和生物标记领域,且具有良好的可重复性。此外,一些研究表明,基于CuAAC的反应规则可支持构建用于虚拟筛选的化合物数据库,涵盖数十亿种化合物,且其中高达80%的化合物能被合成。因此,CuAAC作为面向合成的生成模型的反应规则,具备生成新颖多样化合物的能力,同时最大限度地保证合成的实际可行性。


受这些虚拟库构建的启发,该文提出的ClickGen模型采用点击化学作为基础反应规则,并辅以模块化酰胺反应。该酰胺反应涉及羧酸和胺,在使用DCC(N,N'-二环己基碳二亚胺)或EDC(1-乙基-3-(3-二甲氨基丙基)碳二亚胺)作为偶联剂时,以其高效和易于重复著称。该反应通常在温和条件下进行,使用二氯甲烷或DMF(N,N-二甲基甲酰胺)等极性溶剂。DCC/EDC方法有效激活羧酸,使其迅速与胺反应生成酰胺键,通常在数分钟至数小时内完成。由于其简便性和稳健性,该方法在药物合成、生物分子标记和材料科学等领域得到广泛应用,确保了结果的一致性和可靠性。


结合模块化反应并利用图像补全模型和强化学习进行分子生成,该模型有望创造出结构新颖、合成性强且具备生物活性的分子。为评估ClickGen在DNDD任务中的表现,该文首先考虑三种不同类型的靶标:ROCK1,SARS-Cov2 Mpro(以下简称SARS-Cov2或Mpro)以及AA2AR,对模型效果进行测试。随后将ClickGen用于PARP1靶标的全新药物设计,经过虚拟筛选、生成分子的合成和生物活性的测试,最终验证了ClickGen在实际药物发现任务中的可行性。


材料与方法

基于化学反应的组合器

该文基于REAL数据集训练了一个化学反应组合器,此组合器能够根据数据集的可合成性和反应规则,通过组合合成子来组装分子。该组合器利用合成子或亚结构作为初始输入,从构件列表中选择合适的合成子。此生成器由一层128层全连接层、一个ReLU激活函数、另一128层全连接层,以及一个Sigmoid激活函数组成,输出一个被标记为p的结果,表示选择某个合成子的预测概率。在训练后,对于正确选择的合成子,模型输出接近1的p值,而对于错误选择的则接近0。主要的训练步骤如下,并在图1a中有所展示:(i) 确定分子是否含有可拆解的酰胺键和三唑环,并将其标记为反应位点。如果可拆解,则将两端的反应位点解析为合成子和亚结构,亚结构进入下一步。如果不可拆解,则终止该过程。(ii) 基于拆解位置,利用训练集构建一个包含n个兼容合成子(正样本)和N个不兼容合成子(负样本)的合成子数据库。兼容合成子被定义为与库中切割的合成子的Tanimoto相似系数大于0.7的合成子,不兼容合成子的相似系数则小于0.4。模型计算这些分子的损失值,然后返回步骤(i)以决定是否终止该过程。

图1 a. 基于化学反应的组合器,b. 基于inpainting的分子补全


基于inpainting技术的生成模型

Inpainting技术指的是模型根据周围背景的线索生成图像的缺失部分,最终得到完整且合理的图像。受此概念启发,该文开发了一种基于inpainting技术的分子生成模型,该模型能够推荐合适的片段来补全结构中缺失部分的分子。并通过RDKIT从REAL数据库中提取分子,并沿非环化学键随机将分子分割为三个部分。补全模型的整体框架受到U-net的启发,采用U形编码器-解码器架构用于分子的输入输出处理(图1b)。在网络内部,集成了上下文注意机制,利用跳跃连接将解码器与编码器相连。借助该上下文注意机制,解码器中预测的结果能够受到编码器中丰富的化学键和原子连通性信息的影响,从而生成更合理的分子结构。为了增强输出分子的连贯性,在补全模型中加入了双向内容传递(BCT)。


强化学习模型

为了优化生成分子对特定靶标的结合亲和力,本研究基于Vina对接得分,采用强化学习来引导分子生成。在此框架下,作者开发了两个强化学习模型:第一个模型称为“先验模型”,仅结合基于反应的生成器;第二个模型则同时集成了基于反应的生成器和补全模型。第一个模型通过预先存在的合成子组装分子,而第二个模型则利用生成的合成子构建分子,确保完全组装的分子既可合成又具有新颖性。


为了提高生成分子对靶标的结合亲和力,本研究基于vina对接得分进行强化学习引导分子生成。在强化学习中训练了两个先验模型变体进行比较:第一个模型使用现有的合成子,利用化学反应组合器;第二个模型使用缺失的合成子,将反应组合器和补全生成模型(参见“基于补全的生成模型”部分)相结合。


在补全过程中,使用Bemis-Murcko框架来屏蔽在“数据集准备”部分提到的合成子,并确定合成子是否包含R基团。如果存在,则使用[*]字符屏蔽R基团及其原子;如果不存在,则随机选择非末端原子进行屏蔽。


在强化学习框架中,合成子的MCTS过程包括三个步骤:(1) 选择屏蔽的合成子并根据预定义的规则进行组装;(2) 通过补全生成模型完成屏蔽部分;(3) 将步骤(1)视为强化学习中的一个动作。步骤(1)和(2)的组合定义了一个状态(s)。扩展后,使用vina评分作为奖励分数。

图3 a. ClickGen整体框架, b. 强化学习框架, c. 生成案例


主要研究结果与讨论

ClickGen模型在实际药物设计中的可行性分析

为了评估ClickGen模型在针对SARS-Cov2的全新药物设计任务中的可行性,该文将生成分子的结构、对接构象和结合构象与非共价抑制剂进行了比较,还检查了生成分子的可合成性(图4)。


本研究首先将所有生成的分子与蛋白重新对接,并使用具有最高Tanimoto相似性的活性分子作为模板。这种方法能够获得生成分子的“理想”结合构象,然后通过RMSD(均方根偏差)计算,将其与生成的分子构象进行比较。在图4a中,前两个图显示了两个ClickGen模型生成的分子与理想结合构象的RMSD构象均值均小于1 Å,这表明这两个模型都能够生成具有理想结合构象的分子。此外,使用inpainting模型时,观察到构象偏差增加,平均RMSD从约0.6 Å增至0.9 Å。然而,在第三个图中可以看到,ClickGen-inpainting模型仍然与S1区域的HIS41和CYS145残基保持相互作用。这两种氨基酸残基在SARS-Cov2抑制剂的设计中至关重要,ClickGen模型中也观察到了这一结果。通过对这些对接分子的蛋白-配体相互作用深入分析,发现尽管与这两个氨基酸的总体相互作用相似,但在特定相互作用上存在显著差异。ClickGen-inpainting模型与HIS41的相互作用更接近于抑制剂,而ClickGen模型则表现出更多疏水相互作用和较少的氢键相互作用。相反,对于CYS145,ClickGen模型更匹配抑制剂的相互作用,而ClickGen-补全模型则表现出较少的氢键相互作用。


除HIS41和CYS145外,还观察到抑制剂与GLU166和GLN189残基形成了更多的相互作用。对于GLU166,两种ClickGen模型均能复现抑制剂的相互作用。然而,对于GLN189,生成的氢键相互作用相对较少。此外,值得注意的是,与抑制剂相比,两种ClickGen模型生成的分子与残基SER46、GLU47、ASP48、MET49和LEU50形成了更多的相互作用。过去的研究表明,通常与这些残基相互作用的化合物往往表现出微摩尔级的活性或需要进一步的结构修饰。这表明由ClickGen模型生成的部分分子可能需要结构修饰以增加获得高活性化合物的可能性。这些结果表明,关键残基相互作用在生成过程中得到了保留。

图4 a. 生成分子的对接构象以及关键氨基酸相互作用分析 b. 生成分子与活性分子的对接构象以及可合成性分析


ClickGen在实际药物设计中的表现

本研究继续在湿实验中测试其模型在靶标PARP1上的药物设计能力。PARP1是一种在DNA修复机制中起关键作用的酶,近年来已成为抗癌治疗开发中的重要靶标。最近,FDA批准了多个新型PARP1抑制剂,进一步突显了其治疗意义。该文通过在强化学习部分将PARP1蛋白结构(PDB ID: 4BJC75)作为对接评分的奖励值,重新训练了ClickGen模型,使其能够基于PARP1的蛋白口袋生成分子,并生成了一个包含10万个分子的分子库。生成分子的筛选流程如图5A所示。虚拟筛选首先排除了非新颖、无效、冗余或骨架高度相似的分子。接着筛选分子的理化性质。随后,使用Schrödinger软件的药效团匹配模块,根据药效团特征选择分子,筛选出能够与GLY863和SER904形成氢键的分子进行进一步的对接研究。在对接研究中,该文使用Schrödinger的Glide模块和XP打分模式对分子进行评分。通过对接研究选取了评分排名前1%的约700个分子,并基于骨架将其聚类。之后,该文对每个分子簇进行了综合评估,考虑的指标包括与PARP1抑制剂的相似性、合成可行性和知识产权保护潜力。随后,该文根据原材料类型和化学键的反应,将化合物划分为不同的合成难度类别,随后从低、中、高合成难度的类别中各选择了30个化合物。经过对每个簇的计划合成路线进行综合评估,重点关注原材料的可用性和反应条件的简便性,最终选择了三个先导分子。


MTT实验、SI和体外抑制实验的综合结果分别于图5b、图5c中所示,以rucaparib作为阳性对照。通过MTT实验在多种细胞株(包括A549、OVCAR-3、HCT-116和MCF-7)中确定了化合物的抗增殖活性。值得注意的是,先导化合物2和3对A549、HCT-116和MCF-7细胞表现出较强的抗增殖活性。三种先导化合物的SI评估结果见表S3。先导化合物1和3在四种细胞株中表现出较高毒性,而先导化合物2和3在多种细胞系中毒性相对较低。随后在体外实验中评估PARP1酶抑制,结果显示先导化合物2和3表现出纳摩尔级抑制活性,尤其是先导化合物2,其抑制效果优于阳性对照rucaparib。

图5 a. 设计流程,b, c. MTT以及酶抑制实验结果


总结

为了解决许多分子生成模型合成性较低的问题,该文提出了一种以合成为导向的生成模型ClickGen。与其他合成导向的生成模型不同,该模型采用模块化的点击化学和酰胺化作为主要反应规则,并结合强化学习和分子补全技术,从而使该模型能够生成具有新颖性、针对给定靶标具有强结合倾向且易于合成的分子。在针对三种靶标的测试任务中,ClickGen生成的分子在新颖性和多样性上比其他合成导向模型高出30%以上,并产生了超过两倍的新骨架。此外,ClickGen在合成性指标上比基线模型提高了10%,并在理化性质相似性和对接性能上表现更佳。在针对PARP1靶标的实际药物设计应用中,通过ClickGen生成的分子进行了虚拟筛选。接着,作者选择了具有新颖骨架的三个苗头化合物,并在10天内成功合成了这些化合物。生物活性评价结果显示,其中两个化合物在多种癌细胞系增殖抑制和PARP1酶活性抑制方面表现出优异效果,并且相对于阳性对照Rucaparib展现出更低的细胞毒性。ClickGen方法展示了在资源极少的情况下快速设计出具有纳摩尔级活性的创新先导化合物的能力。这表明ClickGen所采用的技术代表了一种新的范式,克服了分子生成方法领域中的合成性和药物相似性的限制。尽管ClickGen在构建以合成为驱动的生成模型方面取得了一些进展,仍有一些改进空间。首先,模型的反应类型覆盖较为有限。尽管点击化学和酰胺化已被证明可以构建规模达数十亿的化学数据库,广泛使用这两种反应意味着ClickGen生成的一些分子可能仍然受到专利保护。其次,模型依赖于反应合成子。无论是否使用补全模型,ClickGen在很大程度上依赖于公开的初始反应合成子。在未来的工作中,作者团队计划通过引入更多易于重复的模块化反应来扩展化学反应生成器中的反应类型,此外,作者团队还希望增强补全模型的生成能力,以减少其对训练数据集的依赖。


参考资料

Wang, M., Li, S., Wang, J. et al. ClickGen: Directed exploration of synthesizable chemical space via modular reactions and reinforcement learning. Nat Commun 15, 10127 (2024).

https://www.nature.com/articles/s41467-024-54456-y

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章