Nat. Commun. | 基于迭代字符串编辑模型的逆合成预测

学术   2024-08-20 00:02   韩国  

DRUGAI

今天为大家介绍的是来自浙江大学侯廷军团队的一篇论文。逆合成是药物发现和有机合成中的一项关键任务,其中人工智能正越来越多地被用于加速这一过程。然而,现有的方法采用逐个令牌解码的方法将目标分子字符串翻译为相应的前体,面临性能不佳和多样性有限的问题。由于化学反应通常引起局部分子结构的变化,反应物和产物通常有很大的重叠。受此启发,作者建议将单步逆合成预测重新定义为分子字符串编辑任务,通过迭代地优化目标分子字符串以生成前体化合物。作者提出的方法涉及基于片段的生成性编辑模型,使用明确的序列编辑操作。此外,作者设计了一个具有重定位采样和序列增强的推理模块,以提高预测的准确性和多样性。广泛的实验表明,作者的模型生成了高质量和多样化的结果,在标准基准数据集USPTO-50K上实现了令人满意的60.8%的top-1准确率。

为分子设计合成反应路径是有机合成的一个基本方面,对生物医学、制药和材料工业等领域具有重要意义。逆合成分析是开发合成路线最广泛使用的方法,它通过使用已知的反应逐步将分子分解为更简单和更容易合成的前体。这一方法最初由Corey形式化,促使了计算机辅助合成规划(CASP)的发展。CASP利用计算方法来预测逆合成路径,帮助化学家有效识别目标分子的最佳合成路线,已经成为解决有机合成规划挑战的一个重要工具。


近年来,人工智能驱动的逆合成促进了对更复杂分子的探索,并显著减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的一个关键组成部分,已经提出了几种基于深度学习的方法并取得了令人鼓舞的结果。这些方法可以大致分为三类:基于模板、无模板和半模板的方法。



在这项工作中,作者专注于无模板的逆合成预测。现有方法通常使用基于字符串的分子表示,因为它们易于操作且与已建立的语言模型兼容,从而提高了生成效率。先前的研究表明,基于Transformer的逆合成预测具有可接受的泛化性和鲁棒性。然而,这些方法通过逐个令牌的自回归解码策略从头开始生成反应物,其表现出的性能和多样性不佳。在实践中,化学反应通常会导致局部分子变化,导致参与的反应物和产物之间的显著重叠。认识到这一事实,作者建议将问题重新定义为分子字符串编辑任务,并引入一个基于编辑的逆合成模型EditRetro,它能够实现高质量和多样化的预测。


技术背景

化学反应涉及反应物分子的参与,由反应物集合R表示,以及产物分子的形成,由产物集合P表示。在本研究的背景下,作者专注于无模板的单步逆合成预测任务,旨在生成与给定产物分子P对应的反应物集合R,而不依赖于预定义的反应模板或规则。需要注意的是,除了反应物和产物,化学反应还可能涉及溶剂、催化剂和试剂。然而,出于本研究的目的,作者在分析中不考虑它们。


作者采用基于字符串的表示法来编码化学反应,使用包含一对SMILES符号的可变长度字符串,一个用于反应物,另一个用于产物。为了形式化分子字符串编辑问题,作者引入了一个马尔可夫决策过程(MDP)(S, A, E, F, s0)。在这个公式中,状态s = (s1, s2, ……, sL) ∈S是一个令牌序列,其中每个令牌si来自预定义的词汇表V。序列的长度为L,要优化的初始序列,即产物字符串,表示为s0。可以应用于序列的编辑动作集定义为A。奖励函数F定义为生成的输出与真实序列之间距离D的负值,表示为F(s) = -D(s, s*)。在这种设置中,一个代理与环境E交互,环境接收代理的编辑动作并返回修改后的序列。代理的行为由策略π: S→P(A)建模,该策略将当前生成映射到动作集A上的概率分布。在每个解码步骤中,模型接收一个输入序列s,并选择一个编辑动作a∈A根据策略π进行优化,产生一个新状态E(s, a),即中间体或反应物。目标是优化策略π以最大化在序列优化过程中获得的累计奖励。


模型部分

图 1


这项工作的核心概念围绕使用Levenshtein操作通过迭代编辑过程生成反应物字符串。作者的方法借鉴了最近在基于编辑的序列生成模型方面的进展。具体来说,作者采用了来自EDITOR的操作,EDITOR是一个用于神经机器翻译的基于编辑的Transformer。如图1b所示,模型架构包括一个编码器、一个重定位解码器、一个占位符解码器和一个令牌解码器。解码过程涉及使用重定位、占位符插入和令牌插入操作,以确保反应物生成的准确性。


重定位解码器:序列重定位策略(分类器)πrps为每个输入位置预测一个值r。如果r的值是输入令牌的索引,则令牌将放置在预测位置。如果r的值为0,则输入令牌将被删除。重定位操作包括基本的令牌编辑操作,如保留、删除和重新排序。它可以比作识别反应中心的过程,包括重新排序和删除原子或基团以获得合成子。


占位符解码器:占位符插入策略(分类器)πplh预测相邻令牌之间要插入的占位符数量。它在确定反应物结构方面起着关键作用,类似于确定从序列重定位阶段获得的中间合成子中添加原子或基团的位置。


令牌解码器:令牌插入策略(分类器)πtok负责为每个占位符生成候选令牌。在确定可以用于合成目标产物的实际反应物方面至关重要。这个过程可以看作是合成子的完成,与占位符插入操作结合在一起。


这种迭代优化过程将持续进行,直到达到终止条件。


如图1a所示,为了进一步增强预测的多样性,作者设计了一个推理模块,采用重定位采样和序列增强。序列增强随机选择分子图枚举的起始原子和方向,以创建标准分子SMILES的变体,从而允许从产物字符串到反应物的多样化编辑路径。如图1c所示,重定位采样在重定位分类器中对输出进行采样,提供识别更广泛反应类型的机会。


数据集和数据预处理

为了评估该方法的有效性和性能,作者在两个广泛使用的基准数据集上进行了实验:USPTO-50K和USPTO-FULL。这些数据集提供了多样化和全面的化学反应集合,能够对模型在分子逆合成方面的能力进行全面评估。USPTO-50K是一个高质量的数据集,包含了大约5万条来自美国专利文献的反应。这些反应在产物和反应物之间具有准确的原子映射,并且被分类为10种不同的反应类型,方便与其他现有方法进行详细分析和比较。它在以往的研究中被广泛使用,使其适合用来对该模型与最先进的方法进行基准测试。在USPTO-50K数据集中,作者采用Coley等人报道的相同数据分割方法,将其分为40K/5K/5K的训练/验证/测试集。


USPTO-FULL数据集是一个更大的化学反应数据集,包含大约100万条反应。作者按照Dai等人提供的方法将其划分为约80万/10万/10万条训练/验证/测试反应。USPTO-FULL数据集用于验证该模型在更大和更多样化反应集上的性能。通过在这两个基准数据集上进行实验,作者可以评估该方法的性能、泛化能力和可扩展性,为其在分子逆合成实际应用中的有效性提供有价值的见解。


EditRetro生成更精确的反应物

在评估EditRetro模型在分子逆合成中的表现时,作者采用top-k精确匹配准确率作为主要评估指标。这个指标通过将预测的反应物的规范化SMILES与测试数据集中的真实反应物进行比较,提供了严格的评估。通过测量精确匹配准确率,作者确保预测的反应物与真实反应物精确匹配,这表明模型能够生成准确的逆合成预测。为了全面评估EditRetro的整体性能,作者与包括基于模板、无模板和半模板的方法在内的多种最先进方法进行了比较评估。


表1:在反应类未知的USPTO-50k数据集上,EditRetro与baselines的top-k精度

在USPTO-50K数据集上,当不提供反应类别时,EditRetro 的 top-k 精确匹配准确率结果如表1所示。具体而言,EditRetro实现了60.8%的top-1准确率和80.6%的top-3准确率。在更详细的比较中,EditRetro在无模板方法中达到了最先进的性能,并在top-1准确率上超过了著名的工作R-SMILES 4.5个百分点。此外,EditRetro在更大的k值(如k = 5和10)下也实现了与基线模型相当的性能。


表2:在反应类未知的USPTO-FULL数据集上,EditRetro与baselines的top-k精度

除了USPTO-50K,作者还在更大且更多样化的USPTO-FULL数据集上评估了该方法的性能,由于其包含了大量的化学反应,这对模型提出了额外的挑战。如表2所示,作者的方法在top-1准确率(52.2%)方面优于所有基线方法。作为一种无模板的方法,EditRetro 在较大的数据集上表现出竞争力。这凸显了其对多样化反应类型良好的泛化能力,并克服了与基于模板的方法相关的限制。


EditRetro精确预测主要反应物

除了往返准确率,作者还采用了受经典逆合成启发的MaxFrag准确率指标,用于评估最大片段的精确匹配。该指标专门设计用于解决数据集中由于试剂反应不清晰而导致的预测限制。MaxFrag准确率侧重于评估最大片段匹配的准确性,为模型预测主要反应物片段的能力提供了更有针对性的评估。该指标在反应物反应未明确定义或可能存在不确定性的情况下特别有价值。通过强调最大片段,作者旨在减轻不清晰试剂反应对整体性能评估的影响。


表3:在反应类未知的USPTO-50K数据集上,EditRetro与baselines的top-k roundtrip和MaxFrag精度

表3底部显示了top-k MaxFrag准确率的结果。EditRetro表现出色,在top-1预测中取得了65.3%的准确率,在top-3预测中达到了83.9%的准确率,超过了所有基线。此外,当k等于5和10时,EditRetro的性能也略优于基线。


EditRetro提供多样化的合成解决方案

在预测反应中的多样性对于探索更广泛的合成空间和发现新颖的化学路径至关重要。在作者的推理模块中,作者结合了重定位采样和序列增强以提升生成的多样性。这使得可以识别多个反应中心和考虑各种连接,使得EditRetro能够生成具有不同骨架和结构的多样化反应物。

图 2


为了更全面地了解模型的预测,作者对两个随机选择的分子及其由EditRetro生成的top-10预测进行了可视化分析。图2a展示了5-Bromo-3-(3-pyridinylmethoxy) -2-pyridinamine的合成。EditRetro在此合成中识别出了四个不同的反应位点。top-1预测与真实结果精确匹配,代表了一种Williamson醚合成反应。图2b展示了苯甲酰胺, N, N-diethyl-4- [[4-[(4-methylphenyl)methyl]-1-piperazinyl]-8-quinolinylmethyl]-(9CI, ACI)的合成。EditRetro 为该产物识别出了五个不同的反应位点。top-6与真实结果匹配,涉及胺的烷基化。

图 3


此外,作者使用K-means聚类算法根据预测反应物的相似性对产物进行分组。如图3所示,前四个聚类中的预测可以被认为具有高度多样性,因为它们显示出较低的预测相似性(0.28、0.37、0.41和0.46),占测试集的约36%。中间三个聚类中的预测具有中等多样性,因为它们的平均相似性为(0.52、0.56和0.59),占测试集的近44%。最后三个聚类中的预测被认为具有相对较低的多样性,因为它们表现出相对较高的预测相似性(0.63、0.68 和0.77)。这些聚类在测试集中所占比例较小,表明EditRetro在某些情况下可以预测相似的反应物。


EditRetro在手性、成环和开环反应中表现优越

图 4


手性是不对称性的基本性质,在立体化学和药物发现中发挥着关键作用。为了评估处理手性的能力,作者比较了EditRetro和R-SMILES在USPTO-50K测试集中对于具有和不具有手性的反应的表现。如图4a所示,当k = 1时对于手性和非手性反应,EditRetro的表现优于R-SMILES,分别为55.7%和61.8%,而R-SMILES的表现为51.6%和56.7%。这些结果表明EditRetro在处理手性方面优于 R-SMILES,展示了其准确预测正确手性构型的能力。


为了评估模型对这些类型反应的预测能力,作者比较了EditRetro和R-SMILES在非环、开环和成环反应中的表现。如图4b所示,两种模型在开环和成环反应中表现出更好的性能。这一观察结果表明了预测这些特定类型反应的固有挑战。然而,EditRetro在所有类型的反应中始终优于或与R-SMILES表现相当,其中EditRetro在开环和成环反应中比R-SMILES 显著提高。例如,当k = 1时,EditRetro在开环反应中比R-SMILES提高了5.9%,在成环反应中提高了5.8%。这些结果进一步证实了作者基于编辑的生成方法优于从头生成结构的方法。


推理过程的可视化

图 5


为了深入了解模型的推理过程,作者从USPTO-50K测试集中随机选择3种不同反应类型的反应,并对生成过程进行可视化。这些示例提供了对EditRetro生成反应物的更深入理解,并展示了其在迭代优化预测方面的鲁棒性。图5a中的第一个示例描绘了一个Wohl-Ziegler溴化反应,该反应涉及使用N-bromosuccinimide和自由基引发剂对烃进行烯丙基溴化。图5b展示了第二个示例,展示了两种不同的反应可用于合成肉桂酸丁酯。图5c中的第三个示例是一个含有两次迭代的亲核加成反应。


错误预测分析

图 6


为了研究错误预测,作者在图6中展示了EditRetro在top-10预测中三种不准确反应的实例。在图6a的第一个例子中,EditRetro准确识别了反应位点并生成了三个反应物。其中两个分子与真实结果一致,而一个是冗余的,并未参与反应。在图6b中,EditRetro根据真实结果正确识别了反应位点并生成了两个分子,其中一个与真实结果一致。然而,由于分子Cc1ccc(S(=O)(=O)OS(=O)(=O)[N+](C)(C)C)cc1的反应位点与真实分子存在差异,这两个分子无法生成所需的产物。此外,该分子在CAS SciFindern中不可用,并且合成面临挑战。最后,EditRetro有时会生成化学上不可行的反应,如图6c所示,其中两个分子通常无法反应。这表明作者模型在准确评估某些反应的可行性方面存在局限性。


EditRetro在多步合成规划中的实际应用

图 7


为了评估该模型在合成规划中的实际应用价值,作者将训练于USPTO-50K数据集的EditRetro扩展为能够通过顺序逆合成预测设计完整的化学路径。作者选择了四种具有重要药用价值的目标化合物进行评估:非布司他(图7a)、奥希替尼(图7b)、一种GPX4的变构激活剂(图7c),以及DDR1激酶抑制剂INS015_037(图7d)。


所有四个示例所示的逆合成路径与文献报道的路径紧密一致,其中大多数预测排名在前两位。在考虑的16个单独步骤中,十个步骤在排名1时准确预测,剩余步骤在排名2、3、4、6和7时预测。这些结果强调了作者模型在实际逆合成预测中的潜力。


讨论

在本研究中,作者提出了一种基于编辑的生成模型EditRetro,用于序列化的单步逆合成预测。不同于将逆合成视为语言翻译任务的传统方法,EditRetro将其表述为分子字符串编辑任务,通过预测分子序列上的Levenshtein编辑操作来生成反应物。在USPTO-50K和USPTO-FULL数据集上的实验中,EditRetro的Top-1精确匹配准确率分别达到60.8%和52.2%。此外,EditRetro在手性、开环和成环反应等复杂化学转化中表现突出。其推理模块通过重定位采样和序列增强提升了预测的多样性和准确性,展现出其在AI驱动的化学合成规划领域的应用潜力。

编译 | 于洲

审稿 | 曾全晨

参考资料

Han Y, Xu X, Hsieh C Y, et al. Retrosynthesis prediction with an iterative string editing model[J]. Nature Communications, 2024, 15(1): 6404.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章