DRUGAI
今天为大家介绍的是来自MIT的Connor W. Coley团队的一篇论文。计算机辅助合成规划(CASP)算法在规划低至中等复杂度分子的逆合成路径方面已经展现出专家级的能力。然而,目前的搜索方法假设可以通过任意起始原料来完成合成,这未能解决在实际应用中常见的使用特定分子作为起始原料的限制。为此,作者提出了“双端合成规划”(DESP),这是一种基于双向图搜索的新型CASP算法,通过从目标分子和起始原料同时进行扩展,确保满足合成约束。该搜索算法由离线训练的目标条件化成本网络引导,该网络基于部分观察到的有效化学反应超图进行学习。作者展示了DESP在提高问题解决率和减少搜索扩展次数方面的优势,通过在多个新的基准测试中将合成规划引导向专家目标。DESP可以利用现有的单步逆合成模型,并且随着这些单步模型能力的提升,DESP的性能也将进一步提高。
合成规划是化学中的基本任务,即从可购买的基础原料出发,通过一系列化学反应合成目标分子。几十年来,化学家们使用逆合成分析方法解决合成规划问题,即将目标分子逐步逆向分解为简单前体。近年来,机器学习的发展使得许多计算机辅助合成规划算法能够在秒级至分钟级时间内在庞大的反应空间中找到合理的合成路径。然而,完全依赖数据驱动的算法在处理更复杂的目标或约束性条件时表现较差。实际中,化学家常常需要以特定起始原料为目标进行合成规划,这被称为“结构目标”,这会对解空间产生约束。
本文提出了一种解决起始物料约束合成规划的方法,采用双向搜索算法和基于目标条件的成本网络。作者的双端合成规划(DESP)算法利用逆合成的可逆性,同时进行逆向和正向扩展,形成两个AND-OR搜索图,并在目标和起始物料之间进行交替扩展。作者提出了基于前对端(F2E)和前对前(F2F)的两种双向搜索策略。在F2E搜索中,每个方向都以对方搜索图的根节点为条件;在F2F搜索中,则以最接近的对方节点为条件。当“自下而上”搜索图与“自上而下”搜索图相遇时,可以更快速地找到解。
作者的主要贡献如下:
- 提出了起始物料约束合成规划的方法,并发布了首个评估该任务算法的基准数据集,包括来自Pistachio数据库的新实测数据集。
- 提出了一个适用于双端合成规划的神经网络双向搜索算法,构建了用于估算分子间“合成距离”的成本网络,以及一个严格符合约束条件的A*类双向搜索算法。
- 实验结果表明,DESP在解决带有目标约束的合成问题时,比现有算法扩展的节点更少,解决的目标更多,证明了其在引导CASP算法朝向专家目标上的优势。
代码链接:
https://github.com/coleygroup/desp
相关工作
计算机辅助逆合成分析
逆合成分析通常被视为树搜索问题,每一步都需要找到化学上可行的转化和相应试剂来生成目标分子。基于模板的方法通过专家规则或数据驱动方法选择图转换规则,而无模板的方法将单步逆合成预测视为SMILES字符串的翻译任务或图编辑预测。在多步合成路径的搜索中,早期方法依赖专家规则,近期则结合神经网络与蒙特卡洛树搜索(MCTS)及处理反应路径超图复杂性的AND-OR图搜索。Chen等提出的Retro*算法是作者方法的基础,但它们不考虑起始物料约束问题,只有GRASP方法使用了基于目标的值估计。与此不同,本文通过离线训练的成本网络结合双向搜索来增强逆合成规划。
可合成分子设计
计算机辅助分子设计的进展提出了新方法,通过应用化学转化构建从基础原料到目标分子的合成路径。深度生成模型进一步支持了使用神经模型生成合成路径的方法。Gao等提出了“自下而上”合成规划方法,即生成的目标是匹配特定的目标分子。本文在其方法基础上扩展了反应模板数量,训练了更大的反应数据集,并将模型整合到双向搜索算法中。
双向搜索
双向搜索是一种通过交替从起点和终点进行搜索的方法,可加速涉及起点和目标状态的问题解决,通常由神经网络或专家启发式指导。它在机器人路径规划、程序合成、交通管理和解谜等问题上表现出效用,但在合成规划中的应用尚未被充分探索。双向搜索可以分为前对端(F2E)和前对前(F2F)策略。在F2E中,通过估计边界节点与目标之间的路径最小成本进行评估;在F2F中,则估计对立边界节点之间的最小路径成本。本文实现了这两种DESP变体,以观察在合成规划中的表现差异。
模型方法
DESP是基于Retro*算法及自下而上的条件生成合成路径的最新进展。
合成距离的定义
与Retro*类似,DESP是A*-类搜索算法,需要评估边界节点的预期成本。作者定义了一个新函数D,用于表示两个分子之间的最小合成成本距离,即“合成距离”。具体来说,从m1到m2的合成距离是所有包含m1的有效合成路径中合成m2的最小成本,减去所有合成路径中合成m1的最小成本。学习D可以同时指导自上而下的逆向搜索和自下而上的正向搜索。
DESP算法概述
在实际应用中,合成规划问题通常通过搜索整个反应图G来解决。作者采用了AND-OR图结构,其中分子为OR节点,反应为AND节点。与其他方法不同,DESP初始化两个搜索图:GR表示目标分子的逆向搜索,GF表示起始物料的正向搜索,通过交替进行逆向和正向扩展,在目标和起始物料之间进行双向图搜索,从而更高效地找到合成路径。
DESP实现了F2E和F2F两种变体。在F2E中,目标函数γ(m)基于对方搜索图的根节点;在F2F中,γ(m)基于与对方搜索图中节点的最小合成距离。新定义的量包括:Dm表示从γ(m)到m的合成距离;dn表示GR中顶节点m的“距离数”;Dt表示到目标的最小成本路径中各节点的合成距离。与大多数CASP算法一样,DESP在选择、扩展和更新步骤之间循环,直至满足终止条件。如图2所示,DESP在这些步骤之间交替进行自上而下和自下而上的搜索,每个方向有自己的策略。
图 2
选择策略 对于自上而下的选择,作者选择一个边界分子节点,使通过该节点从起始物料r ∗合成目标p ∗的预期总成本最小。
扩展策略 自上而下扩展时,调用单步逆合成模型,应用前n个预测模板到选定节点,并将生成的反应及其前体添加到图中。
更新策略 对于GR,作者沿图向上更新相关值,再向下传递到相关节点,这类似于AND-OR算法。
已知反应物进行前向扩展合成产物算法如下:
为了学习前向、反向以及合成距离函数,作者使用了约100万条去重反应的USPTO-Full数据集,对其进行过滤和处理,并使用RDChiral提取模板集。数据集按9:1随机分为训练集和验证集,构建了图GUSPTO。
实验设置与结果
多步合成路径的公开数据集较少,过去的研究多使用USPTO-190数据集,它包含从USPTO-Full中提取的190个目标及其对应路径。另有研究使用ChEMBL或GDB17等数据库中的目标,但缺乏标准的起始物料,限制了目标任务。如表1所示,在USPTO-190的基础上,作者创建并发布了两个新的基准集:Pistachio Reachable和Pistachio Hard。作者还规范化了来自eMolecules的2300万个可购买的起始原料。
表 1
虽然难以在没有专家评估的情况下对计算合成路径进行量化评估,但一些常用指标,如较高的求解率、较少的平均扩展次数和反应数,能有效反映算法的效率。由于所有方法都使用相同的单步模型和USPTO-Full模板集,作者认为它们的化学可行性相同。
起始物料约束下的改进
表 2
表2总结了定量基准测试结果。DESP的两种变体在求解率和平均扩展次数方面均优于所有基线方法。相比之下,基线方法在USPTO-190上的求解率较低,因为起始物料约束增加了任务难度。
消融实验
表 3
为研究合成距离(D)和双向搜索的贡献,作者进行了消融实验,在所有基准上运行带有D引导的Retro*。结果显示,加入D后的求解率和平均扩展次数有所提高,但仍不及DESP,这表明D和双向搜索都对提升规划效率起到重要作用。作者还比较了DESP生成路径的平均反应数(表3),DESP-F2E找到的路径平均更短。图4展示了一个DESP-F2F解决但Retro*无法解决的路径示例。
图 4
复杂目标上的表现
作者将Pistachio Hard中的目标按SCScore和SAScore进行分组,以评估DESP在复杂目标上的表现。图3a表明,在起始物料约束下,DESP在所有复杂度范围内的求解率与Retro*相当或更优,这说明DESP在解决复杂目标方面更具优势。
图 3
F2E与F2F的比较
尽管DESP-F2F平均扩展的节点略少,但其效率与F2E相差不大。然而,DESP-F2E找到的路径明显比F2F更短,而F2F在多个基准上生成的路径比Retro*更长。这可能是因为F2F在搜索中未充分考虑路径深度。图3b的可视化结果显示,DESP-F2F更依赖于正向反应,而DESP-F2E的解更倾向于自上而下的搜索。作者推测,自下而上的规划难度较高,使得DESP-F2F生成的路径较长。
结论
本文提出了DESP,这是一种用于计算机辅助合成规划的双向搜索框架。DESP结合学习到的合成距离网络和自下而上的路径生成,引导搜索向用户指定的起始物料靠拢,适用于复杂分子的合成规划。在USPTO-190数据集和两个Pistachio数据库测试集上,DESP展现出较高的效率,相比现有方法,DESP的两种变体在求解目标时所需的扩展次数更少,其中DESP-F2E能找到更短的合成路径。未来,随着合成距离网络和自下而上规划的改进,双向合成规划有望成为解决合成约束问题的有效方法。
编译 | 于洲
审稿 | 王梓旭
参考资料
Yu K, Roh J, Li Z, et al. Double-Ended Synthesis Planning with Goal-Constrained Bidirectional Search[J]. arXiv preprint arXiv:2407.06334, 2024.