逆合成是有机化学中的一个经典问题,也是药物化学从分子设计走向落地的必经之路。正因为其重要的科学意义,计算机辅助逆合成设计应运而生,也就是所谓的Computer-Aided Synthesis Planning(CASP)。在上世纪八九十年代,逆合成模型背后是规则系统,在今日则是基于许多fancy方法的深度神经网络。时至今日,一种被普遍接受的逆合成模型的范式由两部分构成:有一个学过过往反应经验的单步模型通过学习分子的表示(不论是SMILES或是Molecule Graph或更抽象的representation)来产生可能的合成前体,再有一个高效的多步搜索算法能够把这些每一步的候选分子串联成一条完整的合成路线。在这两步之中,单步模型有现成可以fit的数据集,通过引入更多的化学信息,让模型按照人的思路去思考分子的拆分方式(切断法,合成子等等思路均在前人的单步模型工作中已有体现),单步预测的精确度就会越来越精准,而模型掌握化学反应的能力也在不断提高。这看上去是很美好,然而这就是逆合成的唯一目的吗?答案并不尽然。让模型学会如何理解化学反应固然很好,但我们回顾逆合成问题的目标:药物化学对逆合成路线设计的期待是,能够在一定时间内给出可用的合成路线,兼顾经济性,多样性,易用性等等因素——而单步模型的精确程度只是其中很小的一个中间环节。我们真的需要这么复杂的单步模型吗?2024年6月,北京大学来鲁华教授课题组在Journal of Chemical Information and Modeling上发表了名为Challenging Complexity with Simplicity: Rethinking the Role of Single-Step Models in Computer-Aided Synthesis Planning的文章,探讨了逆合成中单步模型的合理性与影响逆合成的关键因素。在本文中,作者开发了名为SimpRetro的单步合成模型,但这个模型并非基于深度学习模型,而是在基于经验的规则打分上改造而来。具体而言,在和单步模型相同的数据划分上,作者从训练集中提取了所有反应的反应模板,去除了错误模板后选择频数大于等于2的部分,构建了一个反应规则库。对于SimpRetro而言,每一步的反应并非对模板和反应物的匹配,而是遍历所有模板之后对可能的候选反应物进行打分。打分主要分为三项,在Ishida等人2022年的JCIM文章基础上改造而来,在原文中有相应公式,这里介绍易于理解的版本:1. 一个好的逆合成步骤应当能够把分子尽量拆成相同大小的两个部分,这样便于汇聚式的合成路线,分子拆分越平均化则这部分的分数越高;
2. 逆合成的最终目标在于将分子转化为所有市售试剂前体,因此每一步逆合成若能够将反应物转变为市售试剂,则也应该给予额外分数奖励,且拆解下可购买的部分原子数越多,分数奖励越高;
3. 成环反应是化学反应中既常见又困难的反应,若一步逆合成反应涉及对环的切断,还会有额外的一点分数加成。
在此基础上,作者还采用了C++版本的RDChiral包,这个包由上海有机所刘剑南老师维护,比原生Python版本的RDChiral大大提升了计算效率,使得SimpRetro中遍历所有反应模板的操作具有现实意义。为了让逆合成测试的情景更接近于实际应用,作者从DrugHunter (Drug Hunter - drug discovery, distilled)的Molecule of the Month系列中选取了2022.1-2023.10的220个分子,去除可以被直接买到的分子后共剩余172个分子,并以此作为测试集。进一步地,为了规范比较,本工作并未限制搜索迭代步数相等,而选择了在相同硬件条件下以半小时为搜索时间上限进行实验。值得一提的是,SimpRetro并未使用GPU进行加速。图1. SimpRetro与其他方法流程及结果对比。表1. SimpRetro及其他测试方法详细路线搜索成功率结果。从结果上来看,在不使用深度学习单步逆合成模型的情况下,仅靠经验性打分,SimpRetro也取得了非常高的路线规划结果:可以解出93.6%的测试分子,且解出路线时间的中位数比使用单步模型的方法更低。那么这样的结果是如何得来的呢?作者测试了SimpRetro的单步准确率。结果显示,SimpRetro的单步准确率在所有测试的模型中垫底,且远低于深度学习模型,这一点提示单步模型的精确度与最终路线规划的成功率之间并不存在绝对的关联。究其原因,我们所谓的单步模型正确率只是对召回率的衡量,一个化合物可能有很多种被合成的方式,但专利文献中大概率只记载了其中之一,这并不意味着那些没有被记录的合成策略就是“错误”的——一味追求单步模型的正确率可能并没有具体的意义。在另一组测试中,作者测试了对先前表现最差的模型NeuralSym的重排序结果。这里重排序是指,首先提取NeuralSym返回的top-k个候选,然后按照经验性打分重新排列其次序,构成新的top-k进行评估。在这个测试中,NeuralSym的多步路线搜索成功率得到了大幅度的提升,说明在逆合成规划这一问题上,经验性打分所得到的单步合成建议比NeuralSym具有更好的参考价值。至此,我们大概可以揭晓SimpRetro拥有优异性能的原因:经验性打分带来了比简单的机器学习模型更为准确的单步反应物候选,即使复杂的单步模型能够带来更精确的单步结果,受限于计算速度,这些模型的效率一定程度上又制约了其实用性。综上而言,作者提出,一个精确的单步模型应该为了实现解出最终的路线为目标,而非一味地拟合已有的单步反应数据;与此同时,还要注意模型的复杂度,过于fancy的模型可能会因运行效率不足而发挥不出完全的优势。当然,评估逆合成的指标不止路线搜索成功率一个,路线质量也是非常重要的部分。在本文中,作者使用了Retro-BLEU和Round-trip accuracy两种办法对路线质量进行评估,前者是本文作者的此前工作之一(https://pubs.rsc.org/en/content/articlelanding/2024/dd/d3dd00219e ),主要考察反应序列与已知反应路径的相似性,后者则考察是否预测出的反应物能够通过正向预测模型回到产物。在这项测试上,SimpRetro比深度学习模型略逊,需要额外加入一个filter,按照反应分子指纹除去置信度过低的反应,这也是SimpRetro内禀的局限性。最早人们发明单步模型来替代遍历模板的方法是为了两个目的:1.获取更精准的单步反应物候选序列;2.加快预测速度。时至今日,单步反应的精确率在不断刷高,而速度的优势却已经鲜有人提起。提升top-k accuracy固然不易,但作者也同时建议,SimpRetro这一简单的架构可以作为路线搜索的baseline参考。逆合成路线规划作为AIDD的下游环节,同样整个流程中也是最贴近实际的环节之一。既然是面向应用的实际问题,那就必须要多考虑什么样的分子值得作为测试合成的目标,什么样的测试情景更符合实际需要。不仅逆合成如此,AIDD的每一环都如此。在人工智能的科研体系里,构建精妙的模型是一种宝贵的能力,而在自然科学的探索中,洞悉问题的本质则需要一种敏锐的视角。如果有更直截了当的方法可以解决问题,那我们就不需要把问题变得太复杂。以此文为例,笔者希望更多科学问题在AI for Science的研究过程中可以被精准地考虑到其应用场景,让两门科学得到更好的融合。1. Li, J.; Lin, K.; Pei, J.; Lai, L., Challenging Complexity with Simplicity: Rethinking the Role of Single-Step Models in Computer-Aided Synthesis Planning, Journal of Chemical Information and Modeling 2024, ASAP, DOI: 10.1021/acs.jcim.4c00432.
2. Li. J.; Fang, L.; Lou, J., Retro-BLEU: quantifying chemical plausibility of retrosynthesis routes through reaction template sequence analysis, Digital Discovery, 2024,3, 482-490.