【本实验室进展】当我们讨论计算机辅助逆合成设计时我们在讨论什么

学术 2024-07-05 09:15 北京

——研究背景——

逆合成是有机化学中的一个经典问题，也是药物化学从分子设计走向落地的必经之路。正因为其重要的科学意义，计算机辅助逆合成设计应运而生，也就是所谓的Computer-Aided Synthesis Planning(CASP)。

在上世纪八九十年代，逆合成模型背后是规则系统，在今日则是基于许多fancy方法的深度神经网络。时至今日，一种被普遍接受的逆合成模型的范式由两部分构成：有一个学过过往反应经验的单步模型通过学习分子的表示（不论是SMILES或是Molecule Graph或更抽象的representation）来产生可能的合成前体，再有一个高效的多步搜索算法能够把这些每一步的候选分子串联成一条完整的合成路线。在这两步之中，单步模型有现成可以fit的数据集，通过引入更多的化学信息，让模型按照人的思路去思考分子的拆分方式（切断法，合成子等等思路均在前人的单步模型工作中已有体现），单步预测的精确度就会越来越精准，而模型掌握化学反应的能力也在不断提高。

这看上去是很美好，然而这就是逆合成的唯一目的吗？答案并不尽然。让模型学会如何理解化学反应固然很好，但我们回顾逆合成问题的目标：药物化学对逆合成路线设计的期待是，能够在一定时间内给出可用的合成路线，兼顾经济性，多样性，易用性等等因素——而单步模型的精确程度只是其中很小的一个中间环节。

我们真的需要这么复杂的单步模型吗？2024年6月，北京大学来鲁华教授课题组在Journal of Chemical Information and Modeling上发表了名为Challenging Complexity with Simplicity: Rethinking the Role of Single-Step Models in Computer-Aided Synthesis Planning的文章，探讨了逆合成中单步模型的合理性与影响逆合成的关键因素。

——方法与结果——

在本文中，作者开发了名为SimpRetro的单步合成模型，但这个模型并非基于深度学习模型，而是在基于经验的规则打分上改造而来。具体而言，在和单步模型相同的数据划分上，作者从训练集中提取了所有反应的反应模板，去除了错误模板后选择频数大于等于2的部分，构建了一个反应规则库。对于SimpRetro而言，每一步的反应并非对模板和反应物的匹配，而是遍历所有模板之后对可能的候选反应物进行打分。

打分主要分为三项，在Ishida等人2022年的JCIM文章基础上改造而来，在原文中有相应公式，这里介绍易于理解的版本：

1. 一个好的逆合成步骤应当能够把分子尽量拆成相同大小的两个部分，这样便于汇聚式的合成路线，分子拆分越平均化则这部分的分数越高；
2. 逆合成的最终目标在于将分子转化为所有市售试剂前体，因此每一步逆合成若能够将反应物转变为市售试剂，则也应该给予额外分数奖励，且拆解下可购买的部分原子数越多，分数奖励越高；
3. 成环反应是化学反应中既常见又困难的反应，若一步逆合成反应涉及对环的切断，还会有额外的一点分数加成。

在此基础上，作者还采用了C++版本的RDChiral包，这个包由上海有机所刘剑南老师维护，比原生Python版本的RDChiral大大提升了计算效率，使得SimpRetro中遍历所有反应模板的操作具有现实意义。

为了让逆合成测试的情景更接近于实际应用，作者从DrugHunter (Drug Hunter - drug discovery, distilled)的Molecule of the Month系列中选取了2022.1-2023.10的220个分子，去除可以被直接买到的分子后共剩余172个分子，并以此作为测试集。进一步地，为了规范比较，本工作并未限制搜索迭代步数相等，而选择了在相同硬件条件下以半小时为搜索时间上限进行实验。值得一提的是，SimpRetro并未使用GPU进行加速。

图1. SimpRetro与其他方法流程及结果对比。

表1. SimpRetro及其他测试方法详细路线搜索成功率结果。

从结果上来看，在不使用深度学习单步逆合成模型的情况下，仅靠经验性打分，SimpRetro也取得了非常高的路线规划结果：可以解出93.6%的测试分子，且解出路线时间的中位数比使用单步模型的方法更低。

那么这样的结果是如何得来的呢？作者测试了SimpRetro的单步准确率。结果显示，SimpRetro的单步准确率在所有测试的模型中垫底，且远低于深度学习模型，这一点提示单步模型的精确度与最终路线规划的成功率之间并不存在绝对的关联。

表2. 单步预测正确率对比。

究其原因，我们所谓的单步模型正确率只是对召回率的衡量，一个化合物可能有很多种被合成的方式，但专利文献中大概率只记载了其中之一，这并不意味着那些没有被记录的合成策略就是“错误”的——一味追求单步模型的正确率可能并没有具体的意义。

在另一组测试中，作者测试了对先前表现最差的模型NeuralSym的重排序结果。这里重排序是指，首先提取NeuralSym返回的top-k个候选，然后按照经验性打分重新排列其次序，构成新的top-k进行评估。在这个测试中，NeuralSym的多步路线搜索成功率得到了大幅度的提升，说明在逆合成规划这一问题上，经验性打分所得到的单步合成建议比NeuralSym具有更好的参考价值。

表3. 重排序NeuralSym的单步预测结果。

至此，我们大概可以揭晓SimpRetro拥有优异性能的原因：经验性打分带来了比简单的机器学习模型更为准确的单步反应物候选，即使复杂的单步模型能够带来更精确的单步结果，受限于计算速度，这些模型的效率一定程度上又制约了其实用性。

综上而言，作者提出，一个精确的单步模型应该为了实现解出最终的路线为目标，而非一味地拟合已有的单步反应数据；与此同时，还要注意模型的复杂度，过于fancy的模型可能会因运行效率不足而发挥不出完全的优势。

——讨论——

当然，评估逆合成的指标不止路线搜索成功率一个，路线质量也是非常重要的部分。在本文中，作者使用了Retro-BLEU和Round-trip accuracy两种办法对路线质量进行评估，前者是本文作者的此前工作之一（https://pubs.rsc.org/en/content/articlelanding/2024/dd/d3dd00219e ），主要考察反应序列与已知反应路径的相似性，后者则考察是否预测出的反应物能够通过正向预测模型回到产物。在这项测试上，SimpRetro比深度学习模型略逊，需要额外加入一个filter，按照反应分子指纹除去置信度过低的反应，这也是SimpRetro内禀的局限性。

最早人们发明单步模型来替代遍历模板的方法是为了两个目的：1.获取更精准的单步反应物候选序列；2.加快预测速度。时至今日，单步反应的精确率在不断刷高，而速度的优势却已经鲜有人提起。提升top-k accuracy固然不易，但作者也同时建议，SimpRetro这一简单的架构可以作为路线搜索的baseline参考。

——小结——

逆合成路线规划作为AIDD的下游环节，同样整个流程中也是最贴近实际的环节之一。既然是面向应用的实际问题，那就必须要多考虑什么样的分子值得作为测试合成的目标，什么样的测试情景更符合实际需要。

不仅逆合成如此，AIDD的每一环都如此。在人工智能的科研体系里，构建精妙的模型是一种宝贵的能力，而在自然科学的探索中，洞悉问题的本质则需要一种敏锐的视角。如果有更直截了当的方法可以解决问题，那我们就不需要把问题变得太复杂。以此文为例，笔者希望更多科学问题在AI for Science的研究过程中可以被精准地考虑到其应用场景，让两门科学得到更好的融合。

参考文献

1. Li, J.; Lin, K.; Pei, J.; Lai, L., Challenging Complexity with Simplicity: Rethinking the Role of Single-Step Models in Computer-Aided Synthesis Planning, Journal of Chemical Information and Modeling 2024, ASAP, DOI: 10.1021/acs.jcim.4c00432.

2. Li. J.; Fang, L.; Lou, J., Retro-BLEU: quantifying chemical plausibility of retrosynthesis routes through reaction template sequence analysis, Digital Discovery, 2024,3, 482-490.

作者：李隽仁

审稿：林康杰

编辑：黄志贤

GoDesign

ID：Molecular_Design_Lab

（扫描下方二维码可以订阅哦！）

http://mp.weixin.qq.com/s?__biz=MzU3MjcyMzI5Mg==&mid=2247492757&idx=1&sn=6a72bdbcb3101384db9caa2d752642aa

GoDesign

关注化学、生命科学和药物研发等领域的科研进展，提供“原创、专业、接地气”的文献解读。

最新文章

【分子设计】抑制剂变降解剂可以多简单？

上海交通大学沈琦课题组诚聘博士后

【Science】通过结构域分类探究蛋白质宇宙的结构多样性

诺和诺德 | 缓释低血糖的葡萄糖敏感型胰岛素

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

【深度学习】MDGen：分子动力学轨迹的生成式建模

美国爱荷华州立大学化学系张寓安教授课题组招聘启事

北京大学成都前沿交叉生物技术研究院公共技术平台介绍

看见PDB—生物大分子可视化的50年历程（中）

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

PHGDH/SYK——连接抗真菌免疫和丝氨酸代谢的纽带

看见PDB——生物大分子可视化的50年历程（上）

报名即将截止 | 核素药物产业深度聚焦峰会，扬帆核素蓝海，共逐下一个百亿赛道！

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

报名倒计时1周 | 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【本实验室进展】当我们讨论计算机辅助逆合成设计时我们在讨论什么

报名即将截止| 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【分子设计】雷帕霉素类似物库筛选分子胶水

人工智能赋能生物医药的未来产业画卷！AIBC2024最新日程发布 (第四版)

赋能生物医药的AI技术力量集体亮相！AIBC2024最新日程发布 (第三版)

蛋白拆分和模块化重组的生物学应用

AIBC2024｜人工智能与生物医药生态大会最新日程（第二版）

电院沈红斌、袁野团队在转录调控RNA速度估计生物信息学研究取得新进展

AIBC2024丨人工智能与生物医药生态大会日程发布

Chem. Sci. | 来鲁华、裴剑锋团队开发基于扩散模型的柔性分子对接方法

聚焦6月！赋能生物医药的AI技术力量集体亮相AIBC

【靶向降解】E3连接酶KLHDC2的小分子配体设计及应用

Nature | 代谢酶进化中分形几何的出现

爱因斯坦医学院生物化学系杨为课题组招聘博士后

【分子设计】超能打的RAS-multi抑制剂登上Nature！

【报名倒计时1周】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

爱因斯坦医学院生化系杨为课题组招聘博士后

【分子设计】我们离理性设计分子胶还有多远

【报名即将截止】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

AIBC千人大会，一网打尽人工智能在生物医药领域的最新进展！

InSilico Medicine在Nature子刊公开INS018_055结构，AI的设计够惊艳吗？

刚刚获批，首款NASH治疗药物resmetirom的药物设计

【一图看懂】2023年获FDA批准的小分子新药及药物设计思路

【解读】2024年2月FDA批准上市的药物

关于举办“第三期新酶设计及酶技术应用专题培训班”的通知

【药物设计】PDB中蛋白-小分子配体相互作用的系统性分析

报名即将截止 | 2024第六届小分子新药千人大会

【有机合成】2024年了，多臂老虎机还能发正刊——反应条件的优化

【深度学习】Str2Str：基于分数模型的zero-shot蛋白质构象采样方法

报名即将截止 | 2024第六届小分子新药千人大会

报名即将截止 | 100%专注小分子新药&多肽药物！SIT 2024第六届小分子新药千人大会震撼来袭

【药物开发】药价贵的背后，是临床试验支出的剧烈膨胀

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉