研究介绍
Figure 1. Reacon 框架的预测流程
反应条件数据收集
作者将反应条件分为催化剂(catalyst)、溶剂(solvent)和试剂(reagent)三部分。从原始 USPTO 专利数据中剔除了含有出现频次低于 5 次的催化剂、溶剂或试剂的反应数据。同时,每条反应条件最多包含 1 个催化剂、2 个溶剂和 3 个试剂。
条件预测模型
对于每一个反应条件组分,研究团队使用 D-MPNN 模型进行编码。模型的输入为反应物的分子图和反应物与产物的差异图,模型的输出为候选条件的使用概率。D-MPNN表现明显优于其它模型(包括基于普遍性的模型和基于 MLP 的 RCR 模型等)。在催化剂、溶剂 1、溶剂 2、试剂 1、试剂 2 、试剂 3 上分别达 93.12%、61.93%、86.61%、68.23%、80.44% 和 96.05% 的准确率。
模板-条件库
为了解决模型预测的反应组分可能存在不兼容的问题,作者提出了一种基于模板的策略。考虑到具有相同反应模板的反应往往具有相似的反应机制和反应条件,因此利用训练数据构建了模板-条件库,并提取了三种不同类型的反应模板:r1、r0 和 r0*。r1 和 r0 是通过 RDChiral 工具以不同半径提取的模板;r0* 则是从 r0 模板中仅保留原子和键得到的最简形式。最终,研究团队构建了包含 26,228 个 r1 模板、9,755 个 r0 模板和 7,106 个 r0* 模板的模板-条件库。其中 r1 模板最为具体,而 r0 和 r0* 则有更高的泛化能力。在预测过程中,模型会依照 r1,r0,r0* 的顺序从模板-条件库中搜索与输入反应模板相同的记录条件,作为候选条件。
条件聚类算法
为提升预测结果的多样性,研究团队设计了一种基于分子特征的聚类算法。该算法通过提取 31 个常见分子标签(如醇、醚、氧化剂、离子化合物等)对每种反应条件组分进行特征描述,并定义具有相同催化剂标签且共享两个以上相同溶剂和试剂标签的反应为相似反应。从 Figure 2 中的例子可以看出,添加聚类算法后,预测结果的多样性显著提升。
Figure 2. 使用聚类算法前后的预测结果案例
Figure 3.LNP1892 的合成路线及预测的反应条件
该工作近日以 “Reacon: a template- and cluster-based framework for reaction condition prediction” (《Reacon:一种基于模板与聚类的 GNN 反应条件预测模型》) 为题发表在英国皇家化学会的旗舰期刊 Chemical Science 上。来鲁华教授和裴剑锋研究员为论文的通讯作者,化学与分子工程学院本科生王梓涵和博士后林康杰为论文共同第一作者。
论文信息
Reacon: a template- and cluster-based framework for reaction condition prediction Zihan Wang‡, Kangjie Lin‡, Jianfeng Pei* and Luhua Lai* Chem. Sci., 2025, 16, 854-866
https://doi.org/10.1039/D4SC05946H
作者简介
本文通讯作者,北京大学化学与分子工程学院教授,博士生导师,北京大学-清华大学生命科学联合中心资深研究员,中国医学科学院药物设计方法研究创新单元主任。现任中国化学会理事,物理化学学科委员会主任,中国晶体学会副理事长,中国生物信息学会生物信息与药物发现专业委员会主任,Journal of Medicinal Chemistry 副主编,Journal of Chemical Information and Modeling 以及 Journal of Molecular Recognition 等杂志顾问编委。长期从事物理化学与生命科学和药学交叉研究,致力于通过揭示生物机制和发展创新理论计算方法来推动我国原创药物领域的发展,发表研究论文 300 余篇,申请专利或软件版权 30 余项。
期刊介绍
rsc.li/chemical-science
Chem. Sci.
2-年影响因子* | 7.6分 |
5-年影响因子* | 8.0分 |
JCR 分区* | Q1 化学-综合 |
CiteScore 分† | 14.4分 |
中位一审周期‡ | 33 天 |
Chemical Science 是涵盖化学科学各领域的跨学科综合性期刊,也是英国皇家化学会的旗舰期刊。所发表的论文不仅要在相应的领域内具有重大意义,而且还应能引起化学科学其它领域的读者的广泛兴趣。所发表的论文应包含重大进展、概念上的创新与进步或者是对领域发展的真知灼见。发文范围包括但不限于有机化学、无机化学、物理化学、材料科学、纳米科学、催化、化学生物学、分析化学、超分子化学、理论化学、计算化学、绿色化学、能源与环境化学等。作为一本钻石开放获取的期刊,读者可以免费获取所发表论文的全文,同时从该刊的论文版面费由英国皇家化学会承担,论文作者无需付费。
Editor-in-Chief
Andrew Cooper
🇬🇧 利物浦大学
|
|
† CiteScore 2023 by Elsevier
‡ 中位数,仅统计进入同行评审阶段的稿件
📧 RSCChina@rsc.org
↓↓↓