北大来鲁华/裴剑锋团队: GNN+模板+聚类→反应条件预测强大新工具

学术   科学   2025-02-08 11:16   英国  

研究介绍

近年来,计算机辅助合成路线规划 (CASP) 已经成为药物合成和天然产物合成领域的有力工具。而作为化学反应中不可或缺的组成部分,反应条件(包括催化剂,溶剂,试剂等)的准确预测愈发重要,因为相同的反应物在不同条件下可能会产生完全不同的产物。对反应条件的预测有助于在 CASP 中更好地选择可行的路线。
目前化学反应条件领域还存在很多有待解决的挑战。首先,一个好的预测模型提供的反应条件应满足化学合理性,能考虑不同组分(催化剂、溶剂和试剂)之间的兼容性。其次,由于将反应物转化为产物的可行反应条件通常不是唯一的,好的预测模型应该能推荐尽可能多的可行反应条件,而这在以前的研究中被忽略了。
针对上述问题,北京大学来鲁华/裴剑锋团队开发了一种全新的反应条件预测方法 Reacon (Figure 1),该方法结合了图神经网络 (D-MPNN)、反应模板和聚类算法,为反应条件预测提供了更全面的解决方案。
  • Figure 1. Reacon 框架的预测流程
作者在 USPTO 反应条件数据集上对于模型进行了训练。测试结果表明 Reacon 在 Top-3 预测中以 63.48% 的概率成功预测出与文献记录一致的反应条件,并以 85.65% 的概率预测出同类型的反应条件。作者还测试了模型在近期发表的 12 条在研药物合成路线上的表现,Reacon 在 Top-3 预测中以 85% 的概率成功预测出了与文献同类型的条件,显示出其在实际应用中的潜力。

1



反应条件数据收集

作者将反应条件分为催化剂(catalyst)、溶剂(solvent)和试剂(reagent)三部分。从原始 USPTO 专利数据中剔除了含有出现频次低于 5 次的催化剂、溶剂或试剂的反应数据。同时,每条反应条件最多包含 1 个催化剂、2 个溶剂和 3 个试剂。



2



条件预测模型

对于每一个反应条件组分,研究团队使用 D-MPNN 模型进行编码。模型的输入为反应物的分子图和反应物与产物的差异图,模型的输出为候选条件的使用概率。D-MPNN表现明显优于其它模型(包括基于普遍性的模型和基于 MLP 的 RCR 模型等)。在催化剂、溶剂 1、溶剂 2、试剂 1、试剂 2 、试剂 3 上分别达 93.12%、61.93%、86.61%、68.23%、80.44% 和 96.05% 的准确率。



3



模板-条件库

为了解决模型预测的反应组分可能存在不兼容的问题,作者提出了一种基于模板的策略。考虑到具有相同反应模板的反应往往具有相似的反应机制和反应条件,因此利用训练数据构建了模板-条件库,并提取了三种不同类型的反应模板:r1、r0 和 r0*。r1 和 r0 是通过 RDChiral 工具以不同半径提取的模板;r0* 则是从 r0 模板中仅保留原子和键得到的最简形式。最终,研究团队构建了包含 26,228 个 r1 模板、9,755 个 r0 模板和 7,106 个 r0* 模板的模板-条件库。其中 r1 模板最为具体,而 r0 和 r0* 则有更高的泛化能力。在预测过程中,模型会依照 r1,r0,r0* 的顺序从模板-条件库中搜索与输入反应模板相同的记录条件,作为候选条件。



4



条件聚类算法

为提升预测结果的多样性,研究团队设计了一种基于分子特征的聚类算法。该算法通过提取 31 个常见分子标签(如醇、醚、氧化剂、离子化合物等)对每种反应条件组分进行特征描述,并定义具有相同催化剂标签且共享两个以上相同溶剂和试剂标签的反应为相似反应。从 Figure 2 中的例子可以看出,添加聚类算法后,预测结果的多样性显著提升。

结合 D-MPNN 模型、模板-条件库和聚类算法,作者发展了 Reacon 方法。该方法在 USPTO 测试集上的 Top-3 预测准确率达到 63.48%,同类型条件预测准确率达到 85.65%。在 12 条近期在 Journal of Medicinal Chemistry drug annotation 上发表的药物合成路线上的测试表明 Reacon 在 Top-3 预测中以 85% 的概率成功获得了与文献同类型的条件(Figure 3 给出了一个代表性的例子)。这些研究结果表明 Reacon 在真实场景化学反应条件预测中具有广阔的应用前景。
  • Figure 2. 使用聚类算法前后的预测结果案例

  • Figure 3.LNP1892 的合成路线及预测的反应条件

该工作近日以 “Reacon: a template- and cluster-based framework for reaction condition prediction” (《Reacon:一种基于模板与聚类的 GNN 反应条件预测模型》) 为题发表在英国皇家化学会的旗舰期刊 Chemical Science 上。来鲁华教授裴剑锋研究员为论文的通讯作者,化学与分子工程学院本科生王梓涵和博士后林康杰为论文共同第一作者。

论文信息

  • Reacon: a template- and cluster-based framework for reaction condition prediction
    Zihan Wang‡, Kangjie Lin‡, Jianfeng Pei* and Luhua Lai*
    Chem. Sci., 2025, 16, 854-866
    https://doi.org
    /10.1039/D4SC05946H

作者简介

王梓涵 本科生
北京大学
本文第一作者,北京大学化学与分子工程学院 21 级本科生,主要研究方向为计算机辅助有机反应条件预测。






林康杰 博士后
北京大学
本文第一作者,北京大学化学与分子工程学院博雅博士后,主要研究方向为天然产物和药物分子的逆合成路线预测和反应预测。






裴剑锋 特聘研究员
北京大学
本文通讯作者,北京大学前沿交叉学科研究院特聘研究员,博士生导师,长期从事化学信息学、生物信息学和药物设计研究,在国际重要学术刊物上发表论文 60 余篇, 申请获得专利 6 项,软件著作权 8 项。主持新药创制国家科技重大专项等多个国家项目。获得过中国药学会施维雅青年药物化学奖、药明康德生命化学研究奖等奖项。






来鲁华 教授
北京大学

本文通讯作者,北京大学化学与分子工程学院教授,博士生导师,北京大学-清华大学生命科学联合中心资深研究员,中国医学科学院药物设计方法研究创新单元主任。现任中国化学会理事,物理化学学科委员会主任,中国晶体学会副理事长,中国生物信息学会生物信息与药物发现专业委员会主任,Journal of Medicinal Chemistry 副主编,Journal of Chemical Information and Modeling 以及 Journal of Molecular Recognition 等杂志顾问编委。长期从事物理化学与生命科学和药学交叉研究,致力于通过揭示生物机制和发展创新理论计算方法来推动我国原创药物领域的发展,发表研究论文 300 余篇,申请专利或软件版权 30 余项。

期刊介绍

Home to exceptional research and thought-provoking ideas. Open and free, for authors and readers.

rsc.li/chemical-science

Chem. Sci.

2-年影响因子*7.6
5-年影响因子*8.0
JCR 分区*Q1 化学-综合
CiteScore 分14.4
中位一审周期33 


Chemical Science 是涵盖化学科学各领域的跨学科综合性期刊,也是英国皇家化学会的旗舰期刊。所发表的论文不仅要在相应的领域内具有重大意义,而且还应能引起化学科学其它领域的读者的广泛兴趣。所发表的论文应包含重大进展、概念上的创新与进步或者是对领域发展的真知灼见。发文范围包括但不限于有机化学、无机化学、物理化学、材料科学、纳米科学、催化、化学生物学、分析化学、超分子化学、理论化学、计算化学、绿色化学、能源与环境化学等。作为一本钻石开放获取的期刊,读者可以免费获取所发表论文的全文,同时从该刊的论文版面费由英国皇家化学会承担,论文作者无需付费。

Editor-in-Chief

  • Andrew Cooper
    🇬🇧 利物浦大学

Associate editors
  • Vincent Artero
    🇫🇷 格勒诺布尔阿尔卑斯大学/法国原子能和替代能源委员会

  • Luis M. Campos
    🇺🇸 哥伦比亚大学

  • Lin Chen
    🇺🇸 西北大学

  • Graeme Day
    🇬🇧 南安普敦大学

  • Mircea Dincă
    🇺🇸 麻省理工学院

  • François Gabbaï
    🇺🇸 得克萨斯农工大学

  • Subi George
    🇮🇳 贾瓦哈拉尔·尼赫鲁高级科学研究中心

  • Ryan Gilmour
    🇩🇪 明斯特大学

  • Stephen Goldup
    🇬🇧 伯明翰大学

  • Jinlong Gong (巩金龙)
    🇨🇳 天津大学

  • Zaiping Guo (郭再萍)
    🇦🇺 阿德莱德大学

  • Christian Hackenberger
    🇩🇪 德国莱布尼茨分子药理学研究所

  • Malika Jeffries-EL
    🇺🇸 波士顿大学

  • Ning Jiao (焦宁)
    🇨🇳 北京大学

  • Tanja Junkers
    🇦🇺 莫纳什大学

  • Hemamala Karunadasa
    🇺🇸 斯坦福大学

  • Maja Köhn
    🇩🇪 弗莱堡大学

  • Yi-Tao Long (龙亿涛)
    🇨🇳 南京大学

  • James K McCusker
    🇺🇸 密歇根州立大学

  • Thomas J Meade
    🇺🇸 西北大学

  • Paolo Melchiorre
    🇮🇹 博洛尼亚大学

  • Gabriel Merino
    🇲🇽 墨西哥国家理工学院科研和高级研究中心

  • Hannah Shafaat
    🇺🇸 加州大学洛杉矶分校

  • Dmitri Talapin
    🇺🇸 芝加哥大学

  • Toshiharu Teranishi
    🇯🇵 京都大学

  • Andrei Yudin
    🇨🇦 多伦多大学

* 2023 Journal Citation Reports (Clarivate, 2024)

 CiteScore 2023 by Elsevier

 中位数,仅统计进入同行评审阶段的稿件








欢迎联系我们发布论文报道
📧 RSCChina@rsc.org

点击下方「阅读原文」查看

↓↓↓

RSC英国皇家化学会
英国皇家化学会,是全球领先的化学学术团体,致力于推动化学科学的卓越发展。推送最新的国际化学新闻,分享顶尖的化学科研成果及丰富的化学学术活动。
 最新文章