Angew. Chem. Int. Ed. | 大数据训练下学习反应机理

学术 2024-08-28 00:01 韩国

DRUGAI

今天为大家介绍的是来自麻省理工学院化学工程系的Connor W. Coley团队的一篇论文。反应机理反应理解可以促进反应开发、杂质预测，并在原则上有助于发现新的反应。尽管已有若干机器学习模型试图解决反应产物预测的问题，但由于缺乏相应的反应机理数据集，这些模型在预测反应机制方面的扩展受到了阻碍。在本研究中，作者通过使用专家反应模板推算实验报告中的反应物和产物之间的中间体，构建了这样一个数据集，并在由5,184,184个基本步骤组成的数据集上训练了多个机器学习模型。作者探讨了这些模型的性能和能力，重点是它们预测反应路径以及重现催化剂和试剂作用的能力。此外，作者展示了反应机理模型在预测常规模型常常忽略的杂质方面的潜力。最后，作者评估了反应机理模型对新反应类型的普适性，揭示了数据集多样性、连续预测以及原子守恒违背等方面的挑战。

给定特定反应物和条件的情况下，预测化学反应的结果仍然是化学领域的一项艰巨挑战。专家化学家依靠对反应机制的理解作为预测可能反应结果的指导框架，通常通过“箭头推导”图来记录。然而，仅凭直觉推测反应可能的机制并不总是那么简单，这导致了计算方法和定量分析的发展以进行研究。

已经有多项研究使用量子化学计算自动生成反应网络。模板方法涉及编码的规则，描述了基本反应以构建可能的中间体和产物的反应网络。基于物理的方法包括识别过渡态以估计动力学可行性，随后通过内禀反应坐标计算获取反应路径，或搜索反应坐标。基于图的方法则涉及递归地找到从反应物通过单个基本步骤可以达到的中间体，表现为分子图，然后使用增长字符串连接两个端点。这些方法原则上可以解释反应机制，并在化学家的指导下发现新路径和中间体，以引导通常的组合搜索。然而，这些计算成本高昂的方法使用量子化学评估作为真理标准，并且主要限于涉及相对较小分子的反应。

如果将反应结果预测的目标简化为预测主要产物，抽象掉化学的细节，那么这个问题就可以通过数据驱动的解决方案来处理。近年来，训练于期刊文章和专利中报道的实验数据的各种机器学习模型已应用于此任务，利用诸如图编辑预测与图神经网络、反应物SMILES字符串的机器翻译或编码反应物图到产物的转换、反应中电子路径的预测以及反应模板的分类等问题形式。然而，这些端到端的机器学习模型通常因无法用有机化学家解释反应活性的术语解释产物的形成而受到批评。

原则上，产物预测的机器学习模型可以在反应机理数据集上重新训练，以预测中间产物。然而，实际上，缺乏描述“正确”（或至少广泛认可和可信）的反应机制的数据集一直是一个障碍。已经有各种尝试来解决缺乏包含反应机制的数据集的问题。一种方法是通过量子化学计算构建反应机理数据集。然而，由于计算费用的关系，基于量子力学的数据集往往专注于非常小的分子，限制在最多包含七个或十个C、N和O重原子的反应中。通过最小的启发式方法从整体反应中推断反应机制有其内在的局限性，这就需要包含与该领域反应活性理解一致的反应机制的精心策划的数据集。

构建数据集

图 1

为了构建一个新的反应机理数据集，作者开发了一套基本反应模板，这些模板描述了在美欧专利中广泛认可的最常见反应类型的机制。例如，使用FeBr3进行溴化反应时，会经历三个基本反应：亲电试剂的形成、亲电加成和亲电试剂的消除（见图1c）。基本反应模板被依次应用于实验记录的反应物，直到得到实验记录的产物，最终形成包含推算出的中间体和副产物的反应机理路径。

作者使用Pistachio数据集从1,756种反应类型中识别出最受欢迎的86种反应类型，覆盖了大约30%的独特记录反应。随后将Pistachio数据集随机分为训练集、验证集和测试集，比例为8:1:1。在此划分之后，作者将收集的基本反应模板应用于每个反应。同一反应类型可能有不同的反应条件，例如使用不同的试剂，因此作者考虑了175种不同的条件。对于单一反应类型内的多个反应条件，当它们已知会导致不同的机制时将其分开处理。

为了使用开源数据集进行可重复性验证，作者将相同的过程应用于USPTO-Full数据集。USPTO-Full数据集中的反应按反应类型使用NameRXN进行了分类，并将之前识别出的86种最受欢迎的类型应用于这些反应。由此为训练集、验证集和测试集中的154,527个、19,234个和19,249个反应建立了完整的反应机制，分别对应719,050个、89,081个和90,024个基本步骤。

实验结果

作者采用了三种先前应用于主要产物预测的不同机器学习模型：Weisfeiler-Lehman差异网络（WLDN），它将反应预测形式化为对分子图的编辑预测；Transformer模型，将反应预测形式化为反应物SMILES字符串到产物SMILES字符串的翻译；Graph2SMILES模型，它通过图编码器解释反应物结构，但使用序列解码器生成产物SMILES字符串。每个模型都经过训练，用于预测反应机理路径中的下一个中间体（或最终产物）。完整测试集的性能指标总结在表1中。

表 1

在预测基本反应方面，top-k准确度显示出从WLDN到Transformer再到Graph2SMILES的逐步改进。序列排名准确度与top-k准确度呈现出相似的趋势，其中Graph2SMILES模型在top-1序列排名中表现最好，展示了它在预测整个反应序列方面的有效性。即使在较短的深度下，WLDN模型也表现出大约20%的失败率。相比之下，Transformer和Graph2SMILES模型能够成功预测大多数反应序列深度小于7步的整个序列。

图 2

正如图2a所示，如果从反应物到产物存在分支路径，并非所有路径都能达到排名1。因此，尽管序列排名可以由于至少存在一个排名1的路径而达到1，但其他路径上的个别预测可能排名为2或更高。因此，这种动态使得序列排名有时优于top-k准确度。

建议需要考虑反应条件：在图2a中，Transformer模型通过去质子化醇作为第一步，预测了亲核芳香取代（SNAr）反应中亲核试剂的制备。根据定义的基本反应模板，模型能够在不明确指定质子来源/吸收体的情况下预测酸碱反应，因此模型不会明确考虑醇去质子化过程中碱的存在。

理解试剂的作用和催化剂的再生：图2b展示了一个Suzuki反应，其中钯催化剂至关重要。模型准确识别了Suzuki反应的关键步骤，包括氧化加成、转金属化和还原消除。这些催化剂通常被专注于从反应物预测最终产物的模型所忽略，因为它们的结构在最终产物中没有发生变化。这种局限性使得这些模型甚至在催化剂缺失的情况下也能预测出最终产物，这在化学上是不合理的。

与催化剂不同，试剂在化学反应过程中往往发生不可逆的转化。反应机理模型准确预测了图2d中的Grignard反应和图2e中的Darzens氯化反应中试剂的作用。这种预测能力展示了模型在识别各种化学成分的不同作用方面的表现。

生成可能的反应副产物：如图2c所示，Wittig反应通过酮和叶立德生成烯烃。在这里，模型预测了关键中间体氧磷乙烷及最终产物。作者的方法规定了每个基本反应，并设计了跟踪每一个重原子，因此模型能够跟踪反应中所有化学物质的去向，预见副产物的形成。

机制预测识别可能的反应杂质和副产物

化学反应的副产物和副反应产物可能包括不期望的杂质，识别这些杂质对于设计后续的分离策略或考虑一锅法反应的兼容性非常重要。初步的计算方法将次要产物的预测简单地视为低排名“主要产物”的预测。然而，这些模型并未考虑副产物，且仍然缺乏可解释性。如图3所示，反应机理模型可能通过预测导致杂质生成的分支路径来解决这一挑战。

图 3

图3a展示了一个Suzuki偶联反应，其中两个芳基卤化物基团相互竞争。Graph2SMILES模型恢复了生成溴和氯偶联产物的路径，但它预测前者（溴偶联）为更可能的路径，而后者（氯偶联）是记录的结果。尽管在整体反应上训练的全局Graph2SMILES模型成功地将记录的产物预测为排名第一，但它基于反应物做出了一些化学上不合理的预测。

图3b展示了使用WLDN和Transformer模型从苄基氯甲酸酯开始的N-Cbz保护反应的预测机制，这种反应类型未包含在训练集中。两个模型都成功预测了记录的产物，WLDN模型识别出伯胺比仲胺更具反应性。虽然WLDN模型展示了同一官能团内的竞争反应，但Transformer模型预测了过度反应。

定性分析揭示了反应机理反应预测中的失效模式

图 4

作者在图4中研究了反应机理模型的常见失效情况。作为序列生成模型，Transformer和Graph2SMILES模型不像WLDN模型在预测图编辑时那样强制遵守原子守恒。在图4a中，Transformer模型成功预测了N-Cbz保护反应的前两步，但在第三步中意外删除了用洋红色标出的原子。Transformer模型似乎识别出了氯离子的离去，但未能重建苄基氨基甲酸酯结构。这种基于语言的模型可能会随机扭曲中间结构，导致整体性能下降。

原子守恒的违背可能会导致看似成功的预测，如图4b所示。WLDN模型在没有钯催化剂的情况下不会继续反应，因为基于图的模型只能修改现有原子之间的键。相比之下，Transformer和Graph2SMILES模型可以通过假设钯的存在来促进氧化加成步骤，并生成羟基离子以进行转金属化步骤，从而预测出最终产物，但这会以牺牲化学合理性为代价。

虽然WLDN模型不会创建或删除原子，但它仍可能经历非物理和不现实的反应机制。这些差异在应用于与其训练集不同的反应类型时变得明显，例如图4c中所示的脱氧反应。然而，即使模型提供了适当的试剂，模型仍可能忽略它们在反应中的作用，如图4d中丁基锂未被用于酮的α-位去质子化。

反应机理模型在新反应类型上的泛化能力尚未表现出更好的效果

在本节中，作者通过测量模型在未见过的反应类别上的表现来评估其泛化能力。为了直接比较反应机理模型与全局模型的泛化能力，作者在进行反应机理插补之前，使用原始反应数据集训练了三个额外的机器学习模型。全局模型尝试一步预测结果，而反应机理模型则需要连续预测才能到达最终产物。图5总结了所有模型在训练集中未出现的14种反应类别上的表现。

图 5

反应机理模型在这些未见过的反应类别上的整体表现与全局模型相当，但略低于全局模型。反应机理模型在含羧酸的缩合反应中的top-1准确率相对较高，这可能是因为尽管离去基团不同，但训练集中总体机制相似。尽管最初的假设是如此，但目前还没有证据表明反应机理反应预测模型比传统的反应预测模型在新反应类型上表现出更好的泛化能力。

结论

这项工作中，作者通过专家基本反应模板生成了一个新的反应机理数据集，并评估了三种机器学习模型的机理和结果预测能力。研究表明，反应机理模型在预测基本反应细节方面表现出良好的准确性，并能深入揭示催化剂、试剂及复杂反应步骤的作用。此外，反应机理模型在预测杂质形成路径上展现了潜力，填补了传统全局模型的空白。然而，反应机理模型在新反应类型上的泛化能力仍存在挑战，特别是在连续预测中的误差累积和原子守恒问题上，未来需要进一步改进和优化。

编译 | 于洲

审稿 | 曾全晨

参考资料

Joung J F, Fong M H, Roh J, et al. Reproducing Reaction Mechanisms with Machine Learning Models Trained on a Large‐Scale Mechanistic Dataset[J]. Angewandte Chemie International Edition, e202411296.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506493&idx=1&sn=8ddbf45f1373fbbc63642a21e393a27c

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

Nat. Mach. Intell. | 投毒！Scorpius揭示现有医学知识图谱存在巨大风险

Genome Biology | 一种用于肿瘤学多任务学习的可解释预训练多组学模型

Nat.Commun. | GearNet续作！GearBind模型助力抗体亲和力成熟

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

Food Chem. | ChemSweet：人工智能驱动的下一代甜味剂快速筛选平台

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

全球生物医药交易报告(2024第3季度)

Nucleic Acids Res. | 类器官与异种移植蛋白质组学数据与分析平台

西湖大学人工智能研究创新中心干细胞项目实习生招聘

第一届计算药剂学研讨会—制药4.0中的人工智能和建模

Nat. Commun. | 几何图学习助力酶功能预测，中大杨跃东团队提出GraphEC模型

Sci. Data | 德睿发布全球最大单性质ADMET开源数据集，大语言模型驱动

CADD筛选PROTAC新思路：利用非马尔科夫动力学模型发现亚稳态蛋白-蛋白界面

Nat. Catal. | 生成模型的妙用。RENAISSANCE精准解码细胞代谢

第二届AI药物研发算法大赛火热报名中，飞桨携手清华、Intel，探索药物研发新思路！

AI“横扫”诺奖，给AI制药带来什么启发？

德睿智药口服小分子GLP-1RA IIb期临床研究完成首剂量组给药

人工智能也可以通过思考来学习 | Cell Press科学新闻

议程公布！第三届中国生物计算大会，10.26-27日，苏州见（内含福利赠票）

荣誉授予人工智能！蛋白质设计和结构预测获2024年诺贝尔化学奖！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉