Angew. Chem. Int. Ed. | 大数据训练下学习反应机理

学术   2024-08-28 00:01   韩国  

DRUGAI

今天为大家介绍的是来自麻省理工学院化学工程系的Connor W. Coley团队的一篇论文。反应机理反应理解可以促进反应开发、杂质预测,并在原则上有助于发现新的反应。尽管已有若干机器学习模型试图解决反应产物预测的问题,但由于缺乏相应的反应机理数据集,这些模型在预测反应机制方面的扩展受到了阻碍。在本研究中,作者通过使用专家反应模板推算实验报告中的反应物和产物之间的中间体,构建了这样一个数据集,并在由5,184,184个基本步骤组成的数据集上训练了多个机器学习模型。作者探讨了这些模型的性能和能力,重点是它们预测反应路径以及重现催化剂和试剂作用的能力。此外,作者展示了反应机理模型在预测常规模型常常忽略的杂质方面的潜力。最后,作者评估了反应机理模型对新反应类型的普适性,揭示了数据集多样性、连续预测以及原子守恒违背等方面的挑战。

给定特定反应物和条件的情况下,预测化学反应的结果仍然是化学领域的一项艰巨挑战。专家化学家依靠对反应机制的理解作为预测可能反应结果的指导框架,通常通过“箭头推导”图来记录。然而,仅凭直觉推测反应可能的机制并不总是那么简单,这导致了计算方法和定量分析的发展以进行研究。


已经有多项研究使用量子化学计算自动生成反应网络。模板方法涉及编码的规则,描述了基本反应以构建可能的中间体和产物的反应网络。基于物理的方法包括识别过渡态以估计动力学可行性,随后通过内禀反应坐标计算获取反应路径,或搜索反应坐标。基于图的方法则涉及递归地找到从反应物通过单个基本步骤可以达到的中间体,表现为分子图,然后使用增长字符串连接两个端点。这些方法原则上可以解释反应机制,并在化学家的指导下发现新路径和中间体,以引导通常的组合搜索。然而,这些计算成本高昂的方法使用量子化学评估作为真理标准,并且主要限于涉及相对较小分子的反应。


如果将反应结果预测的目标简化为预测主要产物,抽象掉化学的细节,那么这个问题就可以通过数据驱动的解决方案来处理。近年来,训练于期刊文章和专利中报道的实验数据的各种机器学习模型已应用于此任务,利用诸如图编辑预测与图神经网络、反应物SMILES字符串的机器翻译或编码反应物图到产物的转换、反应中电子路径的预测以及反应模板的分类等问题形式。然而,这些端到端的机器学习模型通常因无法用有机化学家解释反应活性的术语解释产物的形成而受到批评。


原则上,产物预测的机器学习模型可以在反应机理数据集上重新训练,以预测中间产物。然而,实际上,缺乏描述“正确”(或至少广泛认可和可信)的反应机制的数据集一直是一个障碍。已经有各种尝试来解决缺乏包含反应机制的数据集的问题。一种方法是通过量子化学计算构建反应机理数据集。然而,由于计算费用的关系,基于量子力学的数据集往往专注于非常小的分子,限制在最多包含七个或十个C、N和O重原子的反应中。通过最小的启发式方法从整体反应中推断反应机制有其内在的局限性,这就需要包含与该领域反应活性理解一致的反应机制的精心策划的数据集。


构建数据集

图 1


为了构建一个新的反应机理数据集,作者开发了一套基本反应模板,这些模板描述了在美欧专利中广泛认可的最常见反应类型的机制。例如,使用FeBr3进行溴化反应时,会经历三个基本反应:亲电试剂的形成、亲电加成和亲电试剂的消除(见图1c)。基本反应模板被依次应用于实验记录的反应物,直到得到实验记录的产物,最终形成包含推算出的中间体和副产物的反应机理路径。


作者使用Pistachio数据集从1,756种反应类型中识别出最受欢迎的86种反应类型,覆盖了大约30%的独特记录反应。随后将Pistachio数据集随机分为训练集、验证集和测试集,比例为8:1:1。在此划分之后,作者将收集的基本反应模板应用于每个反应。同一反应类型可能有不同的反应条件,例如使用不同的试剂,因此作者考虑了175种不同的条件。对于单一反应类型内的多个反应条件,当它们已知会导致不同的机制时将其分开处理。


为了使用开源数据集进行可重复性验证,作者将相同的过程应用于USPTO-Full数据集。USPTO-Full数据集中的反应按反应类型使用NameRXN进行了分类,并将之前识别出的86种最受欢迎的类型应用于这些反应。由此为训练集、验证集和测试集中的154,527个、19,234个和19,249个反应建立了完整的反应机制,分别对应719,050个、89,081个和90,024个基本步骤。


实验结果

作者采用了三种先前应用于主要产物预测的不同机器学习模型:Weisfeiler-Lehman差异网络(WLDN),它将反应预测形式化为对分子图的编辑预测;Transformer模型,将反应预测形式化为反应物SMILES字符串到产物SMILES字符串的翻译;Graph2SMILES模型,它通过图编码器解释反应物结构,但使用序列解码器生成产物SMILES字符串。每个模型都经过训练,用于预测反应机理路径中的下一个中间体(或最终产物)。完整测试集的性能指标总结在表1中。


表 1

在预测基本反应方面,top-k准确度显示出从WLDN到Transformer再到Graph2SMILES的逐步改进。序列排名准确度与top-k准确度呈现出相似的趋势,其中Graph2SMILES模型在top-1序列排名中表现最好,展示了它在预测整个反应序列方面的有效性。即使在较短的深度下,WLDN模型也表现出大约20%的失败率。相比之下,Transformer和Graph2SMILES模型能够成功预测大多数反应序列深度小于7步的整个序列。

图 2


正如图2a所示,如果从反应物到产物存在分支路径,并非所有路径都能达到排名1。因此,尽管序列排名可以由于至少存在一个排名1的路径而达到1,但其他路径上的个别预测可能排名为2或更高。因此,这种动态使得序列排名有时优于top-k准确度。


建议需要考虑反应条件:在图2a中,Transformer模型通过去质子化醇作为第一步,预测了亲核芳香取代(SNAr)反应中亲核试剂的制备。根据定义的基本反应模板,模型能够在不明确指定质子来源/吸收体的情况下预测酸碱反应,因此模型不会明确考虑醇去质子化过程中碱的存在。


理解试剂的作用和催化剂的再生:图2b展示了一个Suzuki反应,其中钯催化剂至关重要。模型准确识别了Suzuki反应的关键步骤,包括氧化加成、转金属化和还原消除。这些催化剂通常被专注于从反应物预测最终产物的模型所忽略,因为它们的结构在最终产物中没有发生变化。这种局限性使得这些模型甚至在催化剂缺失的情况下也能预测出最终产物,这在化学上是不合理的。


与催化剂不同,试剂在化学反应过程中往往发生不可逆的转化。反应机理模型准确预测了图2d中的Grignard反应和图2e中的Darzens氯化反应中试剂的作用。这种预测能力展示了模型在识别各种化学成分的不同作用方面的表现。


生成可能的反应副产物:如图2c所示,Wittig反应通过酮和叶立德生成烯烃。在这里,模型预测了关键中间体氧磷乙烷及最终产物。作者的方法规定了每个基本反应,并设计了跟踪每一个重原子,因此模型能够跟踪反应中所有化学物质的去向,预见副产物的形成。


机制预测识别可能的反应杂质和副产物

化学反应的副产物和副反应产物可能包括不期望的杂质,识别这些杂质对于设计后续的分离策略或考虑一锅法反应的兼容性非常重要。初步的计算方法将次要产物的预测简单地视为低排名“主要产物”的预测。然而,这些模型并未考虑副产物,且仍然缺乏可解释性。如图3所示,反应机理模型可能通过预测导致杂质生成的分支路径来解决这一挑战。

图 3


图3a展示了一个Suzuki偶联反应,其中两个芳基卤化物基团相互竞争。Graph2SMILES模型恢复了生成溴和氯偶联产物的路径,但它预测前者(溴偶联)为更可能的路径,而后者(氯偶联)是记录的结果。尽管在整体反应上训练的全局Graph2SMILES模型成功地将记录的产物预测为排名第一,但它基于反应物做出了一些化学上不合理的预测。


图3b展示了使用WLDN和Transformer模型从苄基氯甲酸酯开始的N-Cbz保护反应的预测机制,这种反应类型未包含在训练集中。两个模型都成功预测了记录的产物,WLDN模型识别出伯胺比仲胺更具反应性。虽然WLDN模型展示了同一官能团内的竞争反应,但Transformer模型预测了过度反应。


定性分析揭示了反应机理反应预测中的失效模式

图 4


作者在图4中研究了反应机理模型的常见失效情况。作为序列生成模型,Transformer和Graph2SMILES模型不像WLDN模型在预测图编辑时那样强制遵守原子守恒。在图4a中,Transformer模型成功预测了N-Cbz保护反应的前两步,但在第三步中意外删除了用洋红色标出的原子。Transformer模型似乎识别出了氯离子的离去,但未能重建苄基氨基甲酸酯结构。这种基于语言的模型可能会随机扭曲中间结构,导致整体性能下降。


原子守恒的违背可能会导致看似成功的预测,如图4b所示。WLDN模型在没有钯催化剂的情况下不会继续反应,因为基于图的模型只能修改现有原子之间的键。相比之下,Transformer和Graph2SMILES模型可以通过假设钯的存在来促进氧化加成步骤,并生成羟基离子以进行转金属化步骤,从而预测出最终产物,但这会以牺牲化学合理性为代价。


虽然WLDN模型不会创建或删除原子,但它仍可能经历非物理和不现实的反应机制。这些差异在应用于与其训练集不同的反应类型时变得明显,例如图4c中所示的脱氧反应。然而,即使模型提供了适当的试剂,模型仍可能忽略它们在反应中的作用,如图4d中丁基锂未被用于酮的α-位去质子化。


反应机理模型在新反应类型上的泛化能力尚未表现出更好的效果

在本节中,作者通过测量模型在未见过的反应类别上的表现来评估其泛化能力。为了直接比较反应机理模型与全局模型的泛化能力,作者在进行反应机理插补之前,使用原始反应数据集训练了三个额外的机器学习模型。全局模型尝试一步预测结果,而反应机理模型则需要连续预测才能到达最终产物。图5总结了所有模型在训练集中未出现的14种反应类别上的表现。

图 5


反应机理模型在这些未见过的反应类别上的整体表现与全局模型相当,但略低于全局模型。反应机理模型在含羧酸的缩合反应中的top-1准确率相对较高,这可能是因为尽管离去基团不同,但训练集中总体机制相似。尽管最初的假设是如此,但目前还没有证据表明反应机理反应预测模型比传统的反应预测模型在新反应类型上表现出更好的泛化能力。


结论

这项工作中,作者通过专家基本反应模板生成了一个新的反应机理数据集,并评估了三种机器学习模型的机理和结果预测能力。研究表明,反应机理模型在预测基本反应细节方面表现出良好的准确性,并能深入揭示催化剂、试剂及复杂反应步骤的作用。此外,反应机理模型在预测杂质形成路径上展现了潜力,填补了传统全局模型的空白。然而,反应机理模型在新反应类型上的泛化能力仍存在挑战,特别是在连续预测中的误差累积和原子守恒问题上,未来需要进一步改进和优化。

编译 | 于洲

审稿 | 曾全晨

参考资料

Joung J F, Fong M H, Roh J, et al. Reproducing Reaction Mechanisms with Machine Learning Models Trained on a Large‐Scale Mechanistic Dataset[J]. Angewandte Chemie International Edition, e202411296.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章