研究化学反应的工作原理是设计新反应的关键,但依赖于努力工作和专业知识。已经开发了一种机器学习工具,可以改变应对这一挑战的方式。
化学反应的发现不仅受其获取实验数据的速度的影响,还受化学家理解这些数据的难易程度的影响。解开新催化反应的机理基础是一个特别复杂的问题,通常需要计算和物理有机化学的专业知识。尽管如此,研究催化反应很重要,因为它们代表了最有效的化学过程。在 Nature、Burés 和 Larrosa 中写作1报告一个机器学习模型,该模型根据反应的时程特征对催化反应的机制进行分类。这种方法可以简化反应机制的研究,并且需要最少的实验工作。
图 1 |开发化学反应动力学分析模型。 a、布雷斯和拉罗萨1被认为是一组通用的反应,其中底物分子被催化剂转化为产物。作者确定了 20 种可能的机制,并计算出每种机制的速率定律——一个描述反应动力学(底物被消耗和形成产物的速率)的方程式。对速率定律进行求解,生成数百万个模拟动力学曲线,并将这些解输入机器学习系统(神经网络),以生成经过训练的反应动力学模型。b,该模型可以处理来自真实反应的动力学数据,并准确识别可能的反应机理,并为每个机理分配概率。在这里,最可能的机制是一个简单的过程,其中底物与一个催化剂分子形成复合物,然后产生产物;不太可能的机制涉及底物与催化剂的二聚体形成复合物。
催化反应机理的确定涉及收集有关起始材料如何聚集在一起并与催化剂相互作用并相互相互作用以形成产物的大量线索。从实验数据中得出假设的最强大技术之一是分析原料的消耗和产品随时间的形成,这一过程称为动力学分析2.这些反应物衰变和产物形成的速率最好用称为速率定律的方程来描述。
这些定律背后的基本前提是,化学转化的速率取决于试剂的浓度、反应每个步骤中涉及的试剂分子的数量,以及将反应物转化为瞬时中间体然后形成产物所需的能量。解开复杂的速率定律可以更好地理解催化循环的每个步骤涉及哪些分子以及这些步骤发生的顺序。因此,机理信息对新反应的设计具有广泛的影响也就不足为奇了。
一个多世纪以来,化学家们一直在从反应速率中提取机理信息。今天仍在使用的一种方法是评估反应的初始速率3,专注于最初 1% 的起始材料的消耗。这种方法很受欢迎,因为在大多数情况下,反应物浓度与时间的关系图在反应开始时是线性的,因此很容易分析。尽管很有见地,但该技术忽略了在大部分时间过程中发生的反应速率和浓度的变化。
Burés 和 Larrosa 的算法训练方法避免了产生大量实验动力学数据的瓶颈,这些数据是向数据密集型深度学习系统提供数据所必需的——在实验室中生成如此大量的数据需要数年时间。此外,模拟数据对于训练目的来说“更清晰”,因为每个动力学曲线本质上都与特定的机械场景相关联。
作者使用一组模拟动力学曲线测试对训练后的模型进行了评估,并证明它以 92.6% 的准确率正确地将这些曲线分配给一个机理类。即使有意引入 “噪声 ”数据,该模型也表现良好,这意味着它对实验数据的分类很有用。
最后,作者使用先前报道的几个实验动力学曲线对他们的模型进行了基准测试。预测的机制与早期动力学研究的结论非常吻合。在某些情况下,该模型还识别了原始工作中未检测到的机制细节。对于一个具有挑战性的反应,该模型提出了三个非常相似的机理类别。然而,作者正确地表示,这个结果不是错误,而是他们模型的一个特征,因为它表明需要进一步的具体实验来探索这种机制。
总之,Burés 和 Larrosa 开发了一种方法,该方法不仅可以自动化从动力学研究中得出机理假设的漫长过程,还可以对具有挑战性的反应机理进行动力学分析。与数据分析中的任何技术进步一样,生成的机理分类应被视为需要进一步实验支持的假设。总是存在误解动力学数据的风险,但该算法能够根据少量实验确定正确的反应路径(或路径),并且具有很高的准确性,可以说服更多的研究人员尝试动力学分析。因此,我们和作者一样热衷于这种方法可以普及和推动将动力学分析纳入反应开发的管道中,尤其是在化学家对机器学习算法越来越熟悉的情况下。