最新纯计算JACS,大数据分析C-C偶联

学术   2024-09-10 09:00   天津  

题目Machine Learning Big Data Set Analysis Reveals C−C ElectroCoupling Mechanism

文献出处J. Am. Chem. Soc. 2024, 146, 32, 22850–22858C

通讯作者及单位

Shi-Zhang Qiao − School of Chemical Engineering, the University of Adelaide, Adelaide SA 5005, Australia

摘要

碳-碳 (C-C) 偶联对于电催化还原 CO2 以生产绿色化学品至关重要。然而,由于反应网络的复杂性,关于潜在的反应机理和催化剂材料设计的最佳方向仍然存在争议。本文提出一个全局视角来建立一个涵盖所有 C-C 偶联前体和催化活性位点组成的综合数据集,以探索反应机理并通过大数据集分析筛选催化剂。针对各种吸附构型开发的 2D-3D 集成机器学习策略可以快速准确地扩展量子化学计算数据,从而快速获取广泛的大数据集。对大数据集的分析表明:(1) 与对称偶联相比,非对称偶联机制表现出更高的潜在效率,最佳路径涉及 CHO 与 CH 或 CH2 的偶联,(2) 可以通过包括 CuAgNb 位点在内的双金属掺杂来增强 Cu 基催化剂的 C-C 偶联选择性。该发现证明了通过机器学习加速的量子化学计算生成的大数据集的实用性。得出结论,将大数据与复杂的催化反应机制和催化剂成分相结合将为加速最佳催化剂设计产生指导意义。

理论与计算方法

DFT计算:VASP软件包;RPBE泛函;PAW赝势;截断能600 eV;能量和力的收敛阈值分别设置为 10-5 eV 和 0.05 eV/Å,对Fe、Co、Ni的结构实施自旋极化,布里渊区采用(4 4 1)K点网格采样

结果讨论与文献解析

吸附能、偶联能和活化能垒计算

C-C 偶联大数据包含 45,738 个吸附能 (Ead),包括六种前体(CO、COH、CHO、CH、CH2 和 CH3)和 21 种 C2 组合(6 种对称偶联和 15 种不对称偶联)。Ead 计算公式为

其中 Etotal 是含吸附质的底物的 DFT 总能量,Esubstrate 是原始底物的能量,Especies 是参考 CO2、H2O 和 H2 分子的吸附质物种的能量。为了描述偶联反应的难易程度,耦合能(Ecplg)定义为耦合后的总能量Etotal(Product)与耦合前两个前体的总能量Etotal(Precursor1)和Etotal(Precursor2)之差:

将Product、Precusor1和Precusor2的Ead代入公式2,并简化后得到

采用CI-NEB方法计算活化能垒(Ea),在共吸附的两个C−C偶联前体的初始结构和对应的C2偶联产物的最终结构之间优化了8个构型。每个构型都经过弛豫,直到每个原子上的力都在 0.05 eV·Å−1 以内。

大数据集构建

C-C 偶联大数据集包括偶联前的产物和偶联后的产物,涵盖了与该反应步骤相关的所有吸附中间体。这些数据包括六种可能的 C1 前体,即 CO、COH、CHO、CH、CH2 和 CH3,以及由这些前体组合衍生的六种对称耦合和 15 种不对称耦合的 C2 产物。鉴于吸附物质的对称性各异,并且需要确定最稳定的吸附能作为最佳吸附配置,因此需要考虑每个催化剂表面总共 121 种独特的吸附结构。由于 Cu 在 C-C 偶联中的重要作用,数据中的所有三原子吸附位点都由一个 Cu 原子组成,而另外两个原子从 27 种金属元素的搜索空间中选择,从而产生 378 个独特的 ABCu(A、B = 过渡金属)活性位点。这些吸附配置与各种活性位点组成的组合产生了包含 45,738 个吸附能量数据的大数据集,如图 1 所示。

研究者开发了一种从大数据集中迭代采样的方法,用于 DFT 计算,然后将其用于 ML 预测以生成整个数据集。这种方法平衡了计算量和准确性。即随机采样一个子集(最接近 Cu 的 3d 金属),并依次包括其他两个子集(4d 和 5d 金属),以确保对整个数据集进行分布采样。这种方法保证了所有金属类别的包含,并允许在整个 DFT 计算和 ML 过程中进行动态调整。

机器学习模型开发

为了确保 C-C 耦合大数据集的质量并提高 ML 预测的准确性,开发了一种面向应用的 2D-3D 集成策略。图神经网络 (GNN) 模型广泛用于吸附能量预测,可用来处理 2D 和 3D 输入,每种输入都有不同的优势和局限性,如图 2a。在 2D GNN 模型中,消息传递过程仅从直接与中心原子结合的原子收集信息。这种方法考虑了与相邻原子的直接连接,但没有考虑这些原子之间的实际空间排列或距离。因此,它捕获了分子连通性,但缺乏三维结构信息。相反,3D GNN 整合了原子之间的空间距离和角度,使网络能够编码详细的 3D 结构信息。这可以更准确、更详细地表示分子几何形状。然而,由于它对结构变化很敏感,在预测与弛豫结构有显著偏差的输入时缺乏稳定性。

事实上,2D 和 3D 输入可以看作是催化剂吸附结构的不同模态。单模态模型的低准确度归因于复杂的数据变化,包括由于底物元素组成导致的原子位置变化以及不同吸附物种和位点导致的连接性改变。为了解决这个问题,结合了表现最佳的 2D 和 3D 模型来创建 2D-3D 集合。如图 2b 所示,整个数据集被随机分成五个部分。两种 ML 方法中的每一种都执行两次训练和验证操作。重复四次总共产生四次训练和验证操作。通过执行这些操作,两种 ML 方法在数据的不同子集上进行训练和验证。通过结合两种算法的优势来得到更好的预测结果。

如图 2c 所示,对于基于 3D 的 GNN,DimeNet++算法表现出更高的准确度,平均绝对误差 (MAE) 为 0.37 eV。在基于 2D 的 GNN 中,图卷积网络 (GCN)算法表现出最高的准确度,MAE 为 0.36 eV。因此,表现最佳的 DimeNet++ 和 GCN 集成优于所有单一方法,将 MAE 降低至约 0.32 eV,这为预测复杂反应网络中的吸附能提供了一种权威的 ML 方法,有效地克服了在大数据集复杂性背景下使用特定维度方法的局限性。

大数据集中的缩放关系

催化理论的一个重要方面是催化剂位点上相似系列吸附物之间的吸附能具有线性相关性。这大大简化了反应中间体的理论计算,使其广泛应用于催化剂筛选。然而,在数据有限的情况下,得到的线性相关性可能很弱,从而降低了结论的可靠性。如图3a、d所示,在不同的金属表面上,偶联前体之间的线性相关性通常较弱,R2值大多小于0.7。此外,由于C2物种的分子尺寸比C1物种大,导致计算复杂度增加,因此对C-C偶联形成的C2物种的相关研究有限。在这项工作中,用于吸附能的大数据集解决了这个问题。图3b,e显示了ABCu位点上C1偶联前体的吸附能之间存在强线性相关性,R2系数通常> 0.8。此外,如图 3c、f 所示,前体和 C2 偶联产物之间的 R2 系数也很高,但饱和的 CH3-CH3 除外,由于物理吸附,其线性相关性较差。由于 C-C 偶联前后中间体的吸附能之间存在稳健的线性相关性,因此反应性质与吸附能之间存在高度相关性。这一发现有助于通过分析吸附能来评估反应的难易程度。

在大数据组中定位 Cu

除了建立理论趋势外,大数据组还允许与实验进行有价值的比较。研究者引入了偶联能 (Ecplg) 的概念,表示偶联前后的能量差。偶联能越负,反应越有利。鉴于反应中间体的能量之间建立了强线性相关性,可以得出结论,吸附能和 Ecplg 之间存在同样强的线性相关性,如图 4a 。此外,确定了 CO 与六种前体的 C-C 偶联活化能垒和相应的 Ecplg 之间的线性相关性,如图 4b 所示。这表明 C-C 偶联的动力学能垒与 Ecplg 密切相关,表明 Ecplg 可用作 C-C 偶联反应活性的描述符。

作图可得,吸附能越负,偶联能越正,反之亦然,表明前体吸附的难易程度与偶联的难易程度之间存在反比关系。这条规律解释了C-C偶联反应在实验中很难实现的原因,就像一个跷跷板,一端难以获得相关前体,另一端难以进行偶联反应,很难达到平衡。重要的是,Cu元素,即实验中C-C偶联的唯一元素,往往位于这个跷跷板的中间,在图中标记为纯Cu的位置。这证明Cu表现出平衡的形成前体和促进C-C偶联的能力,使其成为C-C偶联的最佳催化剂。这一发现与实验事实高度吻合,证实了大数据集对实验的基准能力。

反应机理分析

大数据集考虑到比传统实验更广泛的可能性。偶联机制是对称的/不对称的,这导致从大数据中评估特定前体物种与其他前体之间的偶联比较。图 5 显示了六种前体的偶联比较。黑色虚线表示对称偶联(与自身偶联),而彩色数据表示与其他物种的不对称偶联。分析证实,与对称耦合相比,不对称偶联具有更大的 C-C 偶联效率的实际潜力。通过分析不同偶联前体的能量偏好来确定最佳的 C-C 偶联反应机制。分析表明,CO 倾向于与 CH 和 CH3 偶联,COH 和 CHO 与 CH 和 CH2 偶联,CH 与 CHO 和 CH2 偶联,CH2 与 CH 和 CHO 偶联,CH3 与 CH、CH2 和 CHO 偶联。CHO-CH 和 CHO-CH2 机制被确定为最有利的途径。鉴于并非所有偶联中间体都易于实际检测,这是对该机制研究的重要理论见解。

通过催化剂设计增强Cu的性能

大数据对于有价值的催化剂筛选非常有用。重要的是,可以直接从数据中筛选催化剂,简化筛选过程。尽管 Cu 处于有利位置,但 Cu 附近的大量数据给出了 C-C 偶联效果更好的催化剂的可能性。潜在的更好的 C-C 偶联竞争者需要 (1) 表现出低偶联能,最好是负的,(2) 易于进行偶联前体吸附,最好比在 Cu 上更容易,(3) 前体易于形成,理想情况下放热。此外,由于析氢反应,选择性在 CO2 电还原中也很重要。CO 的吸附能将限制在 Cu ±0.1 eV 的范围内,以确保 CO2 还原的选择性并防止析氢反应。由此得出了四个筛选标准(图 6a),适用于所有 378 个催化剂活性位点的组合物。根据上述标准,确定了 11 种具有实用前景的催化剂组合物 CuAlNb、CuZr、CuAuHf、CuMnW、CuAgNb、CuHfRh、CuTi、CuRuTi、CuAlV、CuIrV 和 CuPtV,它们在 C-C 偶联中表现出比 Cu 更好的性能。在它们的反应机理中,最有可能发生偶联的中间体是 CH-CHO 或 CH2-CHO(图 6b)。为了确认 ML 大数据集的准确性,使用 DFT 计算验证了 11 种选定催化剂结构的完整 C-C 偶联反应网络,包括偶联前体 CHO、CH 和 CH2 的生成以及偶联步骤。在 11 种筛选催化剂上,DFT 计算的从 CO 到 C2 物种的整个过程的自由能图表明,最后一步,即从 C1 到 C2 物种的转化很容易发生,从根本上解释了它们理论上的高 C2 选择性。

理论计算科学
致力于理论计算化学与材料科研学术内容知识的分享。
 最新文章