DRUGAI
今天为大家介绍的是来自剑桥大学Jose团队的一篇论文。近年来,各种机器学习方法在反应结果预测中的应用迅速增长。深度学习模型因其能够直接从分子结构中学习表示而受到欢迎。另一方面,高斯过程(GPs)能够提供可靠的不确定性估计,但无法从数据中学习表示。作者将神经网络(NNs)的特征学习能力与GPs的不确定性量化相结合,在深度核学习(DKL)框架中预测反应结果。观察发现,DKL模型在不同输入表示下都能取得非常好的预测性能。它显著优于标准的GPs,并提供与图神经网络相当的性能,同时还能进行不确定性估计。此外,DKL模型提供的预测不确定性估计使其能够作为贝叶斯优化(BO)的代理模型。因此,所提出的方法通过结合提供可靠不确定性估计的准确预测模型与BO,在加速反应发现方面具有巨大潜力。
化学反应优化在有机合成中占据核心地位,主要依赖于化学直觉。在优化过程中,目标是通过确定合适的实验条件来最大化反应结果(例如产率和/或对映体过量)。这涉及评估一个包含催化剂、溶剂、底物、添加剂、时间、温度、浓度等反应变量的多维化学空间。由于这个问题的复杂性,已经采用了多种数据驱动的方法来高效探索化学空间。
反应结果的估计在反应开发中非常重要。它可以使化学家在进行湿法实验前识别出低产率的反应,从而节省时间和资源。机器学习(ML)在化学的许多领域显示出了令人印象深刻的成功。早期对反应结果预测的努力使用了手工制作的特征,如物理有机描述符和分子指纹。传统的机器学习方法,特别是随机森林,在这些非学习的表示下表现极佳。最近,深度学习(DL)的进步推动了新的分子表示方法的发展,这些方法直接从分子结构中学习,如简化分子输入线条条目规范(SMILES)和分子图。使用这些基于字符串或图的表示训练的化学语言模型(LMs)和图神经网络(GNNs)在反应结果预测中展示了巨大潜力。
尽管使用上述机器学习方法进行不确定性量化可能并不简单,但高斯过程(GPs)的不确定性感知是众所周知的。GPs通常在数据量少的情况下更适合量化不确定性,并且经常用作BO中的代理模型。GP模型的核通常是固定的,这意味着GPs无法从数据中学习表示。因此,在常用的分子输入如SMILES和图上训练GPs具有挑战性。另一方面,神经网络(NNs)可以直接从上述输入中学习特征表示,并将其转换为连续向量。可以将NNs的这种表示学习能力与GPs的不确定性量化相结合,使用深度核学习(DKL)。因此,DKL由于NNs能够学习更好且更灵活的表示,而比标准的GPs更具优势。
不可学习的分子表征的深度核学习
图 1
为了展示作者的方法,选择了一种具有高实用性的催化转化反应,即Buchwald–Hartwig交叉偶联反应(图1)。从高通量实验中获得的反应空间包括15种芳基卤化物、4种配体、3种碱和23种添加剂的所有可能组合。因此,数据集总共包含3955个反应及其对应的实验产率。
图 2
作者通过将非学习表示整合到DKL框架中,为其提供额外的灵活性。在这里,使用全连接神经网络从非学习输入表示中提取特征,然后由高斯过程(GP)进行产率预测。方法概述如图2所示。
常用的非学习表示包括分子指纹,它们是稀疏的高维位向量,以及物理有机描述符,它们的维度相对较低。作者将以下三种分子表示独立地作为DKL模型的输入:(1)分子描述符,(2)Morgan指纹,(3)差分反应指纹(DRFP)。从密度泛函理论(DFT)计算中获得的分子描述符包括描述分子电子和空间特性的特征。为了获得反应的表示,所有反应物的特征被连接在一起,总共形成120个分子描述符(图2)。接下来,计算每个反应物的Morgan指纹,得到半径为2的512位向量。反应表示是各个反应组分指纹的连接,形成一个2048维的位向量。最后,使用DRFP(2048位),它使用反应SMILES作为输入,返回反应的二进制指纹。
如前一节所述,DKL模型由用于特征学习的神经网络和用于预测的高斯过程组成。在处理非学习分子输入时,使用一个具有两个全连接层的前馈神经网络作为特征提取器(图2)。首先将反应表示传递给神经网络,以获得嵌入向量。然后将该嵌入向量作为输入传递给高斯过程,后者提供带有不确定性估计的预测。最终的DKL模型通过联合优化所有神经网络参数和高斯过程超参数进行训练,以高斯过程的对数边际似然作为目标函数。
可学习分子表征的深度核学习
图 3
分子图广泛用于图神经网络(GNNs)在各种化学相关任务中的输入表示。GNNs可以自动从分子图中捕捉相关特征,并利用这些特征进行预测。鉴于此,作者构建了一个使用GNN作为特征提取器的DKL模型,并使用高斯过程进行产率预测。方法概述如图3b所示。为此,将分子表示为无向分子图G=(V, E),其中原子作为节点V,键作为边E。节点和边各自有一组特征(图3a)。节点特征对应于重原子的原子特征(例如C、N、Cl、Br和O)。原子特征的例子包括原子类型、杂化、手性、形式电荷等。类似地,边特征与和原子之间键的特征相关。键特征包括键类型、键是否共轭或是否属于环、立体化学等。所有原子和键的特征都使用开源软件包RDKit计算。
对于每个反应物,一旦构建了包含原子和键特征的图,就将其作为输入传递给消息传递神经网络,以学习图的嵌入(图3b)。为此,进行多次消息传递步骤以获得节点表示,其中边网络作为消息函数,门控循环单元(GRU)作为更新函数。在读取步骤中,使用set2set模型对节点表示向量进行全局池化。这提供了一个图表示向量r,不受节点顺序的影响。最后,将单个反应组分的图表示向量相加,得到反应的复合表示(图3b)。因此,反应表示不受反应物顺序的影响。
从GNN得到的反应嵌入首先由前馈神经网络(FFNN)处理,其输出随后用作高斯过程(GP)基本核的输入(图3b)。因此,最终的DKL模型有两个组成部分:用于特征学习的GNN和用于预测的GP。模型通过端到端方式训练,深度核的所有参数通过最大化GP的对数边际似然L来联合学习。在测试时进行预测时,计算后验预测分布。该分布的均值对应于预测的产率,而方差提供了预测相关的不确定性。
模型性能评估
模型的预测性能通过均方根误差(RMSE)和平均绝对误差(MAE)来衡量。同时计算R平方(R²)值作为不同方法的性能度量。所有计算均使用基于PyTorch的GPyTorch库实现。在两个全连接神经网络层(图2b和图3)中应用了0.1的dropout率。得到的嵌入向量作为输入传递给GP,并选择没有自动相关性确定(ARD)的Matérn作为基本核。模型训练了400个周期。使用Adam优化器,以0.001的学习率更新DKL模型的所有参数。
图 4
作者使用分子描述符(Moldesc-GP)获得的平均测试RMSE为8.58 ± 0.06。对于Morgan指纹(MorganFP-GP)和DRFP(DRFP-GP),分别记录了相似的RMSE,分别为6.39 ± 0.06和6.46 ± 0.05。有趣的是,当相同的表示用于DKL模型时,性能显著提升。最显著的改进是在分子描述符上,RMSE为4.87 ± 0.07(Moldesc-DKL)。使用Morgan指纹(MorganFP-DKL)和DRFP(DRFP-DKL)的DKL模型也显示了改进的性能,RMSE分别为4.86 ± 0.08和4.87 ± 0.11(图4a)。此外,作者还研究了通过求和不同反应组分的指纹而不是连接它们来评估模型性能。最后,使用DKL模型对图表示进行产率预测(GNN-DKL)(图2a)。尽管相对于标准GP有显著改进,RMSE为4.80 ± 0.19,但性能与其他非学习表示的DKL相当。众所周知,GNN在各种分子任务中表现出色。因此,作者还使用了与DKL的GNN组件相同架构的独立GNN进行比较。普通GNN的RMSE为4.89 ± 0.19,性能与DKL相当(图4a)。但与GNN不同,DKL模型还提供了不确定性估计。结果总结还使用R平方(R²)值作为不同模型性能的度量(图4b)。R²图显示了与RMSE图相似的趋势。DKL模型的R²值始终优于标准GP,而与GNN相当。
编译 | 黄海涛
审稿 | 曾全晨
参考资料
Singh, S., & Hernández-Lobato, J. M. (2024). Deep Kernel learning for reaction outcome prediction and optimization. Communications Chemistry, 7(1), 136.