DRUGAI
今天为大家介绍的是来自麻省理工学院Klavs F. Jensen教授团队的一篇论文。电化学C-H氧化反应是对碳氢化合物进行官能化的一种可持续路径,但识别合适的底物和优化合成仍然具有挑战性。在这项研究中,作者报告了一种结合机器学习和大语言模型的综合方法,以简化电化学C-H氧化反应的探索过程。利用批量快速筛选电化学平台,作者评估了广泛的反应,最初根据底物的反应性对其进行分类,同时大语言模型从文献数据中进行文本挖掘以增强训练集。由此产生的反应性预测机器学习模型实现了高精度(>90%),并能够对大量商业化分子进行虚拟筛选。为了优化选定底物的反应条件,作者提示大语言模型生成代码以迭代改善产率。这种人工智能协作方法被证明是有效的,能够高效地确定8种类药物物质或中间体的高产率条件。基于化学家给出的自然语言提示,作者对12种不同的大语言模型(包括LLaMA系列、Claude系列、OpenAI o1和GPT-4)在与机器学习相关的代码生成和函数调用方面的准确性和可靠性进行了基准测试,以展示其在加速四个不同任务的研究方面的潜力。此外,作者还收集了一个实验基准数据集,包括1071个电化学C-H氧化反应的反应条件和产率。
电化学C-H氧化是一种可调控、成本效益高的转化方法,可将碳氢化合物转化为修饰的氧化分子。随着合成化学家不断拓展这一领域并发现新的化学反应,尽管选择反应性底物和优化合成参数通常以基本化学原理和假设为指导,但仍需要广泛的实验条件筛选,耗费大量资源。因此,智能工作流程对于满足化学家高效探索反应性空间、加快新反应发现的需求至关重要。
近年来,机器学习在有机反应的反应性预测和优化方面显示出巨大潜力。同时,大语言模型也引起了化学研究领域的关注,通过直观的自然语言提示帮助研究人员简化和增强数字工作流程。本质上,机器学习为化学研究中的特定任务提供了工具箱,而大语言模型则作为元工具提高了这些计算工具的可访问性,弥合了数字能力和化学专业知识之间的差距。因此,机器学习的数学严谨性与大语言模型的语言理解和领域特定知识的结合,可以使数据驱动的方法更容易被广大化学家接受。在本研究中,作者展示了机器学习和大语言模型在推进电化学C-H氧化反应探索和优化方面的协同潜力。对于机器学习部分,作者的方法旨在解决两个基本问题:(1)哪些底物适合电化学氧化?(2)什么合成条件能获得最佳结果?
快速筛选的电化学平台
图 1
为了评估机器学习是否可以指导选择适合电化学C(sp3)-H氧化的化合物,作者需要一个包含既可进行电化学氧化又不可进行电化学氧化的底物的多样化训练集。受之前电化学合成平台的启发,作者开发了一个快速筛选电化学平台,能够同时进行多个反应,实现反应性筛选和合成条件优化。该平台采用标准化的24孔电合成反应器(图1A),包括水射流切割的阳极和阴极连接器、对准板和小瓶定位器,组件可通过商业供应商获得,易于在实验室中低成本组装。
作者随机选择了335种实验室现有的化学品,在预定的电化学条件下进行快速数据点生成,并根据反应性对每种底物进行分类。研究涵盖了多样化的分子结构,包括烃类、含杂原子的分子骨架和功能化的类药物分子。作者将无转化或产生未知产物的反应标记为阴性,将建模挑战简化为二元分类任务,避免了预测新产物的复杂性。这种标准化、低成本的快速筛选电化学反应器可迅速获得包含阳性和阴性标签的335个实验电化学氧化结果数据集。
文献数据挖掘
为了补充实验数据,作者从科学文献中检索反应数据和结果,以丰富C-H氧化反应数据集。传统的反应数据库查询方法往往难以捕捉特定于研究的细微标准,如使用媒介物在脂肪族碳上进行电化学C-H氧化反应。人工分析和整理大量论文以提取相关实例通常非常耗时。为了解决这一挑战,作者采用由人工指令指导的大语言模型进行语义分析。该方法通过理解科学文章中的上下文,精确提取相关数据。大语言模型的任务是识别满足以下三个关键标准的论文:
必须是电化学合成的实验研究;
必须涉及 C-H 键氧化生成醇或酮产物;
反应必须发生在脂肪族碳上。
大语言模型充当由人类语言指令引导的定制过滤器,自动阅读每篇论文,理解实验部分和讨论,并选择符合条件的论文。作者使用预设提示分析了140篇相关论文,每篇论文约15秒,总分析时间约35分钟。与140篇论文的基准标签验证显示,大语言模型的准确率达到96%,正确识别了21篇相关论文,遗漏了2篇(图1B)。
模型训练
完成数据集收集后,作者整合实验结果和文献数据挖掘的数据,创建了适合模型训练的平衡数据集(图1C)。文献数据偏向成功的底物,与筛选平台生成的失败数据点互补。最终数据集包括582个底物,其中271个可氧化(46.6%),311个不可氧化(53.4%)。数据集包括7720个碳原子,其中431个在转化过程中被氧化。作者的目标是开发两类预测模型:(i)反应性预测模型,将底物分类为反应性或非反应性;(ii)选择性预测模型,将分子内每个碳原子分类为氧化或未改变。前者可用于快速筛选化学目录,后者有助于化学家识别可能发生氧化的位点。
除Chemprop直接使用SMILES外,底物的SMILES字符串被转换为Morgan指纹用于反应性模型。优化各自的超参数后,使用准确率和AUC指标对每个模型的性能进行了严格测试。所有模型都表现出高性能,准确率超过91.7%,AUC值为97.2%。此外,作者探索了在机器学习模型中包含密度泛函理论(DFT)描述符,提供了更丰富的量子力学信息,略微提高了模型性能。总之,ML模型在两项任务上的一致性能凸显了作者集成的平衡数据集的稳健性,突出了湿实验与文献数据挖掘相结合的好处。
基准测试LLM的自动代码生成性能
为了进一步简化机器学习在电化学反应探索中的集成,作者探索使用大语言模型自动生成代码,以实现前面描述的机器学习模型。LLaMA、GPT和Claude等大语言模型通过从自然语言提示生成可执行代码,为此提供了一个有前景的解决方案,有可能降低机器学习工具的使用门槛,提高化学家的生产力。这引出了一个重要的问题:大语言模型能否作为化学家可靠的代码助手?
图 2
为此,作者首先开发了一个“提示到代码”框架,并用它来评估不同开源和专有大语言模型在工具制作和工具使用方面的性能(图2A)。核心目标是评估大语言模型在本研究背景下四个不同任务中生成代码的可靠性和准确性:
使用C-H氧化数据集进行机器学习模型训练;
开发调整合成条件和优化反应产率的代码;
解释文档并应用现有Python包进行产率优化;
与实验室硬件直接交互,根据生成的合成参数制备溶液(图2B)。
这些任务涵盖了从数据处理到物理实验室自动化的一系列实际应用,反映了大语言模型可以通过机器学习代码实现来支持化学研究的多种方式。
基准测试的结果展示了将大语言模型用作代码助手为化学家实现机器学习模型的潜力(图2C)。对于涉及训练机器学习模型的任务1,大语言模型展现出高度的能力,代码生成准确率经常超过90%。这表明对机器学习框架有深刻理解,并能够正确应用于化学数据集。在任务2中,大语言模型面临更复杂的优化化学合成条件的挑战。在这里,更先进的大语言模型(例如OpenAI o1和GPT-4o)表现出令人印象深刻的适应性,分别有85%和75%的试验成功,突出了它们通过增强的推理能力处理复杂、依赖上下文的编码任务的潜力。任务3测试了大语言模型理解和应用不熟悉的Python包进行产率优化的能力。最后,在任务4中,大语言模型的任务是根据任务2或任务3提出的建议,为液体处理机器人生成可执行脚本。该任务展示了大语言模型生成的代码在实验室自动化物理过程中的实际应用,与之前的文献结果一致,成功执行反映了大语言模型有效集成数字和物理工作流的能力(图2D)。
采用主动学习方法优化电化学反应产率
图 3
为了进一步探索电化学C-H氧化的合成优化,作者在之前提到的电化学合成平台上开发和比较了几种方法。作者重点转向主动学习策略,旨在通过迭代优化合成条件以最大化产率,同时最小化实验迭代次数。作者在筛选电化学反应器上使用分批方法,每批包括3至5个反应,根据核磁共振产率结果进行分析和调整,以指导后续的实验条件(图3A)。作者开发并考察了四种不同的策略:
随机抽样,代表传统的试错法;
大语言模型驱动的预测,模仿人类化学家的决策过程,利用化学直觉而无需统计学习;
基于机器学习的优化,采用纯统计方法,使用贝叶斯优化进行参数选择,代码由大语言模型生成;
大语言模型-机器学习混合方法。
大语言模型指导初始参数选择,然后使用机器学习程序作为辅助函数对下一步合成参数提出建议。
作者首先在α-pinene上测试了这些方法的有效性,因为它具有较高的预测反应性(0.87)和选择性(0.90)。在α-pinene取得成功的基础上,作者将大语言模型-机器学习框架应用于另外7个底物的合成条件优化。应用同样的主动学习方法,作者观察到优化过程在所有选定底物中始终产生高性能结果。总共,作者成功地从1250种可能的组合中确定了8个分子中每一个在10次迭代内的最佳电催化剂、电解质和浓度组合(图3B)。
图 4
此外,作者发现优化条件通常针对每个底物而定,不同底物间合成条件的交叉应用证明了这一点(图4)。每种底物都在其独特优化的参数下实现了最高产率,凸显了量身定制方法的必要性,而不是一刀切的方法。这种特异性至关重要,因为针对一种底物优化的条件不同,不一定能转化为其他底物的最佳反应产率。通过动态调整和优化反应条件,作者的方法减少了传统方法固有的反复试验,提高了化学合成的效率和生产力。主动学习框架在简化优化过程方面被证明是有效的,在实现高产率的同时有效地减少了实验负担。
总结
作者成功开发并验证了用于预测电化学C-H氧化反应中反应性和位点选择性的机器学习模型,实现了高精度;创建了经济高效的快速筛选电化学平台,以促进快速数据生成和反应性筛选;利用大语言模型对科学文献进行语义分析并生成机器学习代码,显著降低了化学家使用机器学习工具的门槛;采用结合机器学习和大语言模型的协同方法迭代优化合成条件,为选定的底物实现了高产率优化,并获得了包含1071个电化学反应的数据集。尽管取得了这些可喜的成果,但前方的道路仍然漫长。本研究展示了人工智能协作的潜力,结合了大语言模型和机器学习的优势,推动合成化学研究的发展。
编译 | 于洲
审稿 | 王梓旭
参考资料
Zheng Z, Florit F, Jin B, et al. Integrating machine learning and large language models to advance exploration of electrochemical reactions[J]. Angewandte Chemie, 2024: e202418074.