文末可跳转原文链接
2023年2月23日Alexei A. Lapkin课题组在Chemical Reviews以“A Brief Introduction to Chemical Reaction Optimization”为题发表综述。全文对以往化学反应优化方法进行了全面回顾,后依据以往的主流方法,讨论如何通过模型化、算法驱动和微型化的高通量技术来提高化学反应的优化效率,并给出具体案例进行可行性研究。文章以“批判性”分析风格展开,广泛涵盖了化学反应优化的核心技术。个人认为无论从事不同研究领域还是处在不同职业阶段的科研人员,相信均可从此篇文章中有所获益。通讯作者Alexei A. Lapkin是剑桥大学化学工程与生物技术系教授,博士毕业于英国巴斯大学。研究领域集中于化学工艺开发中的可持续化学、数据科学和机器学习等方面。
图源课题组网站:https://www.lapkingroup.com/
Chemical Reviews是美国化学会(ACS)旗下高质量期刊,创刊于1924年,年发文数300篇左右,2023年影响因子达62.1。该文为Open Access,点击文末左下角链接可阅读原文全文。 1. 背景概述
首先,提个有意思的问题,针对一个低产率的反应(不限反应类型,偶联反应、缩合反应均可),如何来优化提高产率?以偶联反应为例,即屡试不爽的“控制变量法”。在催化剂/配体先筛选时,其他条件先不变,得出一个最优“催化剂/配体”;然后固定该值,分别去更改溶剂、温度、时间这些因素。多轮筛选后,组合每轮的最优“变量”,得出整个反应的最优“条件”。时至今日,很多的方法学文章,甚至有的工艺生产,都会用到这个方法寻找最优解。但这里有一个关键的问题:基于单因素变量(OFAT)方法作为优化技术,是需要假设整个反应体系都是在“线性相关”这个大前提下进行。如下图所示,理论上反应最优解是“蓝紫色”圈,“黑色”的小圆圈为实验点。每一圈彩色轮廓线,代表最优条件的“响应曲面”。回到前面的问题,以“当量”和“温度”两个优化维度为例。首先任意固定一个温度,并执行迭代实验(纵坐标1至7),旨在找出最佳的当量,在“实验5”时找到这一数值。接下来固定这一数值,实验(横坐标8至14)确定最适温度,组合后“实验13”为实验最优条件(Identified optimum)。可是这个反应是“非线性”的,真实的最优条件(True optimum)是以曲线向外围发散,而不是横纵坐标的线性关系。这种实验方法割裂了各因素间的相互作用,理论上只能得到近似解,永远得不到真实最优解。 这也变相解释了,为什么有时候费力优化出一个反应的“高产率”条件,往往适用的范围很窄,底物稍微变一点,产率立刻大幅度的下跌。最后只能推测原因是:Case by Case...化学反应和其他复杂系统往往包含因素间的相互作用,即两个或多个因素共同作用时的效果不能简单地由各自单独作用的效果相加得到。OFAT方法没有考虑这种非线性相互作用,可能导致错过真正的最优条件,因为最佳的反应条件可能存在于某些因素特定的组合中。“批判性”分析(Critically Analyze)是这篇综述中的原话,全文后续会有很多这种分析来驳斥各类“优化方法”,当然也会对应给出建设性的解决方案。2.1 单因素变量法(One Factor At a Time, OFAT)最基本的优化方法,每次仅改变一个参数来观察其对反应结果的影响。(背景概述的内容,此处不再赘述)
2.2 实验设计(Design of Experiments, DoE)利用根据化学反应的实验输入(温度或反应时间等因素)建立统计模型,然后设计实验,同时改变多个变量,以高效地探索反应参数空间,找出最优条件。DoE有三个主要目标:筛选(screening)、优化(optimization)和稳健性(robustness)。筛选包括确定对反应输出有重大影响的因素及其各自的上限和下限。优化的重点是确定最佳因素水平,如最佳温度和试剂当量,以尽可能获得最佳反应产出。最后,稳健性测试包括确定反应对实验因素微小变化的敏感性;这在工艺规模上非常重要,有助于了解反应器中可能存在的缺陷如何导致次优产出。文章以一个SNAr反应为例,展示DoE筛选的效果。
DoE进行优化反应,使用预定义的空间填充实验设计,无需以化学直觉为指导进行优化,这样与传统的OFAT研究相比,这种空间填充实验可以构建统计模型来描述整个参数空间的化学过程;这对于反应预测尤为有效,并可生成反应等值线。不过,使用DoE进行优化也有一些实际缺点,可能导致必须使用其他技术。大多数研究人员使用的是专门为DoE设计的付费软件包,这些选择要么会带来专业知识方面的负担,要么会带来成本方面的负担(或两者兼而有之),这可能从根本上阻碍了该技术的普及,尤其是对于规模较小的研究机构而言。
2.3 动力学建模(Kinetic Modeling)动力学建模的特点是采用机理模型而非统计模型,动力学模型是根据对化学过程的科学理解而非实验因素与结果之间的统计关系构建的。反应的物理模型通常包括每个化学步骤的速率定律及其相应的速率常数。从动力学分析中生成的物理模型包含根深蒂固的化学信息,与经验模型不同的是,这些信息可用于在先前进行的实验限制之外推断反应的预测结果。确定模型中的反应阶次和速率规律不仅可以优化输出,还能加深对化学的整体理解。Ashworth课题组研究了吲哚酚16与氯吡咯烷17烷基化生成西地尼布18的动力学,在他们的实验中并未观察到与16的阴离子和17之间直接发生的亲核取代反应相符的总体二级动力学行为。相反,观察到的是符合一级动力学的行为,暗示存在一个初始的慢步骤生成了另一种物种。进一步的实验确认了反应不是直接与底物17结合,而是底物17先缓慢生成氮杂环丁烷离子19,随后19快速与16反应得到目标产物。这一机理的理解直接得益于动力学实验的结果,进而引导对整个过程(溶剂选择和碱的当量)的进一步优化,从而提高了总反应产率。动力学建模分为“传统方法”和“现代技术”,传统方法在拟合化学过程的速率定律物理模型时,必须通过实验确定反应顺序和速率常数。而现代方法无论过程的复杂程度如何,都可以使用速率常数求解器(使用与公式4相对应的微分方程)编写动力学分析的编码解。 动力学模型是优化化学过程,相较于传统OFAT优化,是一种更加系统化的方法;使用的机理模型还能提供DoE所不具备的化学洞察力和科学理解力,但由于时间序列数据至关重要,因此可能更难以解释和进行实验。
2.4 自我优化(Self-Optimization)自我优化是一种自动发现化学过程最佳反应条件的现代方法,不需要确定明确的机械或经验模型。自我优化通常使用自动反应器进行,这些反应器可以在一组指定的反应条件下独立执行反应。然后,自动分析仪器对反应混合物中的各个成分进行量化,再根据先前的数据通过算法建议新的反应条件,以改善关键的反应结果。因此,自我优化研究通常可分为三个子部分,与这三个关键方面直接对应:开发自动反应器、开发自动分析方法和开发优化算法(针对特定化学问题进行调整)。自我优化的主要目标是减少优化反应所需的实验次数,减轻科研人员的实验负担,从而节省时间和金钱。 常见的配套设备:自动流动反应器、自动间歇反应器和相应的分析技术Hein及其同事利用ChemSpeed液体处理机器人对一项立体选择性Suzuki偶联反应进行了自我优化,通过改变配体、多种化学计量比以及温度条件,旨在最大化E型产物的形成并最小化Z型产物的生成,如下图所示。这一自我优化活动在进行了161次实验后,使得E型产物的收率提高了两倍多(从名义上的30%提升至优化后的73%),同时E/Z型产物的比例也显著增加(从名义上的1.5:1提高到优化后的2.5:1)。 自动化技术不仅提高了分析速度,还能直接从反应板上获取数据,但设备成本较高。同时在进行反应后,还必须解决更多的必要条件,特别是对研究者而言容易但对机器来说较为复杂的步骤,如相分离、萃取、结晶等。
2.5 数据驱动优化(Self-Optimization)借助高通量实验(HTE),可以一次性以“全对全”的方式考察化学优化空间的大部分,其中一项穷尽式的(全因子)筛选可能比单独进行反应(如OFAT)更快、更有效地帮助确定最优条件。然而,采用HTE方法进行反应优化从一开始就要求投入大量时间进行反应设计,因为可能需要同时改变多个分类变量(如催化剂、溶剂、碱等)。通常会采用部分因子设计方法,其中选择变量的一个子集,在矩阵排列中进行筛选,所有分类变量相互之间进行对比。尽管这种设计和分析方法可能较为耗时,但由于微型化的规模需求减少了反应物料的用量,总体上它比OFAT或其他迭代优化方法更具成本效益。 图14展示了一个HTE工作流程示例,其中一项化学反应在12种催化剂、4种碱和2种溶剂的所有可能组合下被探索。HTE是一种强大的资源,已被制药行业广泛应用。它贯穿于药物发现过程中的各个化学开发阶段,从早期的临床前开发到针对临床开发、人体试验及后续市场投放的工艺优化。使用96孔玻璃惰性/金属反应板,方法优化的不同反应类别实例:
HTE也可以与连续流联用,如下图所示,辉瑞公司报告了一种基于改良HPLC设备的纳米级HTE定制流动平台。该系统不仅包含多个切换阀,可以选择多种溶剂,还可以将反应液滴导入两台LCMS仪器中的一台进行分析。该平台可在24小时内执行和分析约1500个反应,随后还被用于优化光氧化催化的脱羧C-H芳基化反应,以获得含有双环[1.1.1]戊烷的化合物,这些化合物具有药用价值,但在传统上很难合成。
机器学习(ML)已经给多个领域带来了变革,如图像识别、自然语言处理和自动驾驶。在有机化学领域,ML也是一种新兴的工具,尤其适用于预测任务,如逆向合成、最佳反应条件或反应结果。预测特定反应条件下的反应结果或直接预测反应条件对于反应优化具有相关性和特别的吸引力。如下图所示,这一问题可细分为数据收集和模型训练。一旦从高通量实验或反应数据库中提取了数据集,就可以训练选定的 ML 模型来预测反应条件或结果。 迄今为止,ML技术已被应用于产率预测和反应条件预测,这两种方法都有可能用于反应优化。科学家们可以利用产率预测模型缩小潜在的最佳反应条件集的范围,而无需进行粗暴的筛选。
实验室规模的反应优化研究侧重于提高反应产率和纯度、优化反应成本和绿色环保性,以及开发最佳的加工/分离方法,而后续的工艺设计步骤(放大所必需的)则需要满足一系列不同的要求。在这一工艺设计阶段,重点是能够在可接受的经济成本、运行和环境成本范围内,以及确保工艺安全的前提下,提供具有商业意义的产品产量。此外,本阶段还会深入研究持续满足质量关键参数的需求,这对于制药和精细化工行业至关重要。符合这些标准的工艺开发被称为放大过程,涉及确定影响最功能性反应器结构、工艺条件及分离步骤选择的关键尺度依赖性因素。这些都是从小试规模的反应优化到下一步的进程,了解先前获得的最优条件在放大过程中可能如何变化,对于成功放大化学工艺至关重要。 在大多数化学应用中,大通量工艺的设计涉及到将实验室环境中用于动力学或优化研究的反应器容器的尺寸扩大数倍。图20总结了学术界和工业界使用的不同反应器(摇瓶反应器、流动反应器、微反应器、搅拌槽反应器)的特征混合、传热和液体空间时间(反应器体积除以容积流量)的典型范围。3. 精读观点
该文为化学家提供了一个重要的参考资源,概述了化学反应优化领域的基础和前沿技术,包括实验设计、动力学模型建立、自动化和高通量分析等。文章指出,虽然许多合成化学家未在本科教育中接触到这些高级方法,但它们对于理解和优化复杂的化学系统至关重要。通过介绍各种技术及其应用实例,鼓励科学家采用这些现代优化手段,以促进化学研究和工业生产的发展。总而言之,即使目前处在的阶段只用到了如最基础的OFAT法,但不应该让思维局限在“优化方法”只有这一种的桎梏(尽管这个方法可能是最方便的)。