DRUGAI
今天为大家介绍的是来自浙江大学方群教授等团队的一篇论文。传统有机化学合成的产率通常较低,每位实验人员每天只能完成少量实验。作者开发了一种基于液芯波导、微流体液体处理和人工智能技术的机器人系统,用于超高通量的化学合成、在线表征和光催化反应条件的大规模筛选。该系统能够实现自动化的反应物混合物制备、转换、引入,进行秒级的超快光催化反应,在线光谱检测反应产物,以及不同反应条件的筛选。作者将该系统应用于光催化[2 + 2]环加成反应的12,000种反应条件的大规模筛选,其中包含多个连续和离散变量,实现了每天高达10,000种反应条件的超高通量筛选。基于这些数据,进行了AI辅助的跨底物/光催化剂预测。
一个有机合成器每天能完成多少次化学合成反应?在大多数有机合成实验室中,这个数字通常不超过10次。有机合成尤其耗时,往往需要数小时甚至数天完成,因此其优化和筛选需要研究人员投入大量时间和精力。
近年来,基于自动化机器人和微流体化学技术的高通量有机合成和筛选技术逐渐发展。流动微反应器因其高质量传质和传热效率,在反应速度和效率上具有优势。光催化反应是一种常见的有机合成反应,通过光照激发反应物分子或催化剂来促进反应,将光能转化为化学能。相比传统的间歇式光催化反应器,流动式光催化微反应器可将反应时间从数天或数小时缩短到几小时甚至几分钟。然而,尽管当前流动光催化系统在反应速度上有了显著提升,其通量仍远低于化学合成领域对大数据驱动的AI技术应用所需的规模,而这一技术被认为具有变革性地提高化学合成研发效率的潜力。
为应对这一挑战,作者开发了一种自动化高通量系统,利用微流体液芯波导(LCW)、自动微流体液体处理和AI技术,实现了秒级的超快速光催化反应和每天高达10,000次的超大规模筛选。
超快光催化合成与表征
图 1
作者设计并构建了一种新型微流体光催化微反应器,采用液芯波导(LCW)技术将高强度激光光源引入光催化反应通道,以显著提高光催化反应速度(图1A)。使用四台450纳米激光器作为光源,通过四根光纤将约4.6瓦的光功率耦合到反应区。基于LCW原理,光在5厘米长的反应通道中多次全反射,使3厘米范围内的激光光通量超过3.5×104 mW/cm²(图1B),其照射强度约为传统间歇式光催化系统的1万倍。在微流体LCW微反应器中,激光光多次反射,确保在530微米直径的反应通道中间部分(3厘米长)形成均匀的高强度光分布,比传统间歇式系统的约2毫米照射深度高15倍。然而,高强度激光照射会导致毛细管反应器的温度显著上升,增加副反应,降低反应收率。为解决此问题,作者设计了带有内反应毛细管和外毛细管的套管结构,外毛细管中流动的循环冷却液可控制反应通道温度,例如保持在25 ± 2°C。
作者将LCW光催化微反应器应用于一种典型的有机光催化合成,即光催化[2+2]环加成反应。该反应因生成具有生物活性的环丁烷结构而备受关注。使用LCW光催化微反应器,底物S-1在微反应器通道中仅需3.3秒的停留时间即可完全转化,且反应收率和非对映体比(d.r.)与传统间歇式光催化系统相当。相比之下,在相同的光催化剂和底物种类、浓度及催化剂比例条件下,传统间歇式光催化反应器完成此反应耗时可达4小时。作者研发的LCW光催化微反应器借助超高光强度、均匀且长距离的光照射、稳定的反应器温控和微流体规模效应,将反应时间缩短了4300倍。据作者所知,这是首次将光催化反应从数小时缩短至数秒,达到了文献中报道的最快光催化反应速度。
高通量光催化合成与筛选
除了快速合成和在线表征的能力外,一个实用的高通量系统还必须能够自动调节连续变量(例如反应温度、时间、压力、光强度和反应物浓度等)和离散变量(例如底物、光催化剂和溶剂种类等),以实现有效的合成条件高通量筛选。在许多情况下,研究通常集中在特定条件下实现快速有机合成,而忽视了快速筛选大量不同条件的能力。
在本系统中,作者使用了一个由选择阀和注射泵组成的液体处理模块,实现了自动多步液体操作,包括反应溶液的快速引入、转换、混合和驱动,且流速可调。作者创新性地结合了1毫升和5毫升注射器,执行多步往复式吸入-分配操作,使反应物(底物、光催化剂和溶剂)在2分钟内实现毫升级的快速自动混合。作者设计了基于LabVIEW的程序来控制整个系统模块的操作(图1C),支持按需自动更换光催化剂和底物种类、浓度、光催化剂比例、激光光强度及流速,从而实现超过10,000种反应条件的大规模筛选的全自动化操作,无需人工干预。
该光催化合成和筛选系统也作为iChemFoundry(IC)平台的多个功能模块之一。IC平台是一个用于分子制造的大规模自动化平台,包含多个功能模块,能够实现化学合成从反应物准备、预处理、化学反应、后处理、表征到数据分析的一系列自动化操作。通过将光催化合成和筛选系统、反应物准备系统、轨道机器人和平台上的机械臂相结合,可以实现操作的完全自动化,包括固体试剂称量、液体试剂计量、试剂储备溶液的制备、试剂的转移与吸取、反应溶液的制备与引入、在线流动光催化反应、紫外光谱反应监测以及循环筛选不同条件(图1D)。
图 2
在该系统的支持下,作者对光催化[2 + 2]环加成反应进行了全面的筛选,总筛选条件数达12,000种,包括光催化剂和底物种类两个离散变量,以及光强度、浓度、流速和光催化剂比例四个连续变量(图2)。每个变量具有4至6个水平或种类,总共形成12,000种正交组合筛选条件(即光催化合成与分析实验)。在系统中,每个光催化[2 + 2]环加成反应的数据采集平均仅需32秒,使得筛选通量达到了每天2,600次不同条件下的实验。
AI辅助的超高通量光催化合成与筛选
稳态与非稳态实验模式
图 3
在高通量筛选不同反应条件的实验中,当前一个反应条件的合成与表征完成后,需要将新反应溶液引入反应器和检测流动池通道。由于流动系统中的对流和分子扩散效应,前一反应溶液和新引入的未反应溶液在交界区域会相互混合,UV-Vis检测器检测到的吸光度信号呈现动态变化(图3A1)。传统方法通常是等待新引入的未反应溶液将前一反应溶液完全排出系统,以便检测器获得稳定的稳态吸光度信号用于数据读取。然而,这种稳态实验模式需要较长的等待时间。在上述稳态模式下的光催化筛选实验中,激光持续照射微反应器通道,系统大部分时间(每次实验循环的32秒中有27秒)用于切换不同实验条件并等待稳态检测信号(例如图3A2)。这样的等待时间远超过光催化合成和表征实际所需的时间(<4秒),极大地限制了不同反应条件的筛选通量。这也是当前流动化学系统在高通量筛选应用中的主要瓶颈之一。
为提高时间利用效率和筛选通量,作者提出了非稳态实验模式,代替传统的稳态模式,采用激光脉冲照射的方法,实现反应和未反应溶液的快速切换,从而产生一系列非稳态连续峰状信号(如图3A3所示)。在非稳态模式下,反应溶液切换的等待时间缩短至6秒,每个实验循环的平均时间缩短至8.5秒,筛选通量达到了每天10,000个反应条件(图3A3、A4和B)。
AI辅助吸光度预测
图 4
为解决非稳态信号的复杂性和挑战性,作者开发了AI辅助的吸光度预测方法,通过AI分析流动系统中的对流和分子扩散效应等影响因素,分离相邻反应溶液的非稳态数据,预测对应的稳态吸光度数据。为了获得准确的预测结果,作者尝试了10种回归模型,包括线性模型、决策树、神经网络和集成学习方法,用于处理大量非稳态吸光度数据并预测相应的稳态吸光度数据。模型的输入包括非稳态吸光度数据(每个非稳态信号峰记录40个吸光度数据点,见图3A4)以及系统的8个相关变量(流速、激光光强度、波长、底物浓度、光催化剂比例、光催化剂浓度、底物种类和光催化剂种类,见图4A)。
在12,000种反应条件的海量输出和目标数据基础上(图4B1),作者通过测试集的R²和RMSE值来评估这10种回归模型的表现。XGB回归模型表现最佳,其RMSE仅为0.0140,R²达到0.991(训练集和测试集比例为70:30,见图4B2)。作者进一步测试了XGB模型的预测性能,在仅使用2.5%数据作为训练集、97.5%数据作为测试集的情况下,仍然取得了较好的结果:用300个条件的数据预测剩余的11,700个条件时,RMSE为0.0550,R²为0.859(图4B3)。
这些结果表明,通过使用非稳态模式和AI辅助吸光度预测方法,解决了由于条件切换低效和耗时导致流动化学筛选系统筛选通量提升受限的长期挑战。采用非稳态实验模式后,光催化[2 + 2]环加成反应的筛选通量从每天2,600个条件提高到10,000个条件,达到了有机合成领域迄今为止的最高水平。如果采用传统间歇式光催化合成的手动模式完成相同工作量,需2000个有机合成器工作1天,或1个合成器工作2000天(假设每人每天完成5个条件筛选实验)。
作者使用10%的非稳态吸光度数据作为XGB模型的训练集来预测12,000个稳态吸光度数据,并进行了10折交叉验证。所有吸光度数据均转化为产物收率(图4C1)。热图中包含25个数据方块,每个方块代表一种底物和一种光催化剂在不同浓度、光催化剂比例、流速和激光光强度条件下的产物收率(图4C2)。这些数据表明光催化剂和底物种类对产物收率有显著影响。在四个变量中,流速和激光光强度对产物收率的影响尤为明显。
影响光催化[2 + 2]环加成反应的因素
图 5
在大多数实验中,随着激光光强度的增加,反应产物的收率显著提高,表明足够高的光强度是LCW光催化微反应器中实现高效光催化[2 + 2]环加成反应的必要前提。如图5A所示,反应产物的收率随着流速的降低而增加。较高的流速意味着更高的通量,但反应溶液在光催化微反应器中的停留时间(即光照时间)较短,导致较低的反应收率。本高效LCW光催化微反应器克服了通量与产物收率之间的矛盾,大幅提高了光催化反应速度,同时保持较高的产物收率和选择性。
图5B显示,不同底物的最佳光催化剂存在明显差异,这凸显了高通量筛选的重要性。对于S-1、S-4和S-5,Ir-1是最佳光催化剂,具有最高的产物收率,而对于S-2和S-3,分别是Ir-5和Ir-3。在光催化剂比例方面,通常光催化剂比例越高,反应速度越快,产物收率越高。为符合绿色化学的要求,在足够的光强度下,1 mol%的光催化剂是一种性价比最佳的选择。
在底物浓度方面,大多数情况下(图5C),产物收率与S-1、S-2、S-3、S-4和S-5的底物浓度(0.005 M至0.02 M范围内)之间没有明显的相关性,这一范围也是常规光催化反应实验中常用的。此现象的原因可能是本系统具有超高的催化能力,使产物收率在测试范围内的底物浓度变化时并未显示出显著差异。
在传统间歇式光催化系统中,如何在保证足够高的收率的前提下增加底物浓度一直是一个关键挑战,至今未得到很好解决。在本系统中,作者进一步增加了底物S-1的浓度,并使用50 μL/min的流速(即13.2秒的停留时间),结果显示当S-1的浓度从0.01 M增加到1.0 M时,产物收率略微下降,从91%降至85%;当S-1的浓度达到溶解极限2.0 M时,产物收率进一步降至67%(图5D)。与传统间歇系统相比,在0.01 M浓度下,底物浓度可提高至100倍而不会明显影响反应收率。作者进一步将2.0 M底物溶液的流速降低至15 μL/min(即44秒的停留时间),此时收率可达89%(图5E)。在高底物浓度下获得的高收率归因于本光催化微反应器中的高光强和快速传质效应。此突破性结果对于将光催化环加成反应应用于相关药物的工业生产具有重要意义。
AI辅助的跨种类预测
图 6
为进一步利用上述12,000组数据,并初步探索AI技术在智能化化学合成筛选中的潜力,作者使用XGB算法进行跨底物和跨光催化剂的产物收率AI辅助预测。在跨种类的产物收率预测中,模型的输入为反应条件(即8个反应变量),目标为实验获得的产物收率,输出为预测的产物收率(图6A)。不同于AI辅助的吸光度预测,跨种类预测需要详细的底物和光催化剂化学结构信息。底物和光催化剂的结构信息通过SMILES字符串输入并生成Mordred描述符,描述符的维度被压缩为2,以便与其他变量匹配并便于后续的可视化分析。模型输入包括10维数据,其中2维表示底物种类,2维表示光催化剂种类,剩余6维为其他变量。
作为典型的跨底物预测结果,作者使用S-1、S-2和S-4的数据作为训练集来预测S-5的收率,取得了MAE = 0.0698和RMSE = 0.0878的效果(图6B1)。对于S-5,5种光催化剂的不同影响被准确预测,Ir-1被预测为最佳光催化剂,与实验结果一致(图6B2)。当使用更小的训练集(仅包含S-1和S-2)时,预测S-4和S-5的结果也取得了MAE = 0.0772和RMSE = 0.0999的效果(图6B3, B4)。
在跨光催化剂预测中,使用Ir-1、Ir-2、Ir-4和Ir-5的数据预测Ir-3的收率,结果取得了MAE = 0.0364和RMSE = 0.0497,与实际产物收率相近(图6C1, C2)。当训练集进一步缩减至仅包含Ir-2、Ir-4和Ir-5时,对Ir-1和Ir-3的预测效果仍然良好,取得了MAE = 0.0667和RMSE = 0.0898(图6C3, C4)。这些令人惊讶的结果表明,利用AI算法进行有机合成反应的跨底物和跨光催化剂预测具有吸引力的潜力。
讨论
综上所述,作者开发了一种全自动高通量化学合成系统,用于光催化反应的大规模条件筛选和在线表征。该系统结合LCW、微流体处理和AI技术,实现了秒级的光催化环加成反应,每天筛选高达10,000个反应条件,数据质量高、耗时低、试剂用量少,显著优于传统系统。此平台为AI在化学合成中的应用提供了坚实的数据基础,并帮助研究人员更高效地探索化学空间。未来,可利用该系统生成的12,000组数据,结合AI算法,如贝叶斯优化法,进行新产物的快速优化。此外,系统有望扩展至其他光催化反应,甚至适用于光诱导材料或生物分子合成。
编译 | 于洲
审稿 | 王梓旭
参考资料
Lu J M, Wang H F, Guo Q H, et al. Roboticized AI-assisted microfluidic photocatalytic synthesis and screening up to 10,000 reactions per day[J]. Nature Communications, 2024, 15(1): 1-13.