引言
人工智能引导的闭环实验平台已成为优化分子设计目标函数的一种前景广阔的方法。在分子功能研究的前沿,化学知识的理解与人工智能指导的优化结果同等重要。虽然最近的研究取得了一些进展,但目前还无法利用闭环优化策略来获取全新的化学知识。2024年8月28日发表Nature上的一项工作提出了将闭环实验平台与基于物理知识的特征选择和可解释的监督学习相结合的闭环迁移(CLT)方法,该方法可以在优化目标函数的同时提供化学见解。作者利用CLT研究了影响被广泛用于广泛应用于有机电子器件中的光捕获供体-受体分子在溶液中光稳定性的因素。仅基于对理论化学空间的 1.5% 左右的分子进行自动化合成和实验表征,CLT揭示了一些基础性见解,包括三重态流形高能区的重要性。这个物理知识嵌入的光稳定性模型在多个实验测试集上进行了加强,并通过调整溶剂的三重态激发态能量以突破闭环光稳定性优化过程中观察到的瓶颈期。CLT在其他材料体系中的进一步应用证明了该方法的普适性。总体而言,研究结果表明将可解释的监督学习模型和基于物理知识的特征与闭环实验平台相结合,可以在优化分子设计的同时提供化学见解。
原文链接:
https://www.nature.com/articles/s41586-024-07892-1
一、 研究背景
人工智能引导的闭环实验平台在加速高维搜索空间中的科学发现方面显示出巨大的潜力,其中预测、实验和分析是自动化的,并通过一个正反馈回路连接[1]。在分子功能研究的前沿,化学知识的理解与人工智能指导的优化结果同等重要,并且这对于确保人工智能驱动的科学发现与传统人类科学发现过程的一致性至关重要。
光稳定性是一种在材料设计中广泛关注但缺乏明确设计原则的化学功能[2,3,4]。化学知识的不足限制了有机光伏、染料聚合物、太阳能燃料、光合作用系统、电致变色材料、有机发光二极管、光活性涂料和荧光染料等领域的进展。以往对分子光稳定性的研究主要集中在最低激发三重态的能量学及其与键解离能的关系,但这些研究仅限于特定的化学类别。近期研究虽然揭示了某些化学类别与高能三重态之间的关联,但仍然缺乏普遍的设计原则[5]。传统研究方法难以获得光稳定性的设计原理[6],而闭环范式有望推动这一领域的突破。要实现这一目标,需要开发从闭环策略中提取知识的新方法,以便人工智能能够生成可解释的假设,进而加深对光稳定性及其分子功能的基本理解。
二、 研究方法
本文提出了一种三段式的闭环迁移(CLT)方法(图1),旨在在广泛的化学空间中优化分子功能的同时揭示化学知识。
第一阶段:机器学习 (ML) 驱动的假设生成。通过贝叶斯优化(BO)提升光稳定性,直至性能指标达到瓶颈,并使用基于物理的分子特征生成假设。
第二阶段:假设检验。实验验证 ML 生成的假设,以验证新发现的化学知识。
第三阶段:物理知识驱动的科学发现。将新发现的基于物理的知识应用于化学设计领域,以突破优化瓶颈。
图1:CLT范式。第一阶段(绿色轨道)描述了 BO 驱动的多轮合成与表征过程,同时利用基于物理特征的可解释 ML 模型生成假设。第二阶段(橙色轨道)通过实验测试这些假设,如果验证成功,则形成新知识。第三阶段(红色轨道)将这些新知识用于进一步的分子优化。
人工智能引导的闭环实验构建了一个监督学习模型,该模型不仅能够识别出高度光稳定的化合物,还通过物理信息特征选择阐明了分子光稳定性的设计规则。该方法的核心是 BO 驱动的闭环实验程序,借助自动化模块实现小分子的快速合成和表征,在不同化学空间中优化光稳定性(第一阶段)。闭环策略与基于物理知识的建模和特征选择相结合,意外发现了分子光稳定性与三重态激发能级高能部分的密切相关性,随后通过实验测试集(第二阶段)验证了这一假设。该成果是在没有预先知识的情况下通过 BO 推荐的分子实现的。此外,发现了一种物理驱动的发现机制,其中通过溶剂的 Dexter 三重态能量转移途径合理提升了分子光稳定性(第三阶段)。
CLT 是一种人机协同的方法,在闭环流程开始时利用领域专家知识,并通过基于目标函数的稳定停止标准监控每轮优化,通过动态生成的可解释 ML 模型识别基于物理的假设。当满足这些标准时,构建实验测试集以评估假设的真实性。如果验证成功,这些新发现的化学知识将在第一阶段播下突破优化停滞期的种子。
本研究重点揭示了在整个化学空间中影响光稳定性的基本决定因素。在第一阶段,贝叶斯优化被整合到闭环工艺中,结合自动化模块化小分子合成和多维表征(如基于溶液的紫外-可见光吸收和太阳光照池中的光降解)与动态ML建模及分子特征生成并行进行。该阶段持续到光稳定性达到瓶颈期,并利用基于物理特征的可解释ML模型生成假设,这些假设在第二阶段得到验证。本研究专注于溶液状态下共轭分子的光稳定性,有意避免与薄膜测试相关的复杂因素(如加工、薄膜形态和界面效应)的干扰。
三、 研究结果
3.1 化学空间定义
为了启动 CLT 过程,研究首先定义了闭环程序的化学空间,选择了在先进光吸收共轭材料中广泛应用的供体–桥–受体结构作为分子设计的框架。这一结构能够轻松模块化为功能化构件,适合自动的化学合成。整个化学空间包括3种供体、7种π桥和100种受体块,考虑到对称性和缺少π桥的分子,共产生了2,200种潜在分子。为了促进AI驱动的BO,研究使用密度泛函理论(DFT)和RDKit[7]计算结构和电子描述符,并将这些描述符拼接以特征化化学空间。
3.2 第一阶段的闭环优化
如图2所示,闭环优化的流程展示了在人工智能驱动的贝叶斯优化(BO)指导下,CLT第一阶段的主要优化步骤,以及溶液表征过程和分子自动合成设备的图像。CLT流程的关键在于初始阶段注重多样性,并在后续轮次中实现探索与开发的平衡。
图2:闭环优化的主要步骤以及表征过程和分子合成设备的图像
在五轮BO驱动的闭环实验中,共自动合成了30种新的供体–桥–受体光吸收分子,直至实验中光稳定性达到饱和。第一轮分子的选择基于多样性驱动,产生了10种光稳定性从低到中的分子。第2到第4轮通过BO策略探索了现有和新的功能化学空间,发现了一些在T80(光谱衰减时间)和光谱重叠极端值上表现突出的分子,以及最大化它们组合特性的分子。到闭环实验的第五轮结束时,前五种分子的平均光稳定性趋于稳定,标志着BO指导的闭环过程的完成。值得注意的是,通过采样2200种潜在分子中不到1.5%的化学空间,前五种分子的平均光稳定性提高了500%以上。
3.3 第一阶段的假设生成
第一阶段由机器学习(ML)驱动的假设生成的主要结果如图3所示。在每轮BO实验后,结合物理特征训练了可解释的ML模型,以生成分子特征与光稳定性之间的关联假设。为生成基于物理知识的特征,对每轮闭环实验后合成的供体–桥–受体和供体–受体分子进行了全分子、时间依赖的DFT计算[8],并提取了114个物理和化学分子特征。这些特征随后被整合到支持向量机回归(SVR)模型中,用于在每轮BO之后预测实验T80值。由于T80与光谱重叠呈反向关系,SVR模型通过逐步特征选择独立预测T80值,而光谱重叠则通过线性回归模型进行预测,利用时间依赖的DFT预测吸收光谱、太阳模拟器发射光谱及溶剂相互作用引起的拟合常数能量位移。在第五轮实验后,基于在2.6、2.8、3.8、3.9、4.0和4.6 eV的三重态状态密度(TDOS)的T80模型实现了R² = 0.86的留一交叉验证(LOOCV)预测准确性。出乎意料的是,研究结果显示,相对于传统的光稳定性T1能量描述符,高能量的TDOS在整个化学空间中成为了分子光稳定性的主要决定因素。这一见解在第四轮BO后首次出现,并在第五轮后得到确认。由于ML模型的收敛与分子光稳定性的停滞期相吻合,这标志着BO实验的结束。
图3:第一阶段 ML 驱动的假设生成。(a)每轮闭环实验中由BO生成的数据,右侧为具有代表性的高光稳定性分子。(b)每轮闭环实验的累计光稳定性表现,Top 5代表所有轮次中光稳定性排名前五分子的平均值。(c)基于物理知识的ML模型假设,通过每个分子的TDOS预测T80,并与四个相关的三重态TDOS能量进行比较。该模型结合光谱重叠标准,用于选择前七种和后七种分子,以在第二阶段进行假设检验。
3.4 第二阶段的假设验证
第二阶段的假设验证结果如图4所示。鉴于监督学习模型在数据量较少的情况下可能产生虚假相关性,CLT实验的第二阶段构建了一个独立的实验测试集,以验证高能三重态是否影响分子的光稳定性。研究采用了最佳T80 SVR模型,该模型基于六个TDOS值进行训练,用于预测2200种分子的T80值。随后,将每种分子的预测T80值与其预测光谱重叠值相乘,得出所有2200种分子的预测光稳定性。基于这些预测,形成了两组分子:一组表现优异(前七种),另一组表现较差(后七种),作为实验验证集。这两组分子的统计特征包括:(1)在5.5%–9.0%光谱重叠范围内,平均光谱重叠值相同(突出了T80对光稳定性的影响),(2)预测T80的标准差相似(允许更广泛的化学多样性)。
随后,研究合成并表征了这两组分子的光物理性质。表征结果显示,这两组分子之间的光稳定性差异具有统计学显著性,并符合预测方向(前七种分子的平均T80×光谱重叠为165,而后七种为97,P = 0.026,Spearman R² = 0.54),验证了基于CLT的假设,即三重态流形是分子光稳定性的关键描述符。有趣的是,后七种中的一个异常值表现出意外的高光稳定性;进一步分析表明,这种基于醌的分子(常见于三重态猝灭剂)在保持低结构复杂性的同时展现了高TDOS,这一特征在前五轮闭环实验合成的30种分子中未曾见过。
图4:第二阶段的假设验证。(a)实验验证测试集中分子的光稳定性、其平均值及标准差(以误差条表示),以及来自Mann-Whitney检验的P值(显示在中间)。这些结果显示了两组分子之间性能差异的统计学显著性,文中已对异常高表现的分子进行了描述。(b)所有两特征SVR的LOOV结果,展示了基于两特征组合对整个44种分子数据集的T80预测。E代表能量,OS代表振子强度,S代表单重态能量,T代表三重态能量。(c)比较了包含TDOS(4.0 eV)或T1能量的所有可能四特征模型在预测44种分子数据集的T80时的预测强度。(d)基于CLT第二阶段假设得出的物理机制,展示了如何通过降低4.0 eV的TDOS来减少体系内交叉(ISC)后Dexter能量转移的频率,从而提高五噻吩-C12(DB_11_A_002)的光稳定性。S0为单重态基态,S1为最低能量单重态激发态。
3.5 第三阶段的物理知识驱动的知识发现
为将这一新发现的化学知识应用于光稳定性提升,第三阶段的研究测试了三种不同TDOS(4.0 eV)的分子,分别在甲苯(化学稳定性较高,T1能量相当于氯苯)和正己烷(T1能量超过7 eV,无法进行Dexter三重态能量转移)中进行实验,旨在消除溶剂对Dexter三重态能量转移的潜在影响。在甲苯中,所有分子的光稳定性提升了90-150%,而在正己烷中,光稳定性额外提高了10-100%,其中高TDOS(4.0 eV)的分子表现出更显著的改善。当在溶剂中加入三重态猝灭剂后,光稳定性进一步提高:(1)在氯苯中提升了20%,以及通过六烷基连接子将三重态猝灭剂直接化学键合到最佳分子上;(2)在氯苯中,由于假设的双Dexter转移机制,光稳定性降低了75%。这些结果与提出的溶剂敏化机制完全一致,并展示了多种在第三阶段中假设驱动的策略,成功提升了光吸收分子的光稳定性,超越了初始化学空间的限制。
四. 总结
本研究提出了一种闭环实验方法,通过基于物理特征的可解释ML模型,在优化分子光稳定性的同时揭示其基本化学原理。通过人机协作和人工智能的引导,该方法高效地产生了仅由30个分子组成的假设集。这一成果源于人工智能指导的探索与开发的平衡性与基于物理的可解释模型的结合。研究表明,CLT 方法在其他前沿应用和研究领域具有广泛适用性,尤其是在数据稀缺且难以通过先验预测的多维分子特性研究中。作者认为,CLT 将作为一种指导方法,结合BO的优势与基于物理知识的洞察力,推动假设驱动的科学发现过程。
参考文献:
[1] Burger, B. et al. A mobile robotic chemist. Nature 583, 237–241 (2020).
[2] Mateker, W. R. & McGehee, M. D. Progress in understanding degradation mechanisms and improving stability in organic photovoltaics. Adv. Mater. 29, 1603940 (2017).
[3] Liu, Z.-X. et al. Molecular insights of exceptionally photostable electron acceptors for organic photovoltaics. Nat. Commun. 12, 3049 (2021).
[4] Bekri, N., Asmare, E., Mammo, W. & Tegegne, N. A. Photostability of benzodithiophene based polymer: effect of PC60BM and intermolecular interactions. Mater. Res. Express 9, 055502 (2022).
[5] Mukherjee, S., Fedorov, D. A. & Varganov, S. A. Modeling spin-crossover dynamics. Annu. Rev. Phys. Chem. 72, 515–540 (2021).
[6] Groeneveld, I., Kanelli, M., Ariese, F. & van Bommel, M. R. Parameters that affect the photodegradation of dyes and pigments in solution and on substrate – an overview. Dyes Pigments 210, 110999 (2023).
[7] Landrum, G. RDKit: open-source cheminformatics software, version 2021_09_01 (Q3 2021) (accessed 12 August 2024); www.rdkit.org.
[8] Refaely-Abramson, S., Baer, R. & Kronik, L. Fundamental and excitation gaps in molecules of relevance for organic photovoltaics from an optimally tuned range-separated hybrid functional. Phys. Rev. B 84, 075144 (2011).