——研究背景——
多组分反应(Multicomponent Reactions,简称MCRs)在有机化学中占据着重要地位,因为它们能够在一个步骤中将多个简单的起始材料转化为复杂的分子结构。这不仅大大提高了合成效率,还能显著减少反应步骤和原子损失,从而提升整体的步骤经济性和原子经济性。然而传统的MCRs主要是在尝试中发现的,数量有限,且大多数MCRs是在已有反应模式的基础上进行组合和扩展,并不算全新的反应。
在这个人工智能与化学相互融合的时代,把目光投向多组分反应并不是一种偶然。逆合成预测是有机合成中一座必须要跨过的山峰,而此前Bartosz Grzybowski团队开发的Synthia软件在逆合成问题上取得了非常好的表现。解决了逆合成问题之后,接下来一个自然的问题就是为正向反应进行预测,而开源数据集里的单步正向反应大多数时候都很简单,剩下的最困难的则是重排反应,多组分反应等等。碳正离子重排反应在半年前已经由该课题组发表在Nature上,本文介绍的则是他们利用计算机辅助计算化学反应网络,从而发现新型多组分反应的工作Systematic, computational discovery of multicomponent and one-pot reactions,于2024年11月底发表在Nature communications上
——方法与结果——
任何预测都需要依赖于数据,在此前逆合成的预测中,反应模板数据提取有人工编码和自动抽取两种主要的工作模式,Synthia属于前者,ASKCOS一类的平台则属于后者。在正向反应的预测中,甚至没有大规模的反应模板库可以依赖,于是作者首先从已有的反应数据中提取了大约8000种常见的机理转化步骤。这些步骤被编码为SMARTS模板,涵盖了各种酸碱催化、取代、消除、加成、重排和周环反应,还包括了一些由过渡金属催化的基元反应步骤。每个机理转化规则都附带了反应条件,如酸碱性、溶剂类别、温度范围和水耐受性等,以确保后续步骤的兼容性。
为了提高MCR反应发现的成功率,作者从ZINC数据库中筛选出约2400种简单的市售分子作为底物集合。这些分子最多包含15个重原子,且具有一到两个反应性基团(FG)。对于给定的一组底物,作者应用机理规则库生成第一代产品和副产品(G1),然后迭代反应生成后续代数(G2、G3等),迅速扩展出庞大的机理步骤网络。接下来,在反应网络中,算法会追踪每个中性分子的反应路径,并根据条件匹配筛选出适合作为MCR的候选序列。
需要注意的是,这种化学反应网络看上去不难生成,然而研究其中的冲突和先后次序才是真正决定其质量的关键。在庞大的反应物节点中进行搜索是一件效率低下且缺乏化学意义的事情,为了得到真正有价值的反应序列,作者额外引入了许多约束,以下是一些示例。
条件匹配:算法会检查反应序列中所有机理步骤的反应条件(如酸碱性、溶剂类别、温度范围等)相互兼容,不能将需要氧化条件和还原条件的步骤结合起来,不能反复在高温/低温或酸性/碱性之间切换;
动力学限制:通过对副反应步骤的速率进行初步分类(非常慢、慢、快、非常快、不确定),算法会检查副反应步骤的反应速率,确保主反应路径中的步骤不会被副反应步骤“劫持”。比如胺对大位阻Michael受体的加成是“非常慢”的反应,而互变异构成芳环的过程则被标记为“非常快”,这样可以确保主反应路径的清洁性和高产率。
不相容基团的排除:通过明确定义不相容基团列表,算法能够在生成反应路径时自动排除那些可能导致副反应或反应混合物复杂化的步骤,从而保持反应的高选择性和效率。
图1 a 从环己烯酮、三甲基硅丙炔、正丁基锂和叠氮三氟甲磺酸盐底物扩展至第4代(G4)的一级网络截图。网络包含所有在不同条件下相互兼容的序列,节点大小与每步复杂性增加ΔC/n成正比,绿色内部节点表示文献未描述的骨架;b从a图中蓝色路径的分析,包括各种副产物及其进一步反应,较大的橙色节点对应实验验证过程中ESI-MS观察到的峰;c蓝色和橙色一锅反应路径的总体方案及中间体和反应条件,亲核位和亲电位分别以黄色和绿色标记;d根据通用方案合成的特定衍生物1a、1b和2a–2g及其分离产率。
这些都是具有明确化学意义的反应序列限制,也让我们看到了一个当代反应预测专家系统的构筑过程。在得到候选的反应路径之后,算法会进行更深入的动力学分析,从而估算反应的产率。由于绝大多数机理步骤的实验动力学速率常数尚不可得,作者开发了一种基于自由能线性关系的物理有机模型,并使用Mayr的亲核性指数来近似机理步骤的速率常数,这种产率估算方法记录在另一篇同时发表的文章Estimation of multicomponent reactions’ yields from networks of mechanistic steps当中。
图2(原文图5) a用于合成芳基化间二烯的多组分反应(MCR)方案。未分离的中间体用括号表示,分离产物用橙色框住。使用MgBr·Et₂O代替Pd催化剂时,从取代的环己酮(R=烯丙基)和酚类底物得到双环内酯7a;b从a图路径到芳基化二烯的二级网络视图,碘酚副产品在Heck偶联中的重用(氧化加成步骤用橙色标记)用蓝色弧线标出;c有机催化剂硫醇催化的sp²-叠氮化方案。未分离的中间体用括号表示,分离产物8b用橙色框住;d从c图路径的三级网络视图。硫醇作为有机催化剂的重用用蓝色弧线标出;e使用不同的α-溴烯酮从c图MCR制备的额外烯丙基叠氮化物8c–8f。
文中给出了大量实验验证的例子,由于篇幅所限,我们这里选取一组作为介绍。上图中的两个反应都是在反应过程中重新利用了底物的反应,在a和b所示的序列中,酚类底物首先用于形成活化酯,然后与2-烯丙基环己酮反应,生成螺环β-内酯,加入MgBr₂后,扩环重排生成取代的六氢-2(3H)-苯并呋喃酮7a,产率为31%(预测为48%)。此类结构存在于各种天然产物和生物活性化合物中。然而,当使用环己酮(而非2-烯丙基环己酮)作为底物,并增加反应网络的深度时,碘酚在螺环化步骤中作为副产物再生,在产物脱羧后被重用作为Heck反应中的底物生成7b,产率高达35%。
图中c–e则展示了另一个有机催化反应。通过最初的一组底物(α-溴-α,β-不饱和酯、甲基硫代乙醇酸甲酯和叠氮化钠),算法建议了一种多组分反应路径,能够生成类似于某些GABA受体抑制剂的二氢噻吩羧酸酯骨架8a。算法还指出,α-叠氮酯的C-H pKa应高于α-硫酯的pKa——也就是说,前者位置的去质子化应被优先考虑,并可能导致快速消除(c中的绿色箭头,d中的蓝色弧线连接)而不是环化。此消除反应形成一个反馈环,重新生成硫醇(d中为粉色),有效地作为有机催化剂,维持叠氮在烯基α-位置的取代。这在实验中得到了验证,原始反应生成8b在温和条件下的产率为67%(算法预测为47%)。
——讨论——
本文通过开发一种基于机理转化规则和物理有机模型的计算机辅助设计方法,成功实现了多组分反应的自动化设计与发现。这一方法不仅系统性地扩展了MCR的反应空间,还通过引入额外的规则限制和优化策略,确保了反应序列的高兼容性和高产率。实验验证部分进一步证明了算法的有效性和预测准确性,多个代表性MCR序列在实验中取得了预期的产率和产物复杂性。
此外需要强调的是,本文(以及此课题组的一系列反应预测工作)有着浓厚的化学背景特色,与其他在已知数据集上进行预测的工作思路十分不同。在化学+AI这个语境下,化学问题既需要吸纳数据科学的研究思路,又不能完全变成一个数据科学的问题,在给定的数据集上提升模型与算法固然是一种contribution,而还有许多真正的science是隐藏在给定的数据集之下的。想象一下,如果自诩为药物开发研究人员,面对躺在医院里的患者,却只能为他们提升某个数据集上1%的精确率(甚至还伴随着其他性能的下降),大概也是会于心有愧的吧。当然,做这样更“化学”的工作所需要付出的心血/labor work/决心/成本都会更多,但是为了直面那些需要被解决的科学问题,在有条件的情况下,这一切也是值得的。
参考文献
Roszak, R., Gadina, L., Wołos, A. et al. Systematic, computational discovery of multicomponent and one-pot reactions. Nat Commun 15, 10285 (2024).