《Angew. Chem. Int. Ed.》非血红素铁酶的计算稳定化使新功能的有效进化成为可能
文摘
科学
2024-10-23 20:47
江苏
2024年10月,来自University of Washington的Brianne R. King等人在Angewandte Chemie International Edition上发表了一篇题为Computational Stabilization of a Non-heme Iron Enzyme Enables Efficient Evolution of New Function的研究性论文。
通讯单位:University of Washington, Chemistry, 36 Bagley Hall, Department of Chemistry, University of Washington, 98195 Seattle, UNITED STATES OF AMERICA
Abstract
用于酶设计的深度学习工具正在迅速兴起,迫切需要评估它们在工程工作流程中的有效性。在这里展示了基于深度学习的工具ProteinMPNN可用于重新设计Fe(II)/αKG超家族酶,以获得更高的稳定性,溶解度和表达,同时保留天然活性和工业相关的非天然功能。该超家族具有多种催化功能,为合成和工业生产提供了丰富的新的生物催化剂来源。通过系统比较一个非天然的、远程的C(sp3)-H羟基化反应的定向进化轨迹,我们证明了稳定的重新设计可以比野生型酶更有效地进化。经过三轮定向进化,我们从野生型亲本中获得了6倍的活性提高,从稳定的突变体中获得了80倍的活性提高。为了生成初始稳定的变体,我们识别了多个结构和序列约束以保留催化功能。我们应用这些标准来产生第二个Fe(II)/αKG酶的稳定的、有催化活性的变体,表明该方法可以推广到Fe(II)/αKG超家族的其他成员。Protein MPNN具有良好的用户友好性和广泛的可访问性,我们的结果为基于深度学习的蛋白质稳定工具在新型生物催化剂定向进化工作流程中的日常实施提供了一个框架。
定向进化是产生用于新化学转化的酶的有力方法。然而,催化官能团通常对蛋白质结构具有不稳定作用,改变新反应的活性位点基团可能导致不稳定的无功能蛋白质。从稳定的变种开始定向进化运动可能是克服这个问题的有效方法。通常,定向进化的起点是通过筛选候选酶库获得所需的混杂活性。如果鉴定出具有类似催化性能的热稳定同源物,则可以将其用作所需功能进化的起点。或者,有多种策略可以使用定向进化、祖先重建、蛋白质重组、或计算工程来产生稳定的变异。这些方法往往需要大量的时间和资源,因此需要一些简单易行的替代方法。非血红素铁(II)α-酮戊二酸依赖加氧酶(Fe(II)/αKG)超家族是一类重要的酶,其稳定性将是有用的。这些酶已成为潜在的新型生物催化剂的丰富来源。Fe(II)/αKG酶可以通过保守的自由基介导机制在小分子底物上进行远端、不对称的C(sp3)-H氧化官能化反应。这些转变具有综合挑战性。和一种生物催化替代品可以使简单的构建块方便和可持续地多样化,从而产生一系列复杂的多功能化合物。该酶家族的优点包括由于多个开放的配位位点,在含铁活性位点具有高度的化学柔韧性,利用良性分子氧作为氧化剂,并使用便宜且容易获得的辅助因子αKG。然而,Fe(II)/αKGs相对不稳定,这可能限制了它们在有机合成和工业过程中的实际应用。最近在工业规模的药物生物合成途径中使用Fe(II)/αKG突出了该家族用于生物催化的潜在优点和缺点。利用工程化的Fe(II)/αKG催化对映选择性的C(sp3)-H羟基化反应,制备抗癌药物贝珠替凡的关键中间体。该反应可以在千克规模上进行,并且绕过了预先存在的化学合成路线的五个步骤。值得注意的是,这一努力需要一个广泛的,大规模的定向进化运动。此外,早期几轮筛选产生了稳定的突变,然后在后期几轮筛选中可以获得营业额的显着改善。这些发现突出了Fe(II)/αKG在实际工业规模的绿色化学中的潜在效用,以及酶稳定性在新功能进化中的重要性。最近深度学习在蛋白质设计中的应用为稳定蛋白质支架提供了新的和相对直接的方法,并且将这些方法应用于定向进化有广泛的兴趣。在这里,我们证明了基于深度学习的工具ProteinMPNN能够更有效地优化Fe(II)/αKG家族成员中与合成相关的非天然C(sp3)-H羟基化反应。关键的一步是确定适当的设计标准,以防止对催化功能重要的残基进行修饰,其中包括活性位点和远程位置。通过稳定的位点饱和诱变起始点,我们观察到与野生型亲本酶的相同突变相比,非天然活性的显著增加。这种对野生型亲本和稳定型再设计的系统比较,为现场评估这些工具的有效性提供了一个关键的基准。我们建议,这种设计的稳定方法应该在未来的Fe(II)/αKG超家族的定向进化活动中常规使用,并且可能在其他广泛的酶家族中有效。最近有许多报道应用机器学习工具来设计变体库或选择残基进行功能优化,并且稳定的支架可以很容易地与这些方法相结合,以进行定制工程。
1.Fe(II)/αKGs对游离羧酸底物的C-H羟基化具有混杂活性
在Fe(II)/αKG酶超家族中,游离氨基酸羟化酶是工程新反应的有力的候选者。由于Fe(II)/αKG氨基酸羟化酶已经具有与氨基酸中的胺和羧酸官能团相互作用的催化机制,我们假设它们可能对仅含胺或仅含羧酸的底物具有混杂活性。这些分子是多步合成中早期氧化官能化反应的重要原料。传统的过渡金属催化很难实现C(sp3)-H羟基化反应的选择性,而生物催化过程可以提供更好的区域选择性和立体选择性。最初筛选了12个Fe(II)/αKG氨基酸羟化酶,以确定它们对游离羧酸的羟化能力(图1)。选择这些酶是因为它们对游离氨基酸的羟化能力以及它们易于表达、处理和纯化。选择了一组候选数据,如图1。选择了一组在结构上类似于天然氨基酸底物L-哌啶酸(L-Pip)、L-脯氨酸(LPro)和L-亮氨酸(L-Leu)的候选羧酸盐底物(1-3)。我们采用全细胞生物催化和液相色谱-质谱(LC-MS)检测产物。我们证实,所有12个酶面板成员都可以检测到天然氨基酸反应产物。然后,我们筛选了与羧酸盐的混交活性,并观察到一种酶tP4H对底物1具有可检测的活性(图1)。与10 μM酶孵育24小时后,该底物的总转换数(TTN)约为5,比相应天然氨基酸底物的TTN低约130倍。tP4H与底物1反应得到反式产物,其d.r.为4:1。tP4H仅与其天然底物L-Pip产生反式产物,表明游离羧酸盐底物1和天然底物在酶活性位点相对于铁中心的位置相似。为了证实观察到的非天然活性是由tP 4 H而不是污染酶引起的,我们突变了参与Fe(II)、底物或αKG结合的活性位点残基。由于tP4H没有实验结构,我们使用Alphafold2模型并与高度同源的Fe(II)/αKG酶GriE的结构进行比较,确定了这些活性位点残基。在所有情况下,活性位点突变导致非天然底物1的活性降低(图2)。还观察到,随着野生型tP4H浓度的增加,产物产率增加(图2)。总产率仍然相对较低,这对于混杂的非天然反应是典型的。总之,这些结果证实了tP4H是非天然反应的原因。图1. 使用一组Fe(II)/αKG氨基酸羟化酶和游离酸底物类似物进行初始全细胞反应筛选数据。每种酶对所有三种底物进行筛选。白色面板表示产物不可检测(未注明),除了tP4H与底物1的反应外,所有反应都是如此。反应在50 mL表达培养的全细胞中进行,全细胞体积为表达体积的1/20。在MOPS (pH 7.0, 50 mM)中,用20 mM底物、60 mM αKG(作为二钠盐)、1 mM硫酸亚铁铵和1 mM l -抗坏血酸进行反应。
图2. 游离酸对tP4H活性的验证(A) tP4H与底物1反应生成反式4-羟基环己烷羧酸4。(B) 1与tP4H变异体反应,以及与Fe(II)和牛血清白蛋白(BSA)阴性对照反应后的4产率。在不添加酶的情况下进行fe1mm对照。纯化酶的浓度在10-40 μM之间变化,在MES缓冲液(50 mM, pH 6.8)中加入20 mM 1,40 mM αKG, 1 mM硫酸亚铁铵和1 mM l -抗坏血酸。在25℃下反应24小时,用LC-MS定量。(C)显示关键活性位点残基的tP4H结构模型。Fe(II)、αKG和L-Pip在Chimera中建模。
为了提高tP4H对底物1的活性,我们开始了定向进化运动,但由于酶稳定性差,很快就遇到了限制。首先,发现由于酶不溶性,tP4H变异体难以表达和纯化。此外,发现亲本野生型tP4H酶随着时间的推移而失去活性(图3)。这些观察结果与之前关于tP4H行为的报道一致。在定向进化过程中,酶的稳定性有可能得到改善,无论是通过在每一轮中选择更稳定的变体,还是偶然的。例如,与野生型相比,进化后的Fe(II)/αKG PsEFE的稳定性略有提高,尽管研究人员没有选择提高稳定性。在另一种情况下,Fe(II)/αKG UbP4H在最初的筛选轮使酶不稳定后,成功地筛选了Fe(II)/αKG UbP4H,以提高其稳定性。然而,从一种高度稳定的酶开始进行定向进化的好处是公认的。一个稳定的蛋白质支架可以潜在地增加活性的、正确折叠的蛋白质的数量,或者为其他不折叠的突变体提供通道。图3. 野生型tP4H和ProteinMPNN设计的稳定性和活性R2_11。(A) ProteinMPNN工作流程流程图,成功地产生了保持催化活性的稳定变体。有关每个计算步骤的详细指导原则,请参阅支持信息。(B) tP4H结构(Alphafold2模型)用颜色编码以显示设计过程中固定的位点(蓝色,补充电子表格- ProteinMPNN sequences_metrics)和在ProteinMPNN R2_11重新设计中突变的位点(橘红色)。在R2_11版本中,黑色的站点既没有修复也没有重新设计。第一壳活性位点残基的侧链(表S4)用蓝色表示。(C)野生型tP4H和R2_11的温度依赖性CD谱。利用GraphPad Prism的玻尔兹曼s型函数计算Tm值。(D)野生型tP4H活性稳定性分析。(E) R2_11的活性稳定性分析。对于D和E,使用补充信息中描述的PBP测定相对活性。三个重复的数值为平均值±SD。
我们使用基于深度学习的工具ProteinMPNN,通过序列设计生成稳定的tP4H变体。我们首先使用ProteinMPNN重新设计了整个tP4H序列。不出所料,发现预测的序列消除了关键活性位点残基,这可能会破坏酶的活性。这种行为与催化活性位点残基的不稳定倾向是一致的。为了保持催化功能在所有后续设计中固定了活性位点残基。根据的Alphafold2模型以及与L-Leu结合的密切相关的酶GriE的结构比较,将活性位点定义为与氨基酸底物、Fe(II)或αKG辅因子接触的任何残基。由于整个蛋白质中的其他残基也可能很重要,还使用序列保守或距离度量测试了另外四种策略。为了确定重要的保守残基,构建了一个多序列比对(MSA),并选择了至少35%、70%或95%的序列中保守的tP4H残基。或者,将任何带有侧链的残基固定在10 Å球体内,距离底物结合袋。利用这5个起始点(固定活性位点,活性位点+ 35%/70%/95%保守,活性位点+ 10 Å球体),我们每种方法生成48个ProteinMPNN序列,每种方法选择4个(共20个)用于活性筛选。根据计算出的与输入tP4H结构匹配的最高Cα-RMSD值进行选择。我们只获得了一个具有可检测活性的变体,其催化效率比野生型tP4H低约35倍。该变异是从>35%保守残基固定的序列中设计出来的,这比>70%或>95%的截止点约束了更多的残基。这一结果表明,即使是弱保守残基也可能需要固定以保持活性。对具有可检测活性的变异的进一步分析显示,αKG辅助因子的KM增加了约2倍,kcat降低了约3倍。在重新设计的序列中发现了αKG附近的两个残基,L228和V230。这些序列的改变可能以牺牲辅因子的结合和定位为代价促进了稳定性的提高,从而导致活性的降低。值得注意的是,在固定活性位点+ 10 Å球体生成的设计中,L228和V230是固定的,但这些设计都没有可检测到的活性。综上所述,这些发现表明,将需要额外的标准来确定关键的功能残基,应该在序列重新设计之前固定。为了产生维持催化活性的稳定变体,进行了另一组ProteinMPNN序列重新设计,采用三种新的策略来固定重要的残基。在每种情况下,固定了上述定义的活性位点加上残基L228和V230。对于第一种方法,将所有残基固定在35%的MSA中保守的tP4H位置。选择这个截止点是因为它是我们初始集合中唯一一个产生具有任何可检测活性的稳定变体的截止点,我们期望修复L228或V230可以进一步改进这些设计。对于第二和第三种方法,无论野生型tP4H残基是否是最高度保守的氨基酸,都确定了高度保守的位置。这些策略基于先前的工作,表明需要更严格的约束来维持ProteinMPNN重新设计的活性。每个tP4H氨基酸的位置根据MSA中最常见氨基酸的保存率进行排序,固定前50%或70%。这些位置被固定为野生型tP4H残基,即使它们与MSA中最常见的氨基酸不同。加上固定的活性位点残基,这些标准在整个272个氨基酸蛋白中得到148/272(54%)或198/272(73%)固定残基。使用这三种策略,从总共96个序列的48个设计中选择了32个设计。在这些设计中,69个通过SDS-PAGE表达了可检测的蛋白质量,11个具有高于天然底物背景的可检测活性。对于活性酶,我们进一步测量了天然L-Pip底物和混杂羧酸底物的热稳定性和动力学参数。L-Pip kcat最高的变异是R2_11, kcat为0.10 s-1,而野生型的kcat为0.14 s-1。R2_11是根据固定前70%保守残基的方法设计的,与野生型序列相比,R2_11有44个设计突变(图3)。与野生型tP4H相比,R2_11的非天然羧酸羟化酶活性略慢(约3倍),通过温度依赖的圆二色性(CD)光谱测量,R2_11的热熔化温度(Tm)提高了11°C(图3)。R2_11在几天的时间尺度内保持活性,与野生型tP4H相比,这是一个很大的改进(图3)。混杂活性的适度下降并不令人惊讶,因为ProteinMPNN不考虑催化活性,也没有期望全局蛋白质稳定会维持或优化非天然反应。在成功鉴定了ProteinMPNN在维持催化功能的同时介导tP4H稳定的序列约束后,评估了同样的方法是否对第二种Fe(II)/αKG氨基酸羟化酶GriE有效。这种酶可以从稳定中受益,因为尽管它表达良好且可溶,但在室温下超过24小时就会失去活性。与tP4H一样,我们固定了排名前70%的保守残基以及从GriE晶体结构中鉴定的催化残基。我们获得了32个重新设计的序列,发现29个以可溶性酶表达,27个与GriE天然底物L-Leu有活性。基于稳定性和动力学参数的顶部设计GM_A9显示出相似的催化效率(kcat/KM),与野生型GriE相比,kcat降低了约4倍。其中一种设计GM_A11的L-Leu初始速率比GM_A9快2倍,但由于温度相关CD的影响,该设计不稳定,因此未被选作进一步分析。考虑到稳定性的增加会降低构象柔韧性并对催化功能产生负面影响,kcat的降低并不令人惊讶。接下来,对稳定的GriE重新设计的GM_A9进行底物混杂筛选。此前,野生型GriE已被证明可以接受底物链长度增加的底物,但对C3取代的底物的活性较弱。我们选择了两种先前鉴定的非天然底物进行测试:L-去甲亮氨酸(L-Nle)和L-异亮氨酸(L-alloo-Ile)。选择L-Nle作为与L-Leu相比链长增加的代表性底物。选择L-alloo-Ile是因为它在C3上有一个甲基取代。L-异亮氨酸也有一个C3甲基,但未被野生型GriE羟基化,因此未纳入本分析。我们观察到L-Nle可检测活性,但L-alloo-Ile未检测到活性。与野生型GriE相似,GM_A9变体对延伸链L-Nle底物的偏好高于C3取代的L-alloo-Ile底物。GM-A9与L-Leu和L-Nle的反应速度分别比野生型GriE慢11倍和4倍。这些结果表明,我们的ProteinMPNN协议可以很容易地应用于其他Fe(II)/αKG酶,以稳定蛋白质,同时保持合成相关的催化功能,这可以为定向进化的进一步优化奠定基础。4.野生型tP4H对羧酸酯C-H羟基化活性的定向进化接下来,试图通过定向进化来提高非天然羧酸C(sp3)-H羟化酶的活性。我们优先选择tP4H,因为在野生型和proteinmpnn稳定变体中都可以检测到羧酸羟化酶活性,这可以进行直接比较。对这两种酶进行了三轮定向进化,通过改变从我们的Alphafold2结构模型中发现的活性位点的第一和第二壳底物结合残基。基于与配体结合的GriE结构的比较,将第一壳定义为与氨基酸底物接触的任何残基。我们把第二能层定义为任何和第一能层残基有接触的残基。我们使用22c-trick方法在每个目标位置进行单位点饱和诱变,为每个位置筛选了70个菌落,以确保>95%的文库覆盖率。首先对野生型tP4H进行了定向进化。在第一轮筛选中,根据它们在底物特异性中的潜在作用选择了三个tP4H活性位点残基:H58、F114和L174。根据我们的tP4H结构模型, H58可能与天然氨基酸底物的胺接触,对于缺乏胺的羧酸底物可能不需要或有害。F114可能提供了底物疏水接触,而L174是影响底物结合的环的一部分。我们在96个孔板上筛选了全细胞生物催化反应,在与底物1的反应中提高了TTN和80%的反式选择性。根据羟基化产物4的产量,选择前5%的突变体用纯化酶进行验证。获得了几个具有适度活性改善的变体,其中表现最好的是TTN为7的突变体H58L(图4A)。在从H58L开始的第二轮中,筛选了F114和L174突变体,并筛选了另外14个第一和第二壳残基。我们确定了改进型H58L/W170Q, TTN为15。在从H58L/W170Q开始的第三轮中,我们筛选了9个在前几轮中显示活性增加的残基,并确定了TTN为31的改进型H58L/W170Q/E118K(图4A)。总的来说,经过三轮的定向进化,利用野生型tP4H改善羧酸羟化酶活性,获得了6倍的TTN改善,并保持了>80%的反式反应产物的选择性。图4. (A)底物1与tP4H、R2_11和相关变体的C-H羟基化反应方案。(B)野生型tP4H的定向进化。(C)稳定变异R2_11的定向进化。用纯化酶(10-20 μM),在MES缓冲液(50 mM, pH 6.8)中,用20 mM环己烷羧酸1,40 mM αKG, 1 mM硫酸亚铁铵和1 mM抗坏血酸,在25°C下反应24小时。用液相色谱-质谱法测定了淬火反应样品中4的浓度。对于B和C,三个重复的值为平均值±SD。
5.Protein MPNN稳定的tP4H对羧酸酯C - H羟基化活性的定向进化为了优化proteinmpnn稳定化tP4H的羧酸羟化酶活性,使用与野生型tP4H相似的策略进行了定向进化,并进行了轻微的修改。在第一轮位点饱和诱变中,从19个第一和第二壳残基开始,包括前一轮的3个位点(H58、F114和L174)和前一轮的16个位点。与之前一样,筛选了羧酸底物的全细胞生物催化反应,以提高TTN和>80%的反式选择性。最受欢迎的是H58F,它的位置相同,但与前一轮获胜者H58L不同。与亲本R2_11相比,R2_11_H58F的TTN增加了27倍(图4B)。这一效果远远大于H58L相对野生型tP4H获得的<2倍的改善。值得注意的是,从稳定的R2_11中获得的27倍的增加已经大于从野生型tP4H中获得的三轮定向进化的6倍的改善。鉴于H58F突变体的强劲表现,我们也评估了其在野生型tP4H背景下的作用,观察到TTN的增加幅度很小,小于2倍,与H58L对野生型tP4H的影响相似。因此,H58F突变体的27倍强改善取决于稳定的R2_11主干的背景。之前已经在稳定的变体中观察到上下文相关的活动增加,这支持了稳定性可以促进可进化性的一般观点。在R2_11_H58F的第二轮筛选中,从野生型tP4H中选择了前两轮筛选的18个残基。保留了这个大的残基池,以确保与tP4H定向进化工作流程进行直接比较。这轮鉴定改进改型L174G。R2_11_H58F/L174G的TTN为72。这个TTN比亲本R2_11_H58F提高了1.6倍,并且超过了从野生型tP4H主干获得的任何变体(图4B)。在R2_11_H58F/L174G的第三轮筛选中,我们从野生型tP4H中选择了前3轮筛选过的9个残基。这一轮鉴定改进型V57H具有138的TTN,比前一轮改进1.7倍。总的来说,与野生型tP4H进化轨迹相比,proteinmpnn稳定的tP4H定向进化活动使TTN从基础R2_11重新设计中提高了80倍,而适度的提高了6倍。尽管R2_11亲本的启动速度比野生型tP4H慢3倍,但经过三轮定向进化后,R2_11三突变体的TTN比野生型tP4H三突变体高4.5倍(图4)。除了更有效的定向进化轨迹外,R2_11三重突变体相对于野生型tP4H衍生的三重突变体保持了较高的稳定性(图5A),与R2_11亲本相比,其热稳定性仅略有下降。更高的稳定性使得反应在更高的温度和更短的时间内更有效地进行。例如,在35°C下加热6小时后,R2_11三突变体与羧酸盐1非天然反应生成产物4的平均TTN达到142,反式反应产物的选择性为4:1(图5B)。35℃下6小时后的TTN与25℃下24小时后的TTN相当。相比之下,tP4H三突变体在35°C时TTN略有下降,可能是由于酶在较高温度下的不稳定性(图5B)。R2_11三突变体的稳定性表明,与tP4H三突变体相比,该酶在进一步的工程设计中将更加稳健。未来对R2_11突变体的工程研究可能包括改进关键的反应指标,如周转率、选择性和增加底物范围。图5. (A) R2_11和tP4H亲本酶和三突变体的温度依赖性CD。利用GraphPad Prism的玻尔兹曼s型函数计算Tm值。(B) R2_11和tP4H三突变体在两种不同温度下形成4(dr . 4:1)的TTN。反应时间为6小时。在25 ℃和35 ℃下,使用纯化酶(15 μM)在MES缓冲液(50 mM, pH 6.8)中,加入20 mM环己烷羧酸1,40 mM αKG, 1 mM硫酸亚铁铵和1 mM抗坏血酸。三个重复的数值为平均值±SD。
定向进化是设计用于新自然反应的酶的有力工具。然而,许多酶的进化起点可能缺乏在多轮突变后达到用户定义的最佳适应度所需的稳定性。本研究表明,基于深度学习的工具ProteinMPNN可以通过直接的序列约束来稳定Fe(II)/αKG酶超家族成员tP4H和GriE,以保持催化活性。与先前使用ProteinMPNN的结果一致,在序列重新设计期间,使用我们选择的最保守的固定残基方法确定了顶部tP4H设计。将相同的方法应用于相关酶GriE容易地产生具有催化活性的稳定变体。野生型和重新设计的tP4H都对游离羧酸底物的C(sp3)-H羟基化表现出新的反应性。直接比较了野生型tP4H与稳定变体R2_11的进化轨迹,证明了稳定重新设计变体的优越性能。未来的工作将确定这种设计方法是否可推广到优化其他酶和酶家族的定向进化。进一步改进深度学习模型,或提高对酶稳定的潜在机制的理解,可能是广泛推广所必需的。为了评价ProteinMPNN相对于其他酶稳定方法的效果,还需要进行额外的系统比较。例如,PROSS使用基于物理的能量计算来生成稳定的序列,MutCompute使用深度学习方法来识别单个点突变。这两种方法都不同于由ProteinMPNN重新设计的完整序列。直接比较每种方法生成定向进化稳定变体的能力和效率可以确定每种方法的权衡和潜在优势。用户友好的计算工具正在迅速出现,实验表明,这些工具应该常规地纳入酶工程工作流程,以有效地优化新的生物催化剂的催化适应性。
原文:Computational Stabilization of a Non-heme Iron Enzyme Enables Efficient Evolution of New FunctionDOI: https://doi.org/10.1002/anie.202414705