DRUGAI
今天为大家介绍的是来自david baker团队的一篇论文。尽管在设计蛋白质结合蛋白方面取得了进展,但设计蛋白与靶标之间的形状匹配程度仍低于许多天然蛋白质复合物。对于肿瘤坏死因子受体1(tumor necrosis factor receptor 1,TNFR1)以及其他具有相对平坦和极性表面的蛋白质靶标,之前的设计尝试都未能成功。作者假设,从随机噪声开始的自由扩散过程可以为这些具有挑战性的靶标生成形状匹配的结合蛋白,并在TNFR1上验证了这一方法。通过这种方法,作者获得了具有皮摩尔级亲和力的设计蛋白,并且可以通过partial diffusion技术将其特异性完全转换为针对其他家族成员。这些设计蛋白可以作为拮抗剂(antagonists)使用,或者当以更高化合价呈现时,可以作为OX40和4-1BB的超级激动剂(superagonists)。这种通过计算机模拟设计具有高亲和力和高特异性的拮抗剂和激动剂的能力,预示着蛋白质设计领域即将进入一个新时代,在这个时代,结合蛋白将通过计算方法而非免疫或随机筛选方法来制备。
设计能够与目标靶点高亲和力和高特异性结合的蛋白质,一直是计算结构生物学领域中一个长期存在的挑战,这项研究在治疗学、诊断学等领域都有广泛应用。为了解决这个问题,蛋白质设计方法通常依赖于已有的支架(scaffolds)集合——可以是天然蛋白或从头设计的蛋白,这些支架都具有明确的三级结构。例如,通过对一组理想化的约65个氨基酸残基的蛋白质支架进行对接,并识别那些能够形成最低能量结合相互作用的对接位点。
生成式人工智能方法RFdiffusion通过逐步去噪随机空间分布的氨基酸残基来生成新的蛋白质结构。这个扩散去噪过程可以通过条件信息来引导,从而创建各种蛋白质结构和功能。例如,在设计结合蛋白时,扩散轨迹是在固定目标靶点存在的情况下进行的。RFdiffusion此前被用于在类似理想支架上生成结合蛋白;作者也同时测试了无约束扩散,但这种方法只能产生简单的三螺旋或四螺旋束(four-helix bundles)。
使用具有规则二级结构元件和紧密堆积的小型理想支架的优势在于:在序列设计之后,相当一部分设计的蛋白质可能会按预期折叠。但这也限制了可实现的形状匹配程度,特别是对于那些表面相对平坦、缺乏凹陷供小型蛋白质嵌入的靶标。实际上,目前从头设计的结合蛋白的接触分子表面积(CMS)低于许多天然蛋白质复合物(如图1A所示)。
图 1
设计结合蛋白
作者推断,通过使用RFdiffusion方法,可以克服支架依赖型和短链方法在形状匹配方面的局限性。具体做法是在目标靶点存在的情况下,直接从完全随机的氨基酸残基分布开始生成较大的蛋白质,而不需要任何现有支架的指导。完全无约束的RFdiffusion可以生成多样化的折叠构象和组装体,以及能够包裹延伸的螺旋肽段的蛋白质折叠结构。
作者探索了一种新的思路:RFdiffusion轨迹仅受已折叠蛋白质靶标结构的制约,不偏向任何特定支架,也不受可用残基数量的限制。这种方法是否能生成与靶标高度形状匹配的折叠结构,并实现对先前设计失败的靶标的高亲和力结合蛋白的设计。
作者选择了肿瘤坏死因子受体超家族(TNFRSF)作为研究对象,这个家族包含许多重要的药物靶点,其中包括在炎症性疾病中发挥关键作用的TNF受体1(TNFR1)。与其他家族成员类似,TNFR具有延展的平坦且主要是极性的表面,缺乏先前从头设计成功靶向的具有疏水性的凹陷位点(如图1B所示)。实际上,使用Cao等人的方法多次尝试生成针对TNFR及其他家族成员的结合蛋白都收效甚微。作者首先尝试按照Watson等人描述的方法使用RFdiffusion来生成TNFR1的结合蛋白,利用65个氨基酸支架文库的指导或限制链长小于65个残基,但效果并不理想。
随后,作者着手改进RFdiffusion方法,以生成具有更延展接触表面的骨架,使其能够与分散的表面疏水残基相互作用(如图1B所示)。蛋白质相互作用(如蛋白质折叠)主要由疏水相互作用驱动,而只有少数表面疏水残基且在空间上相距较远的靶标一直是特别具有挑战性的。在TNFR上,少数表面疏水残基之间的距离长达28埃,这对于65个残基的蛋白质来说太大,无法同时与这些残基相互作用。
作者在天然配体(TNF)界面处放置了最多包含120个残基的随机高斯残基云,并使RFdiffusion偏向于与这些分散的疏水残基形成接触。这一步骤产生了多种与TNFR1形状互补的骨架(如补充图S2所示),这些骨架与之前研究中的骨架有很大不同。作者使用ProteinMPNN为这些与TNFR1形成复合物的骨架设计序列,既要有利于折叠成目标结构,又要能与靶标结合。
为了进一步采样那些被AlphaFold2(AF2)预测能形成复合物的有潜力的设计(界面区域的预测对齐误差(pae)较低,pae_interaction<20),作者从之前的扩散时间步中提取了额外的骨架,因为在200个时间步中的大约120步时,预测结构已经接近最终结构(如图1C所示)。作者选择了预测能最强结合TNFR1(界面pae<7.5)并能折叠成目标骨架(预测局部距离差异测试,pLDDT>85)的设计进行实验表征(如表S1所示)。这些设计的接触分子表面积(CMS)和埋藏的溶剂可及表面积(SASA)显著高于之前研究中的设计(如图1D所示)。
作者获得了编码96个设计蛋白的基因,并在大肠杆菌中表达这些蛋白。尽管这些设计蛋白的结构不如之前的大多数结合蛋白设计规则,且链长更长,但96个设计中有90个表达良好,且主要以单体形式存在(如补充图S3A所示)。在表面等离子体共振(SPR)实验中,有6个设计能与TNFR1结合(如补充图S3B所示),其中TNFR1_mb1和TNFR1_mb2的解离常数(K_D)分别为29和24.5纳摩尔。这两个设计都具有很高的特异性,对TNFR2没有检测到结合。
这些设计的三级结构与先前设计的从头结合蛋白有很大不同,它们在一个延伸区域与TNFR1相互作用(如图1D所示)。TNFR1_mb2设计具有一个不寻常的V形折叠,其与TNFR的接触分子表面积高达795平方埃,远高于先前扩散设计的平均值490平方埃。TNFR1_mb1设计的结合模式也不如先前从头设计的结合蛋白规则,它在TNFR1结合裂隙中插入了一个连接环,同样具有高达897平方埃的接触分子表面积。
对于这两个设计,作者通过测定每个位点上每个氨基酸替换对结合的影响(总共4047个替换)获得了高分辨率的结合足迹(如补充图S4和S5所示)。结果与设计模型高度一致,影响结合的替换主要集中在设计的界面和会破坏折叠的蛋白质核心区域。两个设计中最保守的相互作用都集中在涉及TNFR1残基107、111和残基38、40的疏水区域周围(如图1E和表S2所示),这些区域被界面中心更多的极性相互作用所跨越。
位点饱和突变(SSM)足迹与设计模型界面的高度一致性,以及AF2和RoseTTAFold2(RF2)复合物预测与设计结构的一致性[界面pAE为5.1和4.1,使用AlphaFold2-multimer模型1时,相对于设计的CA均方根偏差(RMSD)分别为0.6和1.0埃],表明TNFR1_mb1和TNFR1_mb2都按设计与TNFR1结合。
计算机模拟的亲和力成熟
肿瘤坏死因子(TNF-α)是一个三聚体,它与TNFR1具有很高的亲和力(19皮摩尔)。要用单体蛋白有效地与其竞争以抑制炎症,需要更高的结合亲和力。为了进一步优化TNFR1_mb2、TNFR1_mb1以及同样具有特异性结合的TNFR1_mb3设计(如补充图S3B所示),作者没有采用从位点饱和突变(SSM)文库中组合有益替换的方法,因为这需要大量的实验筛选。相反,作者使用了partial diffusion方法(如图2A所示):骨架被部分加噪(15到25步;50步会产生完全随机的分布),然后通过RFdiffusion去噪,产生了与原始设计相似但不同的新骨架(RMSD为0.58到4.96埃)。
图 2
作者围绕每个起始结构生成了25,000个partial diffusion的骨架。通过ProteinMPNN后,对于每个起始结构,选择了32个AF2最有把握预测能以设计的结合模式与TNFR1结合的设计(pae_interaction<5)进行实验表征(如表S1所示)。在这三种情况下,这些partial diffusion的设计都具有明显更大的CMS和埋藏SASA(如图2B所示)。
这些设计在大肠杆菌中表达,并通过SPR测量与TNFR的结合。大多数设计(96个中的94个)都有高水平表达,其中30%(94个表达的设计中的28个)能与TNFR1结合(如补充图S6A所示)。partial diffusion将TNFR1_mb2的结合亲和力提高了三个数量级,达到小于10皮摩尔(如图2C),而TNFR1_mb3的亲和力从微摩尔范围的弱结合提高到20纳摩尔(如图2C所示)。对于结构更规则的TNFR1_mb1骨架,改进较小;自由扩散采样似乎已经为这种结合模式找到了接近理想的解决方案。
对于TNFR1_mb2,partial diffusion带来的显著亲和力提升可能是由于形成了额外的界面,并且通过几个额外的接触点整体上更好地适应结合裂隙(如图2C所示)。partial diffusion后的TNFR1_mb2(下文称为TNFR1_mb2_pd1)具有皮摩尔级的低亲和力,这比任何先前描述的单体TNFR1结合蛋白都要高得多。
转换特异性
图 3
鉴于partial diffusion在提高结合亲和力方面的成功,作者研究了是否可以使用类似的方法来转换对其他TNFR家族成员的特异性。这些受体在序列上差异很大,但具有非常相似的整体折叠结构(图3A和B)。作者将TNFR1_mb2、TNFR1_mb1和TNFR1_mb3这些结合蛋白放置在TNFR超家族成员TNFR2、OX40和4-1BB上(通过将这些受体叠加在设计模型中的TNFR1上),并对每种组合进行了25,000次设计轨迹,包括添加随机高斯噪声、RFdiffusion去噪声和ProteinMPNN序列设计。对于TNFR2,1323个设计的AF2复合物预测显示pae_interaction值小于7.5,这比在TNFR1上进行自由扩散取得了更高的成功率。对每个受体,作者对48个设计进行了实验表征。对于TNFR2,32%的设计表现出高特异性结合;亲和力最高的设计对TNFR2的KD值为198 pM,且对测试的其他家族成员没有亲和力。
与TNFR2不同,OX40具有不同的配体,因此具有更独特的结合界面(TNFR2与TNFR1共享TNF-α这个共同配体)。尽管天然配体存在这种差异,但从TNFR1结合蛋白开始的partial diffusion产生了一个KD值为30 nM的OX40结合蛋白。正如预期的那样,与TNFR2结合蛋白相比,这个结合蛋白在接近角度和三级结构方面相对于原始设计发生了更大的变化。对于关系更远的4-1BB,需要额外一轮partial diffusion才能达到小于7的pae_interaction值,但实验成功率仍然很高,48个测试设计中有22个能够特异性地结合其靶标,最高亲和力为44 nM。4-1BB_mb1的设计展示了partial diffusion如何使骨架适应靶标,在这种情况下,通过引入一个不寻常的扭曲螺旋和一个短的β片层来配对独特的受体折叠结构。
作者使用X射线晶体学解析了亲和力最高的重定向结合蛋白TNFR2_mb1与TNFR2复合物的结构。该复合物的晶体结构与计算机设计模型非常接近,在设计的结合蛋白部分几乎完全一致(C-alpha RMSD为0.52 Å;图3D左侧面板)。在广泛的蛋白质-蛋白质界面相互作用中,关键的侧链相互作用的位置也非常相似(图3D右侧面板)。
设计的结合蛋白拮抗信号传导
图 4
TNFR1结合蛋白的皮摩尔级亲和力使其成为阻断炎症反应的潜在候选物。迄今为止,针对TNF-α通路的靶向治疗主要集中在结合循环的TNF-α上,这是因为靶向TNFR1的抗体由于其双价特性,会激活而不是抑制TNF-α信号通路。作者研究了设计的(单体)蛋白是否能在人胚胎肾293(HEK293)报告细胞系(InvivoGen)上抑制TNF-α信号。这种细胞系通过激活蛋白1/核因子κB(AP-1/NF-κB)依赖的分泌型胚胎碱性磷酸酶(SEAP)报告基因来监测TNF-α信号(图4A)。研究发现这些设计能够有效抑制TNF-α信号,最佳设计的半数抑制浓度(IC50)为106 pM。
进一步的生物物理表征表明,这些设计具有理想的开发特性。在95°C加热30分钟或在小鼠血清中孵育2小时后,它们仍能保持功能。尽管TNFR1结合蛋白在其靶标结合表面具有大量疏水区域(图1F),但与Adalimumab、Etanercept和其他临床抗体相比,疏水相互作用色谱并未显示出显著的疏水相互作用。除了在家族内具有高特异性(图3C)外,亲和力最高的TNFR1_mb2_pd1在100 nM浓度下(比KD高10,000倍)对TNFR1敲除细胞系也没有显示出明显的非特异性结合。
激动剂设计
对于在癌症治疗中被广泛研究用于扩增T细胞的OX40和4-1BB,激动剂可能具有治疗潜力。与TNFR1不同,4-1BB信号通路不能仅由可溶性三聚体配体激活——生理配体位于相邻细胞的质膜中,并诱导4-1BB形成更大范围的有序排列(图4B)。通过使用抗体产生的配体网络来驱动更高级别的复合物,已经实现了信号激活;尽管这些配体是可溶的,但它们也相当异质。
为了探索制备结构明确、单分散的4-1BB激动剂,作者将4-1BB结合蛋白与设计的同源寡聚体融合,这些寡聚体具有不同的价数和融合位点之间的间距(图4F中的红点)。研究发现单体和C2或C3寡聚体不能传递信号,这与天然三聚体配体缺乏信号传递的特性一致。相比之下,C4、C5、C6和C8寡聚体能够观察到信号传递(图4C和图S10A)。最强的信号来自C6结构,它使受体排列的距离与天然配体相似,但具有更高的价数(六个拷贝而不是三个;图4E)。
在44个寡聚体的系列中(图4F),价数是信号强度的最主要决定因素:C1-C3没有信号,C4具有稳定但较弱的信号,C5和C6具有更强的信号。除了价数之外,结合的几何构型也影响信号传递的程度;将受体分离距离远大于天然配体的高级寡聚体表现出较弱或无信号,那些可能与受体发生冲突或穿透膜的寡聚体也是如此(图4F)。总的来说,对更高价数的需求与从细胞内六聚体排列推断出的信号机制一致(图4B),但仅仅增加一个亚基(在C4的情况下)如何导致激动作用仍有待确定。
对于OX40,作者再次测试了一系列不同的寡聚态,观察到了一个完全不同的模式。与4-1BB相比,三聚体结构是有效的激动剂,这与OX40可以被可溶性三聚体配体激活的事实相符。单体和二聚体结合蛋白结构不能传递信号,而具有三个、四个或五个结合模块的寡聚体结构能够有效激活信号传导(图4D和F,以及图S10B)。
对于4-1BB和OX40,半数有效浓度(EC50)和最大信号值(Emax)在不同的寡聚体结构之间都存在显著差异,这表明通过调节价数和几何构型可以对响应进行精细调节,这既可用于研究这类重要受体的信号传导机制,也可用于治疗应用。特别有趣的是,最佳的OX40和4-1BB合成激动剂相比于OX40的天然配体和4-1BB的抗体-配体组装体,具有显著更高的Emax;这些特性对于扩增T细胞群体可能特别有用。
编译 | 黄海涛
审稿 | 王梓旭
参考资料
Glögl, M., Krishnakumar, A., Ragotte, R. J., Goreshnik, I., Coventry, B., Bera, A. K., ... & Baker, D. (2024). Target-conditioned diffusion generates potent TNFR superfamily antagonists and agonists. Science, 386(6726), 1154-1161.