David Baker|设计IDP的Binder

文摘   2024-12-03 01:12   广东  

David Baker|设计IDP的Binder

本篇是长文《再看Binder设计》的一部分,一鱼多吃。把设计IDP蛋白Binder,拎出来单独再发一篇。

相关工作

1. 蛋白IDR区域序列的特异性靶向

设计能够特异性结合内在无序蛋白区域(Intrinsically Disordered Regions, IDRs)的蛋白方面存在的挑战

本文提出一种结合生物物理和深度学习的方案,通过多样化模板和RFdiffusion来针对IDRs生成结合蛋白,旨在填补上面指出的Knowledge Gap。

通过此方法,作者在39个靶蛋白上进行验证,每个靶点设计36个结合蛋白。其中34个亲和力优于100 nM,4个亲和力达到pM级别下图。表明该方法可能为IDRs识别的一种通用解决方案 [3]。

本文实验验证的亲和力靶点,以及该靶点最优亲和力,黄色是失败的

1.1. 设计流程



第一步:口袋生成

下图1c展示如何针对单个氨基酸或二肽构建结合口袋,类型包含单口袋E、单口袋RT、单口袋PV、双口袋PV等(全部口袋,见论文SI Table7),其中E、R、T、P、V是氨基酸的单字母类型。这些口袋能为目标肽的侧链形成相互作用或氢键等,也保证结构上兼容性互补性等。

第一步:口袋生成(pocket generation)

第二步:口袋组装

下图1d展示了口袋组装(Pocket Assembly)。通过重新组合多个口袋,使用RFdiffusion生成它们之间的界面,以生成整体刚性结构(IDR的结合蛋白骨架,灰色,下面的拓展图1A-B)。然后生成很多个结合骨架的模板,口袋以不同的顺序和几何形状排列,以实现对一般IDR序列识别的能力。

第二步:口袋组装(Pocket Assembly)
拓展图1A-B

第三步:线程

下图1a展示了线程(Threading)。将IDR目标序列穿过所有模板(上一步得到)的骨架Backbone,搜索最佳结合模式(template library search)。IDR为图1a中的多肽,IDR的结合蛋白为图1a中的灰色骨架。然后使用ProteinMPNN优化结合蛋白序列,接着AF2预测结构。如果AF2预测结果不佳,使用RFdiffusion调整设计特定的骨架和某些口袋。

第三步:线程(Threading)

第四步:细化

下图1b展示了细化(Refinement)。一是针对具有挑战性的极性或带电目标,或无法采用规则二级结构结合的靶点,通过RFdiffusion进行精确的氨基酸间相互作用的优化。二是使用RFdiffusion的部分扩散方法,对口袋、间隔和蛋白质背骨之间的“不匹配”进行高分辨率细化和扰动(下面的拓展图4)。将细化的结合蛋白骨架补充回模板库,以增加模板库的多样性和覆盖范围。

第四步:细化(Refinement)
拓展图4

1.2. 实验结果

该论文图4a展示了靶点的名称,以及所对应的IDR氨基酸序列。图4b/c/d展示了结构示意图,SPR实验不同浓度的响应值,以及相应的亲和力Kd值。

论文中的图4

该论文图3还解析了IDR-结合蛋白的复合物晶体结构,验证了计算设计和实验的一致性。

该论文图5还测试了功能性,以及IDR-结合蛋白之间的特异性,特异性是指针对靶点A设计的Binder A,只能结合靶点A,与靶点B/C/D不结合。

注⚠️:本文的代码暂时还未开源。

相关工作

2.. 扩散设计IDP蛋白的Binder

内在无序蛋白(Intrinsically Disordered Proteins, IDPs)和内在无序区域(Intrinsically Disordered Regions, IDRs)几乎占自然界蛋白的一半(49%)下图

无序蛋白的普遍性:人类蛋白质组中有序蛋白(ORDPs)和无序蛋白(IDPs)/无序区域(IDPRs)的频率分布

然而,设计能够特异性结合IDPs和IDRs的Binder方面,尚未有一套通用的方法论,存在巨大挑战。具体来说,这些困难包括[4]:

  1. 自身结构多变:由于IDRs自身缺乏固定的结构,构象高度多变下图

  2. 结合构象多变:IDRs在结合过程中可能会发生构象变化,目前还没有好的方案解决。

无序蛋白的多样性和灵活性:Amylin、C肽和VP48的NMR结构和通过AlphaFold预测的结构

本文通过改进RFdiffusion,比如:训练数据、训练策略、条件信息引入推理、双侧扩散(two-side diffusion)等,尝试解决以上的难题。填补了靶向IDPs/IDRs的Binder设计方面的知识空白。

原版RFdiffusion版本需要输入靶蛋白的结构,指定热点Hotspots的氨基酸,推理输出Binder蛋白的骨架。而这里,本文的RFdiffusion有3方面的改进:

  • 仅输入靶蛋白序列,推理出靶点+Binder的复合物骨架
  • 输入靶蛋白序列+靶蛋白部分二级结构,进行推理出Binder
  • 双侧扩散(two-side diffusion),原版RFdiffusion是单侧扩散

2.1. RFdiffusion改进

这里的RFdiffusion版本,训练数据是含有2条链的蛋白骨架(N-Ca-C),模型被训练后,在只有靶蛋白序列的情况下,就能设计出特异性结合靶蛋白的Binder。这些Binder具有细微变化的螺旋构象(下图深蓝色)。

RFdiffusion改进1:仅输入靶蛋白序列,设计出结合Binder骨架

RFdiffusion的改进版本,还允许指定区域的二级结构及其序列。当提供相同的靶蛋白序列输入,但不同的二级结构类型(α-Helix或β-strand)时,靶蛋白与Binder的最终构象可能会有所不同(下图右边)。这种方法允许研究者指定目标区域的二级结构(如α-Helix或β-strand),从而更精确地控制生成的靶蛋白与Binder复合体的构象。

RFdiffusion改进2:不同二级结构信息的引入:设计出不同的Binder

下图是双侧部分扩散的示意图。 RFdiffusion 对靶点和Binder的随机噪声安装起始父设计(下图左边Parent)进行去噪;通过初始噪声的不同噪声步的程度(top),可以控制引入的结构变化的程度(bottom)。

RFdiffusion改进3:双侧部分扩散

这种方法允许靶点和Binder同时发生构象变化。单侧部分扩散只多样化Binder的构象而保持靶点结构固定下图),而双侧部分扩散允许更广泛的构象变化,从而可能找到更适合结合的构象。

双侧部分扩散与原版RFdiffusion的对比


2.2. 实验结果

文章对上表的6个不同的IDP靶点设计了Binder,并进行了湿实验的验证。下文编者随机选一个实验结果进行简单扼要的阐述。


图2a-dAmylin的Binder设计:展示了针对Amylin设计的四种结合体(,,,),以及SPR实验验证的亲和力。下标αβ指代的是Binder包含的二级结构。

图2e-fCP和VP48的Binder设计:同样展示了复合物结构和SPR亲和力响应图。通过仅输入序列输入扩散设计,得到的Binder。结果说明,即使在没有特定二级结构信息的情况下,改进版的RFdiffusion也能成功设计出高亲和力的Binder。

图2g-iβ-strand的Binder设计:三个不同的靶点都设计出β-strand的Binder,亲和力分别为11 nM, 14 nM, 和97 nM。

图2|不同靶点的Binder设计,以及SPR亲和力实验验证

该论文图3还解析了靶点-Binder的复合物晶体结构,验证了计算设计和实验的一致性。

该论文图4还测试Binder与各靶点之间的特异性,特异性是指针对靶点A设计的Binder A,只能结合靶点A,与靶点B/C/D不结合。

注⚠️:本文的改进版的RFdiffusion代码暂时还未开源。

参考文献
  1. Liu, Caixuan, et al. "Diffusing protein binders to intrinsically disordered proteins." bioRxiv (2024).
  2. Wu, Kejia, et al. "Sequence-specific targeting of intrinsically disordered protein regions." bioRxiv (2024): 2024-07.
进群交流

进群请认真填写问卷!

广告勿扰,广告勿扰!

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于AI蛋白相关的论文解读&学术速运


AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章