David Baker|设计IDP的Binder
本篇是长文《再看Binder设计》的一部分,一鱼多吃。把设计IDP蛋白Binder,拎出来单独再发一篇。
相关工作
1. 蛋白IDR区域序列的特异性靶向
设计能够特异性结合内在无序蛋白区域(Intrinsically Disordered Regions, IDRs)的蛋白方面存在的挑战。
本文提出一种结合生物物理和深度学习的方案,通过多样化模板和RFdiffusion来针对IDRs生成结合蛋白,旨在填补上面指出的Knowledge Gap。
通过此方法,作者在39个靶蛋白上进行验证,每个靶点设计36个结合蛋白。其中34个亲和力优于100 nM,4个亲和力达到pM级别下图
。表明该方法可能为IDRs识别的一种通用解决方案 [3]。
1.1. 设计流程
第一步:口袋生成
下图1c
展示如何针对单个氨基酸或二肽构建结合口袋,类型包含单口袋E、单口袋RT、单口袋PV、双口袋PV等(全部口袋,见论文SI Table7),其中E、R、T、P、V是氨基酸的单字母类型。这些口袋能为目标肽的侧链形成相互作用或氢键等,也保证结构上兼容性互补性等。
第二步:口袋组装
下图1d
展示了口袋组装(Pocket Assembly)。通过重新组合多个口袋,使用RFdiffusion生成它们之间的界面,以生成整体刚性结构(IDR的结合蛋白骨架,灰色,下面的拓展图1A-B
)。然后生成很多个结合骨架的模板,口袋以不同的顺序和几何形状排列,以实现对一般IDR序列识别的能力。
第三步:线程
下图1a
展示了线程(Threading)。将IDR目标序列穿过所有模板(上一步得到)的骨架Backbone,搜索最佳结合模式(template library search)。IDR为图1a
中的多肽,IDR的结合蛋白为图1a
中的灰色骨架。然后使用ProteinMPNN优化结合蛋白序列,接着AF2预测结构。如果AF2预测结果不佳,使用RFdiffusion调整设计特定的骨架和某些口袋。
第四步:细化
下图1b
展示了细化(Refinement)。一是针对具有挑战性的极性或带电目标,或无法采用规则二级结构结合的靶点,通过RFdiffusion进行精确的氨基酸间相互作用的优化。二是使用RFdiffusion的部分扩散方法,对口袋、间隔和蛋白质背骨之间的“不匹配”进行高分辨率细化和扰动(下面的拓展图4
)。将细化的结合蛋白骨架补充回模板库,以增加模板库的多样性和覆盖范围。
1.2. 实验结果
该论文图4a
展示了靶点的名称,以及所对应的IDR氨基酸序列。图4b/c/d
展示了结构示意图,SPR实验不同浓度的响应值,以及相应的亲和力Kd值。
该论文图3
还解析了IDR-结合蛋白的复合物晶体结构,验证了计算设计和实验的一致性。
该论文图5
还测试了功能性,以及IDR-结合蛋白之间的特异性,特异性是指针对靶点A设计的Binder A,只能结合靶点A,与靶点B/C/D不结合。
注⚠️:本文的代码暂时还未开源。
相关工作
2.. 扩散设计IDP蛋白的Binder
内在无序蛋白(Intrinsically Disordered Proteins, IDPs)和内在无序区域(Intrinsically Disordered Regions, IDRs)几乎占自然界蛋白的一半(49%)下图
。
然而,设计能够特异性结合IDPs和IDRs的Binder方面,尚未有一套通用的方法论,存在巨大挑战。具体来说,这些困难包括[4]:
自身结构多变:由于IDRs自身缺乏固定的结构,构象高度多变
下图
。结合构象多变:IDRs在结合过程中可能会发生构象变化,目前还没有好的方案解决。
本文通过改进RFdiffusion,比如:训练数据、训练策略、条件信息引入推理、双侧扩散(two-side diffusion)等,尝试解决以上的难题。填补了靶向IDPs/IDRs的Binder设计方面的知识空白。
原版RFdiffusion版本需要输入靶蛋白的结构,指定热点Hotspots的氨基酸,推理输出Binder蛋白的骨架。而这里,本文的RFdiffusion有3方面的改进:
仅输入靶蛋白序列,推理出靶点+Binder的复合物骨架 输入靶蛋白序列+靶蛋白部分二级结构,进行推理出Binder 双侧扩散(two-side diffusion),原版RFdiffusion是单侧扩散
2.1. RFdiffusion改进
这里的RFdiffusion版本,训练数据是含有2条链的蛋白骨架(N-Ca-C),模型被训练后,在只有靶蛋白序列的情况下,就能设计出特异性结合靶蛋白的Binder。这些Binder具有细微变化的螺旋构象(下图
深蓝色)。
RFdiffusion的改进版本,还允许指定区域的二级结构及其序列。当提供相同的靶蛋白序列输入,但不同的二级结构类型(α-Helix或β-strand)时,靶蛋白与Binder的最终构象可能会有所不同(下图
右边)。这种方法允许研究者指定目标区域的二级结构(如α-Helix或β-strand),从而更精确地控制生成的靶蛋白与Binder复合体的构象。
下图
是双侧部分扩散的示意图。 RFdiffusion 对靶点和Binder的随机噪声安装起始父设计(下图
左边Parent)进行去噪;通过初始噪声的不同噪声步的程度(top),可以控制引入的结构变化的程度(bottom)。
这种方法允许靶点和Binder同时发生构象变化。单侧部分扩散只多样化Binder的构象而保持靶点结构固定(下图
),而双侧部分扩散允许更广泛的构象变化,从而可能找到更适合结合的构象。
2.2. 实验结果
文章对上表
的6个不同的IDP靶点设计了Binder,并进行了湿实验的验证。下文编者随机选一个实验结果进行简单扼要的阐述。
图2a-d
是Amylin的Binder设计:展示了针对Amylin设计的四种结合体(,,,),以及SPR实验验证的亲和力。下标αβ指代的是Binder包含的二级结构。
图2e-f
是CP和VP48的Binder设计:同样展示了复合物结构和SPR亲和力响应图。通过仅输入序列输入扩散设计,得到的Binder。结果说明,即使在没有特定二级结构信息的情况下,改进版的RFdiffusion也能成功设计出高亲和力的Binder。
图2g-i
是β-strand的Binder设计:三个不同的靶点都设计出β-strand的Binder,亲和力分别为11 nM, 14 nM, 和97 nM。
该论文图3
还解析了靶点-Binder的复合物晶体结构,验证了计算设计和实验的一致性。
该论文图4
还测试Binder与各靶点之间的特异性,特异性是指针对靶点A设计的Binder A,只能结合靶点A,与靶点B/C/D不结合。
注⚠️:本文的改进版的RFdiffusion代码暂时还未开源。
参考文献
Liu, Caixuan, et al. "Diffusing protein binders to intrinsically disordered proteins." bioRxiv (2024). Wu, Kejia, et al. "Sequence-specific targeting of intrinsically disordered protein regions." bioRxiv (2024): 2024-07.
进群交流
进群请认真填写问卷!
广告勿扰,广告勿扰!
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运