David Baker｜设计IDP的Binder

文摘 2024-12-03 01:12 广东

David Baker｜设计IDP的Binder

本篇是长文《再看Binder设计》的一部分，一鱼多吃。把设计IDP蛋白Binder，拎出来单独再发一篇。

1. 蛋白IDR区域序列的特异性靶向

设计能够特异性结合内在无序蛋白区域（Intrinsically Disordered Regions, IDRs）的蛋白方面存在的挑战。

本文提出一种结合生物物理和深度学习的方案，通过多样化模板和RFdiffusion来针对IDRs生成结合蛋白，旨在填补上面指出的Knowledge Gap。

通过此方法，作者在39个靶蛋白上进行验证，每个靶点设计36个结合蛋白。其中34个亲和力优于100 nM，4个亲和力达到pM级别下图。表明该方法可能为IDRs识别的一种通用解决方案 [3]。

1.1. 设计流程

第一步：口袋生成

下图1c展示如何针对单个氨基酸或二肽构建结合口袋，类型包含单口袋E、单口袋RT、单口袋PV、双口袋PV等（全部口袋，见论文SI Table7），其中E、R、T、P、V是氨基酸的单字母类型。这些口袋能为目标肽的侧链形成相互作用或氢键等，也保证结构上兼容性互补性等。

第二步：口袋组装

下图1d展示了口袋组装（Pocket Assembly）。通过重新组合多个口袋，使用RFdiffusion生成它们之间的界面，以生成整体刚性结构（IDR的结合蛋白骨架，灰色，下面的拓展图1A-B）。然后生成很多个结合骨架的模板，口袋以不同的顺序和几何形状排列，以实现对一般IDR序列识别的能力。

第三步：线程

下图1a展示了线程（Threading）。将IDR目标序列穿过所有模板（上一步得到）的骨架Backbone，搜索最佳结合模式（template library search）。IDR为图1a中的多肽，IDR的结合蛋白为图1a中的灰色骨架。然后使用ProteinMPNN优化结合蛋白序列，接着AF2预测结构。如果AF2预测结果不佳，使用RFdiffusion调整设计特定的骨架和某些口袋。

第四步：细化

下图1b展示了细化（Refinement）。一是针对具有挑战性的极性或带电目标，或无法采用规则二级结构结合的靶点，通过RFdiffusion进行精确的氨基酸间相互作用的优化。二是使用RFdiffusion的部分扩散方法，对口袋、间隔和蛋白质背骨之间的“不匹配”进行高分辨率细化和扰动（下面的拓展图4）。将细化的结合蛋白骨架补充回模板库，以增加模板库的多样性和覆盖范围。

1.2. 实验结果

该论文图4a展示了靶点的名称，以及所对应的IDR氨基酸序列。图4b/c/d展示了结构示意图，SPR实验不同浓度的响应值，以及相应的亲和力Kd值。

该论文图3还解析了IDR-结合蛋白的复合物晶体结构，验证了计算设计和实验的一致性。

该论文图5还测试了功能性，以及IDR-结合蛋白之间的特异性，特异性是指针对靶点A设计的Binder A，只能结合靶点A，与靶点B/C/D不结合。

注⚠️：本文的代码暂时还未开源。

2.. 扩散设计IDP蛋白的Binder

内在无序蛋白（Intrinsically Disordered Proteins, IDPs）和内在无序区域（Intrinsically Disordered Regions, IDRs）几乎占自然界蛋白的一半（49%）下图。

无序蛋白的普遍性：人类蛋白质组中有序蛋白（ORDPs）和无序蛋白（IDPs）/无序区域（IDPRs）的频率分布

然而，设计能够特异性结合IDPs和IDRs的Binder方面，尚未有一套通用的方法论，存在巨大挑战。具体来说，这些困难包括[4]：

自身结构多变：由于IDRs自身缺乏固定的结构，构象高度多变下图。
结合构象多变：IDRs在结合过程中可能会发生构象变化，目前还没有好的方案解决。

无序蛋白的多样性和灵活性：Amylin、C肽和VP48的NMR结构和通过AlphaFold预测的结构

本文通过改进RFdiffusion，比如：训练数据、训练策略、条件信息引入推理、双侧扩散（two-side diffusion）等，尝试解决以上的难题。填补了靶向IDPs/IDRs的Binder设计方面的知识空白。

原版RFdiffusion版本需要输入靶蛋白的结构，指定热点Hotspots的氨基酸，推理输出Binder蛋白的骨架。而这里，本文的RFdiffusion有3方面的改进：

仅输入靶蛋白序列，推理出靶点+Binder的复合物骨架
输入靶蛋白序列+靶蛋白部分二级结构，进行推理出Binder
双侧扩散（two-side diffusion），原版RFdiffusion是单侧扩散

2.1. RFdiffusion改进

这里的RFdiffusion版本，训练数据是含有2条链的蛋白骨架（N-Ca-C），模型被训练后，在只有靶蛋白序列的情况下，就能设计出特异性结合靶蛋白的Binder。这些Binder具有细微变化的螺旋构象（下图深蓝色）。

RFdiffusion的改进版本，还允许指定区域的二级结构及其序列。当提供相同的靶蛋白序列输入，但不同的二级结构类型（α-Helix或β-strand）时，靶蛋白与Binder的最终构象可能会有所不同（下图右边）。这种方法允许研究者指定目标区域的二级结构（如α-Helix或β-strand），从而更精确地控制生成的靶蛋白与Binder复合体的构象。

下图是双侧部分扩散的示意图。 RFdiffusion 对靶点和Binder的随机噪声安装起始父设计（下图左边Parent）进行去噪；通过初始噪声的不同噪声步的程度（top），可以控制引入的结构变化的程度（bottom）。

这种方法允许靶点和Binder同时发生构象变化。单侧部分扩散只多样化Binder的构象而保持靶点结构固定（下图），而双侧部分扩散允许更广泛的构象变化，从而可能找到更适合结合的构象。

2.2. 实验结果

文章对上表的6个不同的IDP靶点设计了Binder，并进行了湿实验的验证。下文编者随机选一个实验结果进行简单扼要的阐述。

图2a-d是Amylin的Binder设计：展示了针对Amylin设计的四种结合体（,,,），以及SPR实验验证的亲和力。下标αβ指代的是Binder包含的二级结构。

图2e-f是CP和VP48的Binder设计：同样展示了复合物结构和SPR亲和力响应图。通过仅输入序列输入扩散设计，得到的Binder。结果说明，即使在没有特定二级结构信息的情况下，改进版的RFdiffusion也能成功设计出高亲和力的Binder。

图2g-i是β-strand的Binder设计：三个不同的靶点都设计出β-strand的Binder，亲和力分别为11 nM, 14 nM, 和97 nM。

该论文图3还解析了靶点-Binder的复合物晶体结构，验证了计算设计和实验的一致性。

该论文图4还测试Binder与各靶点之间的特异性，特异性是指针对靶点A设计的Binder A，只能结合靶点A，与靶点B/C/D不结合。

注⚠️：本文的改进版的RFdiffusion代码暂时还未开源。

参考文献

Liu, Caixuan, et al. "Diffusing protein binders to intrinsically disordered proteins." bioRxiv (2024).
Wu, Kejia, et al. "Sequence-specific targeting of intrinsically disordered protein regions." bioRxiv (2024): 2024-07.

进群交流

进群请认真填写问卷！

广告勿扰，广告勿扰！

往期合集

干货文章｜线上报告｜蛋白设计｜综述｜Binder｜Co-design｜Benchmark｜AF3｜David Baker｜ESM｜MaSIF｜结构预测｜语言模型｜骨架生成｜逆向折叠｜抗体设计｜多肽设计｜酶设计｜稳定性｜药物设计

关注我们

死磕自己，愉悦大家

专注于AI蛋白相关的论文解读&学术速运

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

最新文章

Seminar｜多模态生成式蛋白质基础模型

蛋白质功能-序列空间压缩

David Baker｜变构蛋白设计

BioEmu｜生物分子仿真器

RFdiffusion进化史

Seminar｜AI辅助从头酶设计

David Baker｜RFpeptides设计环肽

文章合集

David Baker｜设计含β-strand的Binder

David Baker｜设计IDP的Binder

再看Binder设计

清华大学卢磊课题组招聘化学、生物、计算等方向的博士后与科研助理

Sci. Adv｜语言模型Pro-PRIME设计高稳定性高活性蛋白

直播预告｜去噪蛋白语言模型DePLM助力蛋白进化

读论文时如何辨别出“好东西”

Science｜语言模型 EVOLVEpro 帮助各种蛋白实现定向进化

Nat. Mach. Intell.｜蛋白设计工具预测突变热稳定性

Science｜基因语言模型Evo

GLM｜基因组语言模型的学习笔记

Seminar｜结构感知的蛋白语言模型 SaProt

AlphaFold3 最全食用指南

AlphaFold3 性能速度 & 机器配置

AlphaFold3 的输出的理解

AlphaFold 3 安装指南

AlphaFold 3 权重申请指南

AlphaFold3 的输入

AlphaFold3 开源啦！！！

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

Foldseek 有何妙用？

RSO｜超越RFdiffusion的蛋白设计方法？

DPLM｜扩散语言模型是多才多艺的蛋白学习者

RSO｜超越RFdiffusion的蛋白设计方法？

AF3｜复现进展

钟博子韬｜2024诺贝尔化学奖解读

BindCraft｜一站式设计高亲和力Binder

Pallatom｜线上报告

PROPREMAB｜预测抗体可开发性的机器学习框架

从零开始造抗体：诺奖技术引领的生物医药新革命！

2024年诺贝尔化学奖，刚刚颁发给了蛋白设计和结构预测

AI蛋白“相关”国内的公司

AI蛋白海内外课题组汇总

Binder设计大赛的结果启示

参数有效微调在蛋白质语言模型中的应用

图解AF3

简述酶的定向进化🦍

ProTrek | 融合多模态信息的蛋白质工具

ProteinBench｜蛋白基础模型最全面BenchMark

蛋白结构和序列的联合设计🤔

AlphaProteo｜从头设计高亲和力Binder蛋白

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

David Baker｜设计IDP的Binder

David Baker｜设计IDP的Binder

相关工作

1. 蛋白IDR区域序列的特异性靶向

1.1. 设计流程

第一步：口袋生成

第二步：口袋组装

第三步：线程

第四步：细化

1.2. 实验结果

相关工作

2.. 扩散设计IDP蛋白的Binder

2.1. RFdiffusion改进

2.2. 实验结果

参考文献

进群交流

往期合集

关注我们