AlphaProteo|从头设计高亲和力Binder蛋白

文摘   2024-09-06 14:39   广东  

AlphaProteo


最近,一项由Google DeepMind团队领导的研究取得了重大突破,他们开发了一套名为AlphaProteo的机器学习模型 [1],用于从头设计具有高亲和力的蛋白质结合剂(Binder)。这项技术设计Binder具有高亲和力、高成功率的特点,在SARS-COV-2和VEGF-A的实验验证结果,也预示着AlphaProteo未来在药物开发、疾病治疗以及生物研究中将有更广泛的应用。

目录

1. Jue Wang为何人?

2. 背景介绍

3. 模型猜测

4. 靶点选择

5. 实验验证

6. 讨论总结

1. Jue Wang为何人?

Jue Wang是AlphaProteo工作的通讯作者,点开其谷歌学术主页(下图),可见他是David Baker组出去的,也是RoseTTAfold、RFdiffusion等著名工作的Author之一。他把自己的在Baker组的蛋白设计经验,带到了DeepMind。

Jue Wang的谷歌学术主页

2. Binder设计的背景介绍

在本公众号前面文章《一文看懂Binder设计》中,已经介绍详细介绍其背景,简单搬运过来。

蛋白结合剂(Binder)除了作为潜在药物治疗方案外,还可以是新型生物技术工具的核心,如基于蛋白质的治疗、细胞治疗、生物传感器、疫苗候选物和其他合成生物学应用(下图)。

PPI蛋白在疫苗设计、基于蛋白质的治疗、CAR-T细胞疗法、生物传感器、或作为合成生物学工具等方面的应用。

3. AlphaProteo模型的猜测

AlphaProteo模型是由生成器(Generator)和过滤器(Filter)2个核心组件构成(图1A)。处于商业目的,论文中没有对这两个部分做任何详细的描述或解释。在下文,小编只能简单的猜测一下。

3.1 数据集

PDB数据库 + AF3自蒸馏数据集 关于这个数据集,群里阿坤说这是数据壁垒,彦哲说其是大超凡dataset pro max版,钟博说其是AFDB pro max 3。总之,AF3自蒸馏数据集成本很高,由于未开源,一般团队很难或成本很高生成这个数据集。

3. AlphaProteo模型的猜测

3.2 生成器

To design binders, we input a structure of the "target" protein and optionally designate "hotspot" residues representing the target epitope; the generative model outputs a structure and sequence of a candidate binder for that target (Figure 1B). We generate a large number of design candidates and then filter them to a smaller set prior to experimental testing.

关于生成器原文只表述了上面一小段话,可以提炼出两点:

  • 生成器输入是:靶点蛋白结构 + 靶蛋白表位区域的热点(Hotspot)。
  • 生成器输出是:Binder蛋白的结构和序列

可见AlphaProteo模型输入是和RFdiffusion [2] 生成Binder骨架是一样的。

差别在于AlphaProteo输出为Binder蛋白的结构和序列,这意味着:

  1. AlphaProteo生成器是一个全原子(All-Atom)模型;
  2. 同时也是一个蛋白结构序列联合设计(co-design)的模型;
  3. 同时还极有可能借鉴了AlphaFold3模型的一些组件,如:扩散模块。

目前做到以上3点,具有全原子并实现结构和序列联合设计能力的,小编了解到有力文所的Pallatom模型。还有彭建老师的PepFlow工作是一个全原子模型,生成结合多肽的算法,也有点类似,但也有些模型上的差异。

总之,AlphaProteo模型的这种考虑全原子,并能进行蛋白结构和序列联合设计能力的模型,极有可能成为蛋白设计的新范式。

图1B|AlphaProteo模型生成器的输入和输出

3. AlphaProteo模型的猜测

3.3 过滤器

the filter is a model or procedure that predicts whether a design will bind.

关于过滤器原文只表述了上面一小段话,可以提炼出两种可能性:

  • 过滤器可能是一个预测蛋白PPI的模型(model);
  • 过滤器也可能是一个基于规则/指标metrics的过程(procedure)。

关于过滤器PPI预测模型,小编虽然从PPI综述文章 了解一点,如:CAMP、MaSIF等算法,但也不敢妄自猜测。

但如果过滤器是一个基于规则/指标metrics的流程,可以从AlphaProteo论文中的benchmark看出一些门道。

AF3在曹龙兴博士nature Binder设计文章上验证成功率

上图可见,一是AF3相比于AF2有更高的识别Binder成功率,毕竟AF3有更多数据训练更好的模型架构;二是AF3的iptm、pae指标是最能反应Binder的指标。

但关于AlphaProteo的过滤器,小编并不倾向于是简单的iptm、pae这些指标的简单组合,更倾向于是一个PPI预测模型。这个PPI预测模型,也行考虑了生成器输出结构的蛋白-蛋白间的各种相互作用(氢键、疏水、结构互补),也可能考虑了AF3的各种置信度指标。

4. AlphaProteo靶点的选择

看到这篇优秀甚至有点颠覆的工作,有人会问,这是不是完全从头设计Binder?

所谓完全从头设计的意思是,该靶点没有任何已知Binder或PPI蛋白,或没有任何文献报导已知的Hotspot结合位点。

作者考虑了生物学重要性多样性,还考虑了与现有RFdiffusion方法对比,选择了以下8个不同难度的靶点:

  1. BHRF1:被选为具有先例的计算设计文献中的较易目标。
  2. IL-7RA:作为RFdiffusion方法实验成功率最高的目标,被选为比较基准之一。
  3. PD-L1TrkA:这两个目标在RFdiffusion方法中的实验成功率最低,因此被选为比较中难度较高的目标。
  4. SC2RBD:被选为具有先例的计算设计文献中的较难目标。
  5. IL-17A 已有文献设计的Binder亲和力较弱,被认为是高难度目标。
  6. VEGF-A:这个目标没有已知的计算设计的结合剂Binder,因此被认为是高难度目标。
  7. TNF𝛼:它被认为是非常困难的目标。

所以这些靶点设计Binder的难度顺序为:BHRF1 < IL-7RA < SC2RBD < PD-L1 < TrkA < VEGF-A < IL-17A < TNF𝛼

其中VEGF-A还有TNF𝛼这2个靶点属于完全从头设计,其他6个靶点虽然也是从头设计(de novo),但已有相关论文和工作设计出Binder,可以用于进行方法的对比。

5. 实验验证

5.1 亲和力和成功率

AlphaProteo与其他设计方法在实验成功率和结合亲和力(KD)方面的比较结果(表1)。

  1. 实验成功率:AlphaProteo在所有测试的目标上都显示出了较高的实验成功率,范围从9%(TrkA)到88%(BHRF1)。这表明AlphaProteo能够以较高的频率成功设计出具有结合能力的蛋白Binder。

  2. 结合亲和力(KD):AlphaProteo设计的蛋白质在多数靶标上展现出了低至亚纳摩尔级别的结合亲和力。最好的亲和力为82皮摩尔(pM),针对IL-7RA目标。这显示了AlphaProteo在设计高亲和力Binder方面的强大能力。

  3. 与现有方法比较

  • RFdiffusion:在IL-7RA、PD-L1和TrkA这三个目标上,AlphaProteo的实验成功率和结合亲和力均优于RFdiffusion方法。
  • 其他设计方法:AlphaProteo在多个目标上的表现也优于其他现有的设计方法,无论是在未经优化的初始设计还是经过实验优化后的设计。
  1. 优化后的设计:即使是与其他方法经过多轮实验优化后的设计相比,AlphaProteo在BHRF1、IL-7RA、PD-L1和TrkA这四个目标上仍然展现出了更好的结合亲和力。
表1|AlphaProteo与其他方法的比较

  1. 具体亲和力数值
  • AlphaProteo设计的蛋白质在BHRF1、SC2RBD、IL-7RA、PD-L1、TrkA、IL-17A和VEGF-A这七个目标上的KD值分别为8.5 nM、26 nM、0.082 nM、0.18 nM、0.96 nM、8.4 nM和0.48 nM。
  • 对于TNF𝛼目标,AlphaProteo未能获得成功的结合剂。
AlphaProteo设计Binder的亲和力

5. 实验验证

5.2 特异性的验证

针对每个靶标 (100 nM) 测量的顶级结合物子集 (1 nM) 的 HTRF 结合信号。所有结合物均显示出中靶结合信号,并且没有一种结合物显示出针对任何所测试的脱靶的任何非特异性结合信号。

简而言之,针对靶点A设计Binder,不会结合其他靶点B/C...

特异性的验证

5. 实验验证

5.3 共晶结构的验证

通过cryo-EM和X射线晶体学得到的结构SARS-CoV-2 Spike和VGEF-A,展示了结合剂与目标蛋白质之间的精确相互作用,包括氢键和疏水作用(下图D/E)。这些相互作用的细节证实了AlphaProteo在设计具有特定结合模式的蛋白质方面的有效性。

SARS-CoV-2 Spike和VGEF-A的共晶结构

将实验结构与AlphaFold预测的结构进行了比较,发现两者之间的一致性非常高,这进一步验证了AlphaProteo设计的可靠性。

实验结构和预测结构的对比

6. 讨论总结

本文介绍了AlphaProteo,这是由Google DeepMind开发的一套先进的机器学习模型,用于从头设计高亲和力的蛋白质结合剂。

AlphaProteo代表了蛋白质设计领域的一个重大进步,它能够无需经过多轮实验测试,直接设计出具有高亲和力的蛋白质结合剂。

通过在多个具有不同结构特性的目标蛋白质上进行实验,验证了AlphaProteo设计的蛋白质结合剂的高成功率和高亲和力。

AlphaProteo设计的结合剂在生物学功能测试中显示出了潜在的应用价值,例如在抑制VEGF信号传导和中和SARS-CoV-2病毒方面。

与现有的RFdiffusion等设计方法相比,AlphaProteo在多个目标上展现出了更好的性能,包括实验成功率和结合亲和力。

尽管AlphaProteo在多数目标上表现出色,但在TNF𝛼这一非常困难的目标上未能获得成功的结合剂,这表明在某些高难度的蛋白质设计问题上仍有挑战。

AlphaProteo的成功为未来的蛋白质设计提供了新的可能性,特别是在药物开发、疾病治疗和基础科学研究等领域。

参考文献
  1. Jue Wang, et al. "De novo design of high-affinity protein binders with AlphaProteo."
往期文章

蛋白设计综述BenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于AI蛋白相关的论文解读&学术速运


AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章