Binder设计大赛的结果启示

文摘   2024-10-01 12:58   重庆  

Binder设计大赛的结果解析

EGFR Binder design Competition

在Adaptyv Bio公司组织的这个蛋白设计竞赛中,可以测试你蛋白质设计师的技能,通过设计一个与EGFR的细胞外结构域结合的蛋白质来测试,EGFR是一个与癌症相关的药物靶点。设计蛋白也会进行湿实验的实验验证。一句话来讲,这个比赛就是针对EGFR靶点设计结合蛋白

关键词

蛋白设计|EGFR|Binder

链接

  • 官网:https://design.adaptyvbio.com/
  • 仓库:https://github.com/adaptyvbio/egfr_competition_1
目录
  1. 背景介绍
  2. 设计结果
  • 2.1 干实验上的结果
  • 2.2 湿实验的验证
  1. 一些启示
  • 3.1 启示1: 压缩蛋白的设计思路
  • 3.2 启示2: 设计方案似乎并不重要
  • 3.3 启示3: 干实验指标似乎没有指引性

1. 背景介绍

小编在看到《EGFR 蛋白 Binder 设计大赛全军覆没?》一文之后,也好奇去看了下比赛结果,也参考编者CX的一些内容,撰写了本文。

表皮生长因子受体(EGFR)是一种跨膜蛋白,它在细胞生长、分化和存活中发挥着关键作用。它在包括非小细胞肺癌、结直肠癌和头颈癌在内的多种癌症中经常过表达或发生突变。这使得EGFR成为癌症治疗的重要靶点,如西妥昔单抗(Cetuximab),这是一种年收入超过10亿美元的抗体。

2. 设计结果

2.1 干实验的iPAE指标结果

AF2的 iPAE 预测分数经常用作评估蛋白质有效结合目标潜力的指标。在这次竞赛中,将其用作计算指标筛选,以选择将在实验室中进行测试的Binder(下图1)。然而,需要注意的是,低iPAE分数并不一定与低亲和力KD相关,这就是为什么实验测试仍然至关重要。这个虚拟排行榜上突出的设计是基于计算预测选出的,但最终排行榜将取决于基于实验室的实验结果。

图1|计算上基于ipAE指标的虚拟榜单

什么是iPAE?

iPAE代表“interface Predicted Aligned Error”,即预测界面对齐误差,它衡量的是AlphaFold2对预测结构中两个残基之间相对位置的信心,单位是埃(Å)。iPAE值越低,表示预测的准确性越高,AlphaFold2对残基位置的信心越大;反之,iPAE值越高,表示预测的准确性越低,AlphaFold2对残基位置的信心越小。

2.2 湿实验的验证结果

参赛者共提交202条Binder序列,最终有147条序列成功表达(下图2),绿色是是表达量较高的,橙黄色是中等表达量,灰色是表达量较低。

图2|针对EGFR设计Binder的表达量

在有表达的蛋白Binder中,继续测试其与EGFR靶点的亲和力KD数值(下图3)。

  • 仅有7条与靶点显示出结合能力
  • 亲和力都低于抗体Cetuximab_scFv(阳性对照,黄色线)
  • 亲和力最强的两条序列,与已知Binder序列的编辑距离小于10,违反了比赛要求的新颖性
  • 于是最优设计为第3条序列,亲和力约0.5 μM
图2|针对EGFR设计Binder的亲和力KD

3. 一些启示

3.1 启示1: 压缩蛋白的设计思路

Ahmed Sameh设计的两条序列,亲和力是最高的(见下表)。小编还未对这两个Binder序列与抗体序列进行Align对比序列,就能肉眼看出来,这两条序列是抗体(Cetuximab_scFv)压缩后的序列,有很高的序列相似性。

这说明“压缩蛋白的设计思路”是可行的。那么其他靶点,如果已知抗体或PPI蛋白,最好有共晶或高置信度结构,把蛋白压缩设计Binder也是很高成功率的一种Binder设计策略。但感觉这对专家的经验、先验知识等要求极高。

namekdsequence
Cetuximab_scFv6.638E-09QVQLKQSGPGLVQPSQSLSITCTVSGFSLTNYGVHWVRQSPGKGLEWLGVIWSGGNTDYNTPFTSRLSINKDNSKSQVFFKMNSLQSNDTAIYYCARALTYYDYEFAYWGQGTLVTVSAGGGGSGGGGSGGGGSDILLTQSPVILSVSPGERVSFSCRASQSIGTNIHWYQQRTNGSPRLLIKYASESISGIPSRFSGSGSGTDFTLSINSVESEDIADYYCQQNNNWPTTFGAGTKLELK
ahmedsameh-Q33.694E-08WVQLQESGGGLVQPGGSLRLSCAASGRTFSSYAMGWFRQAPGKQREFVAAIRWSGGYTYYTDSVKGRFTISRDNAKTTVYLQMNSLKPEDTAVYYCAATYLSSDYSRYALPQRPLDYDYWGQGTQVTVSSLE
ahmedsameh-yy26.275E-08QVQLQESGGGLVQPGGSLRLSCAASGRTFSSHAMGWFRQAPGKQREFVAAIRWSGGYTYYTDSVKGRFTISRDNAKTTVYLQMNSLKPEDTAVYYCAATYLSSDYSRYALPQRPLDYDYWGQGTQVTVSSLE


3.2 启示2: 设计方案似乎并不重要

下表就是针对EGFR靶点设计成功,有亲和力的Binder参赛者的设计方法方案。可见,这些方法方案都未在之前文章《一文看懂Binder设计》中介绍到。这里采用了 RosettaHallucination等方法。而常见的 RFdiffusion + ProteinMPNN 联合方案设计结果都是失败的。

更多关于这些设计方案的介绍可阅读《EGFR 蛋白 Binder 设计大赛全军覆没?》

总之,给我的感觉就是,用什么工具算法并不重要,能设计出来就行。因为Binder设计这些工具的成功率都不高。AlphaProteo虽然拥有一骑绝尘的成功率,但未开源未公开任何信息。

kdmodel_namesmethods
3.694E-08["Rosetta"]["Physics Based"]
6.275E-08["Rosetta"]["Physics Based"]
4.909E-07["AF2 Backprop"]["Hallucination"]
4.773E-06["AF2 Backprop"]["Hallucination"]
1E-05["ProteinMPNN"]["Diversified Binder"]
1E-05[][]
2.293E-05[][]


3.3 启示3: 干实验指标似乎没有指引性

3.3.1 亲和力最优的,指标很差

从有亲和力结合的7个设计序列(见下表),基本上这些Binder在AlphaFold2预测结构指标上plDDT和pAE都很差,只有一个 pAE 在 9 Å左右。

所以,结合 AlphaProteo文章里的benchmark,ipTM/pAE等置信度指标能有一定指引性(3%成功率左右),但也不能完全依赖依靠这类指标。

namekdplddtpae_interaction
ahmedsameh-Q33.694E-0877.840428.2179
ahmedsameh-yy26.275E-0877.288928.1771
martin.pacesa-EGFR_l138_s90285_mpnn24.909E-0788.653616.8788
x.rustamov-m_18_414.773E-0689.580614.9218
alecl-Sequence11E-0584.86239.2065
alan.blakely-design…1E-0549.140121.4312
adrian.tripp-egfr_cetuxi_0133_0002_A2.293E-0590.535916.0864


3.3.2 指标最优的,亲和力没有

我们在上文看到了图1的虚拟榜单,那些序列也进行了亲和力实验验证,我们来看下表的结果,可见这些设计虽然pAE很低,但与靶点之间都没有亲和力。

namekdplddtpae_interaction
alex.naka-8a700dNo90.85088.092051
alex.naka-233236No89.88988.105694
alex.naka-65bf78No89.08928.426440
alecl-Sequence5No86.46269.042515
alecl-Sequence4No85.86139.047252
alecl-Sequence3No85.75289.098682
alecl-Sequence6No85.18519.163121
往期文章

蛋白设计综述BenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计
关注我们

死磕自己,愉悦大家

专注于AI蛋白相关的论文解读&学术速运


AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章