Binder设计大赛的结果解析
EGFR Binder design Competition
在Adaptyv Bio公司组织的这个蛋白设计竞赛中,可以测试你蛋白质设计师的技能,通过设计一个与EGFR的细胞外结构域结合的蛋白质来测试,EGFR是一个与癌症相关的药物靶点。设计蛋白也会进行湿实验的实验验证。一句话来讲,这个比赛就是针对EGFR靶点设计结合蛋白。
关键词
蛋白设计|EGFR|Binder
链接
官网:https://design.adaptyvbio.com/ 仓库:https://github.com/adaptyvbio/egfr_competition_1
目录
背景介绍 设计结果
2.1 干实验上的结果 2.2 湿实验的验证
一些启示
3.1 启示1: 压缩蛋白的设计思路 3.2 启示2: 设计方案似乎并不重要 3.3 启示3: 干实验指标似乎没有指引性
1. 背景介绍
小编在看到《EGFR 蛋白 Binder 设计大赛全军覆没?》一文之后,也好奇去看了下比赛结果,也参考编者CX的一些内容,撰写了本文。
表皮生长因子受体(EGFR)是一种跨膜蛋白,它在细胞生长、分化和存活中发挥着关键作用。它在包括非小细胞肺癌、结直肠癌和头颈癌在内的多种癌症中经常过表达或发生突变。这使得EGFR成为癌症治疗的重要靶点,如西妥昔单抗(Cetuximab),这是一种年收入超过10亿美元的抗体。
2. 设计结果
2.1 干实验的iPAE指标结果
AF2的 iPAE 预测分数经常用作评估蛋白质有效结合目标潜力的指标。在这次竞赛中,将其用作计算指标筛选,以选择将在实验室中进行测试的Binder(下图1)。然而,需要注意的是,低iPAE分数并不一定与低亲和力KD相关,这就是为什么实验测试仍然至关重要。这个虚拟排行榜上突出的设计是基于计算预测选出的,但最终排行榜将取决于基于实验室的实验结果。
什么是iPAE?
iPAE代表“interface Predicted Aligned Error”,即预测界面对齐误差,它衡量的是AlphaFold2对预测结构中两个残基之间相对位置的信心,单位是埃(Å)。iPAE值越低,表示预测的准确性越高,AlphaFold2对残基位置的信心越大;反之,iPAE值越高,表示预测的准确性越低,AlphaFold2对残基位置的信心越小。
2.2 湿实验的验证结果
参赛者共提交202条Binder序列,最终有147条序列成功表达(下图2),绿色是是表达量较高的,橙黄色是中等表达量,灰色是表达量较低。
在有表达的蛋白Binder中,继续测试其与EGFR靶点的亲和力KD数值(下图3)。
仅有7条与靶点显示出结合能力 亲和力都低于抗体Cetuximab_scFv(阳性对照,黄色线) 亲和力最强的两条序列,与已知Binder序列的编辑距离小于10,违反了比赛要求的新颖性 于是最优设计为第3条序列,亲和力约0.5 μM
3. 一些启示
3.1 启示1: 压缩蛋白的设计思路
Ahmed Sameh设计的两条序列,亲和力是最高的(见下表)。小编还未对这两个Binder序列与抗体序列进行Align对比序列,就能肉眼看出来,这两条序列是抗体(Cetuximab_scFv)压缩后的序列,有很高的序列相似性。
这说明“压缩蛋白的设计思路”是可行的。那么其他靶点,如果已知抗体或PPI蛋白,最好有共晶或高置信度结构,把蛋白压缩设计Binder也是很高成功率的一种Binder设计策略。但感觉这对专家的经验、先验知识等要求极高。
name kd sequence Cetuximab_scFv 6.638E-09 QVQLKQSGPGLVQPSQSLSITCTVSGFSLTNYGVHWVRQSPGKGLEWLGVIWSGGNTDYNTPFTSRLSINKDNSKSQVFFKMNSLQSNDTAIYYCARALTYYDYEFAYWGQGTLVTVSAGGGGSGGGGSGGGGSDILLTQSPVILSVSPGERVSFSCRASQSIGTNIHWYQQRTNGSPRLLIKYASESISGIPSRFSGSGSGTDFTLSINSVESEDIADYYCQQNNNWPTTFGAGTKLELK ahmedsameh-Q3 3.694E-08 WVQLQESGGGLVQPGGSLRLSCAASGRTFSSYAMGWFRQAPGKQREFVAAIRWSGGYTYYTDSVKGRFTISRDNAKTTVYLQMNSLKPEDTAVYYCAATYLSSDYSRYALPQRPLDYDYWGQGTQVTVSSLE ahmedsameh-yy2 6.275E-08 QVQLQESGGGLVQPGGSLRLSCAASGRTFSSHAMGWFRQAPGKQREFVAAIRWSGGYTYYTDSVKGRFTISRDNAKTTVYLQMNSLKPEDTAVYYCAATYLSSDYSRYALPQRPLDYDYWGQGTQVTVSSLE 3.2 启示2: 设计方案似乎并不重要
下表就是针对EGFR靶点设计成功,有亲和力的Binder参赛者的设计方法方案。可见,这些方法方案都未在之前文章《一文看懂Binder设计》中介绍到。这里采用了 Rosetta 和 Hallucination等方法。而常见的 RFdiffusion + ProteinMPNN 联合方案设计结果都是失败的。
更多关于这些设计方案的介绍可阅读《EGFR 蛋白 Binder 设计大赛全军覆没?》。
总之,给我的感觉就是,用什么工具算法并不重要,能设计出来就行。因为Binder设计这些工具的成功率都不高。AlphaProteo虽然拥有一骑绝尘的成功率,但未开源未公开任何信息。
kd model_names methods 3.694E-08 ["Rosetta"] ["Physics Based"] 6.275E-08 ["Rosetta"] ["Physics Based"] 4.909E-07 ["AF2 Backprop"] ["Hallucination"] 4.773E-06 ["AF2 Backprop"] ["Hallucination"] 1E-05 ["ProteinMPNN"] ["Diversified Binder"] 1E-05 [] [] 2.293E-05 [] [] 3.3 启示3: 干实验指标似乎没有指引性
3.3.1 亲和力最优的,指标很差
从有亲和力结合的7个设计序列(见下表),基本上这些Binder在AlphaFold2预测结构指标上plDDT和pAE都很差,只有一个 pAE 在 9 Å左右。
所以,结合 AlphaProteo文章里的benchmark,ipTM/pAE等置信度指标能有一定指引性(3%成功率左右),但也不能完全依赖依靠这类指标。
name kd plddt pae_interaction ahmedsameh-Q3 3.694E-08 77.8404 28.2179 ahmedsameh-yy2 6.275E-08 77.2889 28.1771 martin.pacesa-EGFR_l138_s90285_mpnn2 4.909E-07 88.6536 16.8788 x.rustamov-m_18_41 4.773E-06 89.5806 14.9218 alecl-Sequence1 1E-05 84.8623 9.2065 alan.blakely-design… 1E-05 49.1401 21.4312 adrian.tripp-egfr_cetuxi_0133_0002_A 2.293E-05 90.5359 16.0864 3.3.2 指标最优的,亲和力没有
我们在上文看到了图1的虚拟榜单,那些序列也进行了亲和力实验验证,我们来看下表的结果,可见这些设计虽然pAE很低,但与靶点之间都没有亲和力。
name kd plddt pae_interaction alex.naka-8a700d No 90.8508 8.092051 alex.naka-233236 No 89.8898 8.105694 alex.naka-65bf78 No 89.0892 8.426440 alecl-Sequence5 No 86.4626 9.042515 alecl-Sequence4 No 85.8613 9.047252 alecl-Sequence3 No 85.7528 9.098682 alecl-Sequence6 No 85.1851 9.163121
往期文章
蛋白设计|综述|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运