RSO|超越RFdiffusion的蛋白设计方法?

文摘   2024-10-27 10:36   广东  

松散序列空间的蛋白设计

Scalable protein design using optimization in a relaxed sequence space

这篇文章是由Sergey Ovchinnikov等人撰写的,题为“Scalable protein design using optimization in a relaxed sequence space”,发表在《Science》杂志上,日期为2024年10月25日。文章主要介绍了一种改进版的幻觉(Hallucination)蛋白设计方法,ROS。该方法能够在一个放松的序列空间中进行高效的蛋白骨架设计。这种方法不需要重新训练,可以应用于多种规模的设计任务,包括单体蛋白、Binder 骨架生成等

关键词

蛋白设计|骨架生成|Binder设计|单体设计

代码

https://github.com/sokrypton/ColabDesign/blob/main/af/examples/RSO.ipynb

速览

  1. RSO是一种改进版的Hallucination
  2. RSO可应用三种蛋白设计任务
  • 蛋白单体设计
  • Binder设计
  • 功能位点支架(Site Scaffolding)
  1. RSO在大型蛋白单体设计任务上,突破1000个氨基酸的瓶颈
  2. RSO 在单体设计任务上比 RFdiffusion 更优秀

背景

近年来,由于结构预测模型的突破,显著加速了蛋白设计领域的发展。扩散生成模型,逐渐成为蛋白设计的主流,例如:


人们似乎忘了基于“幻觉(Hallucination)”的蛋白设计方法,Hallucination 是通过迭代来进化序列实现蛋白结构设计下图)。

然而,Hallucination 存在一些缺陷,如:收敛速度慢、优化很困难、搜索有限的空间、实验成功率低、泛化能力差等

为了克服这些缺陷,Sergey 提出了一种在松散的序列空间,使用优化,进行可扩展的蛋白设计策略,即本文的 RSO 方法。

RSO的核心思想:是通过在一个连续且松散的序列空间中进行优化,而不是局限于物理现实上的20种离散氨基酸序列。这种方法允许梯度下降算法更自由地探索序列空间,可以更平滑地寻找能够折叠成目标结构的蛋白序列。从而快速、高效地设计出能够折叠成目标三维结构的蛋白序列,无需重新训练网络。

这种方法可以显著提高复杂蛋白质设计的效率和成功率,本文也通过实验对该方法进行了验证,证明了其优越性。

原理

RSO是一种基于机器学习(ML)的蛋白质设计方法,它通过在放松的序列空间中进行优化来设计蛋白质。这种方法的核心在于,它允许在连续的序列空间中进行梯度下降优化,而不是在传统的离散氨基酸序列空间中。这样做的好处是可以更平滑、更直接地进行优化转换,从而提高蛋白质设计的效率和质量


2.1 RSO的梯度下降优化

  • 传统的Hallucination: 在传统方法中(图1A顶部previous work),更新后的放松序列通过argmax() 操作,被强制转换回物理现实的one-hot编码序列表示(虚线箭头)。这种转换会导致优化过程中的显著偏差,因为它可能会偏离最优梯度方向,从而影响蛋白质设计的准确性和效率。

  • RSO方法: RSO方法直接将更新后的放松序列,重新输入到结构预测网络中(图1A底部),进行下一次迭代,直到收敛。这种方法允许更自由的梯度下降路径,因为它避免了将序列强制转换回离散表示的需要(无虚线箭头的操作),从而更紧密地跟随最优梯度方向。

图1A|RSO和传统方法对比

2.2 RSO的蛋白设计流程

RSO方法的完整设计流程的概览(图1C),这些步骤包括:

图1C|RSO的整体流程
  1. 骨架设计(Backbone Design): 这是RSO流程的第一步,涉及到使用放松序列优化,来设计蛋白的骨架结构。

  2. 序列生成(Sequence Generation): 一旦生成的蛋白骨架收敛,RSO使用 ProteinMPNN 模块生成候选蛋白质序列。

  3. 候选设计筛选(Reprediction): 最后,使用结构预测网络(如ESMFold或AF2)对ProteinMPNN 生成的序列进行结构重预测,并使用置信度指标筛选与设计目标一致的序列。

2.3 RSO能处理的蛋白设计任务

使用RSO方法可以完成的各类蛋白质设计任务(图1B),比如:

  • 结合蛋白设计(Binder Design): RSO可以设计出能够特定结合靶点的小蛋白Binder,这对于药物开发和生物传感器等至关重要。

  • 功能位点支架(Site Scaffolding): RSO能够构建出具有特定功能位点的蛋白质骨架,这对于创建具有特定催化或结合功能的酶蛋白至关重要。

  • 大型蛋白质设计(Large Designs): RSO能够设计包含多达1000个氨基酸的大型单链蛋白质,RSO 推动了可设计蛋白单体的规模上限,突破了 100 kDa 的分子量限制。这是由于 RSO 相比 RFdiffusion 在大蛋白上,有更低的 RMSD 和更高的 TM-Score。

图1B|RSO的蛋白设计任务

结果

文章先在干实验(In silico)上验证了 RSO 的表现,做了 Benchmark 与 RFdiffusion 横向对比。

3.1 干实验结果

任务1: 单体蛋白设计

在蛋白设计任务上,特别是蛋白的骨架设计上,干实验上验证结果(图2A-C)相比著名的RFdiffusion更优,即RMSD更小,TM-Score更高

图1A-C

通过提供目标骨架的信息作为初始猜测initial guess,IG),AA_IG的AF2版本,能够更好地对大型蛋白质的预测质量,接近ESMFold的水平(图2D*)。

图2D

通过添加螺旋损失函数(Helix-loss),可以减少对二级螺旋结构的生成偏好,从而设计出更多样化的蛋白质结构(图2E)。更偏好生成螺旋结构是之前蛋白设计算法的一个缺点和通病。

图2E

任务2: 功能位点支架(Site Scaffolding)

展示了RSO在连续位点支架设计问题上的性能。

RSO在解决复杂的蛋白质设计任务,如位点支架设计时的性能。RSO成功地为所有设计任务找到了解决方案,表明其在蛋白质设计中的适用性和有效性。

RSO 在连续位点支架设计问题上的性能(图2G),并与RFDiffusion(RFD)进行了比较。

这三种方法的性能可能通过成功设计的数量来比较。结合了固定模板的使用的RSO fixed,可能在设计大型蛋白质和复杂结构时显示出优势,因为它可以利用已知的结构信息来指导设计过程。而无模板的RSO free 和 RFDiffusion 可能在探索全新的蛋白质结构空间方面有更多的灵活性,但可能需要更多的计算资源和优化步骤。

图2G

任务3: 结合蛋白设计(Binder Design)

文章对针对人类Activin II型A和B受体设计了结合蛋白。通过界面预测对齐误差(I_PAE)的分布(图2H顶部),展示了 RSO 具有设计结合蛋白的能力。这些结合蛋白在结构上是多样化的,包括所有β-β混合或经典的螺旋束结构(图2H底部)。

图2F

实验结果

论文更多是在湿实验验证了 RSO 在下游蛋白设计任务的表现,包括大型蛋白单体的设计任务上(图3-4),以及结合蛋白设计任务上的表现(图5)。

3.2 湿实验结果

任务1: 单体蛋白设计

表达量与可溶性:对76个蛋白质的SEC色谱图进行分析(图3B左),拟合SEC曲线得到蛋白分子量。统计发现18%的蛋白没有表达,58%的蛋白表达且可溶,还有23%的蛋白是Homooligomers

图3B

大蛋白单体的实验表征:大型蛋白质(500至1000个氨基酸)的AF2预测模型和SEC色谱图(图3C),说明蛋白是能表达且可溶的。作者进一步分析了设计的蛋白质观察到的与预期的分子量对比(图3D左),作者还通过负染色透射电子显微镜(nsTEM)重建的大型单体蛋白的结构(图3D右)。这些结果验证了 RSO 方法在设计大型蛋白质方面的准确性和可靠性。

图3C-D

大蛋白单体的结晶结构验证:作者通过结晶在实验上得到蛋白的三位结构,图4D-E展示了950和1000个氨基酸设计的蛋白质的实验cryo-EM密度图与ESMFold预测结构的叠加图。

图4D-E

任务2: 结合蛋白设计

RSO设计异质二聚体:首先介绍了RSO方法中设计异质二聚体的策略(图5A),包括如何通过定制损失函数来优化蛋白质之间的相互作用,以及如何利用AF2网络来预测和设计这些复合物的结构(图5B)。通过SEC分析展示了设计的异质二聚体在混合时形成复合物的能力(图5C)。SEC图显示了单体和二聚体的洗脱体积,从而验证了设计的异质二聚体是否能够在混合时正确组装。

图5A-C

Binder设计图5F展示了设计的异质二聚体的结构和它们之间的结合亲和力实验数据。研究人员定量分析这些设计的异质二聚体之间的相互作用强度,其中较低的解离常数(Kd)表明了较强的结合亲和力,其范围从小于4.0 nM 到 790nM。

文献代码

[1] Scalable protein design using optimization in a relaxed sequence space.

[2] DOI: 10.1126/science.adq1741

[3] https://github.com/sokrypton/ColabDesign/blob/main/af/examples/RSO.ipynb

进群交流

进群请扫码填写问卷!

广告勿扰!广告勿扰!广告勿扰!

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于*AI蛋白相关的论文解读&学术速运

历史文章

  1. AlphaFold3 图解

  2. AlphaFold3 万字长文解读

  3. AlphaFold3 预测蛋白突变亲和力变化?

  4. 一文看懂 Binder 设计

  5. 蛋白结构和序列的共同设计

  6. 深度学习如何助力抗体设计

  7. 蛋白计算海内外课题组汇总

  8. Meta AI 蛋白语言模型ESM系列

  9. COMPSS 酶蛋白从头设计的筛选方法

  10. 简述酶的定向进化

  11. Cell 综述:从头蛋白设计之结构到功能

  12. CSH 综述文章:结构预测与蛋白设计

  13. CSH 综述文章:蛋白质序列的生成模型

  14. Nat. Biotech. 蛋白设计专刊

  15. Nat. Biotech. 深度学习与功能蛋白设计

  16. Nat. Biotech. 功能蛋白从头设计的星火

  17. ProteinBench 蛋白设计最全的Benchmark

  18. ProteinGym 蛋白突变最好的Benchmark

  19. DiG 预测蛋白构象分布

  20. MaSIF 基于表面指纹的蛋白从头设计

  21. SaProt 结构感知的蛋白质语言模型

  22. InstructPLM 语言模型与逆向折叠的结合

  23. CRISPR-GPT 基因编辑的大模型智能体

AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章