RSO｜超越RFdiffusion的蛋白设计方法？

文摘 2024-10-26 10:14 广东

松散序列空间的蛋白设计

Scalable protein design using optimization in a relaxed sequence space

这篇文章是由Sergey Ovchinnikov等人撰写的，题为“Scalable protein design using optimization in a relaxed sequence space”，发表在《Science》杂志上，日期为2024年10月25日。文章主要介绍了一种改进版的幻觉（Hallucination）蛋白设计方法，ROS。该方法能够在一个放松的序列空间中进行高效的蛋白骨架设计。这种方法不需要重新训练，可以应用于多种规模的设计任务，包括单体蛋白、Binder 骨架生成等。

关键词

蛋白设计｜骨架生成｜Binder设计｜单体设计

代码

https://github.com/sokrypton/ColabDesign/blob/main/af/examples/RSO.ipynb

速览

RSO是一种改进版的Hallucination
RSO可应用三种蛋白设计任务

蛋白单体设计
Binder设计
功能位点支架（Site Scaffolding）

RSO在大型蛋白单体设计任务上，突破1000个氨基酸的瓶颈
RSO 在单体设计任务上比 RFdiffusion 更优秀

背景

近年来，由于结构预测模型的突破，显著加速了蛋白设计领域的发展。扩散生成模型，逐渐成为蛋白设计的主流，例如：

RFdiffusion，基于Frame的扩散
Chroma，基于坐标的扩散
EvoDiff，基于序列的扩散
Foldingdiff，基于二面角的扩散
ProteinGenerator，序列/结构扩散 + RoseTTAFold
LatentDiff，隐空间的扩散

人们似乎忘了基于“幻觉（Hallucination）”的蛋白设计方法，Hallucination 是通过迭代来进化序列实现蛋白结构设计（下图）。

然而，Hallucination 存在一些缺陷，如：收敛速度慢、优化很困难、搜索有限的空间、实验成功率低、泛化能力差等。

为了克服这些缺陷，Sergey 提出了一种在松散的序列空间，使用优化，进行可扩展的蛋白设计策略，即本文的 RSO 方法。

RSO的核心思想：是通过在一个连续且松散的序列空间中进行优化，而不是局限于物理现实上的20种离散氨基酸序列。这种方法允许梯度下降算法更自由地探索序列空间，可以更平滑地寻找能够折叠成目标结构的蛋白序列。从而快速、高效地设计出能够折叠成目标三维结构的蛋白序列，无需重新训练网络。

这种方法可以显著提高复杂蛋白质设计的效率和成功率，本文也通过实验对该方法进行了验证，证明了其优越性。

原理

RSO是一种基于机器学习（ML）的蛋白质设计方法，它通过在放松的序列空间中进行优化来设计蛋白质。这种方法的核心在于，它允许在连续的序列空间中进行梯度下降优化，而不是在传统的离散氨基酸序列空间中。这样做的好处是可以更平滑、更直接地进行优化转换，从而提高蛋白质设计的效率和质量。

2.1 RSO的梯度下降优化

传统的Hallucination： 在传统方法中（图1A顶部previous work），更新后的放松序列通过argmax() 操作，被强制转换回物理现实的one-hot编码序列表示（虚线箭头）。这种转换会导致优化过程中的显著偏差，因为它可能会偏离最优梯度方向，从而影响蛋白质设计的准确性和效率。
RSO方法： RSO方法直接将更新后的放松序列，重新输入到结构预测网络中（图1A底部），进行下一次迭代，直到收敛。这种方法允许更自由的梯度下降路径，因为它避免了将序列强制转换回离散表示的需要（无虚线箭头的操作），从而更紧密地跟随最优梯度方向。

2.2 RSO的蛋白设计流程

RSO方法的完整设计流程的概览（图1C），这些步骤包括：

骨架设计（Backbone Design）： 这是RSO流程的第一步，涉及到使用放松序列优化，来设计蛋白的骨架结构。
序列生成（Sequence Generation）： 一旦生成的蛋白骨架收敛，RSO使用 ProteinMPNN 模块生成候选蛋白质序列。
候选设计筛选（Reprediction）： 最后，使用结构预测网络（如ESMFold或AF2）对ProteinMPNN 生成的序列进行结构重预测，并使用置信度指标筛选与设计目标一致的序列。

2.3 RSO能处理的蛋白设计任务

使用RSO方法可以完成的各类蛋白质设计任务（图1B），比如：

结合蛋白设计（Binder Design）： RSO可以设计出能够特定结合靶点的小蛋白Binder，这对于药物开发和生物传感器等至关重要。
功能位点支架（Site Scaffolding）： RSO能够构建出具有特定功能位点的蛋白质骨架，这对于创建具有特定催化或结合功能的酶蛋白至关重要。
大型蛋白质设计（Large Designs）： RSO能够设计包含多达1000个氨基酸的大型单链蛋白质，RSO 推动了可设计蛋白单体的规模上限，突破了 100 kDa 的分子量限制。这是由于 RSO 相比 RFdiffusion 在大蛋白上，有更低的 RMSD 和更高的 TM-Score。

结果

文章先在干实验（In silico）上验证了 RSO 的表现，做了 Benchmark 与 RFdiffusion 横向对比。

3.1 干实验结果

任务1: 单体蛋白设计

在蛋白设计任务上，特别是蛋白的骨架设计上，干实验上验证结果（图2A-C）相比著名的RFdiffusion更优，即RMSD更小，TM-Score更高。

通过提供目标骨架的信息作为初始猜测（initial guess，IG），AA_IG的AF2版本，能够更好地对大型蛋白质的预测质量，接近ESMFold的水平（图2D*）。

通过添加螺旋损失函数（Helix-loss），可以减少对二级螺旋结构的生成偏好，从而设计出更多样化的蛋白质结构（图2E）。更偏好生成螺旋结构是之前蛋白设计算法的一个缺点和通病。

任务2: 功能位点支架（Site Scaffolding）

展示了RSO在连续位点支架设计问题上的性能。

RSO在解决复杂的蛋白质设计任务，如位点支架设计时的性能。RSO成功地为所有设计任务找到了解决方案，表明其在蛋白质设计中的适用性和有效性。

RSO 在连续位点支架设计问题上的性能（图2G），并与RFDiffusion（RFD）进行了比较。

这三种方法的性能可能通过成功设计的数量来比较。结合了固定模板的使用的RSO fixed，可能在设计大型蛋白质和复杂结构时显示出优势，因为它可以利用已知的结构信息来指导设计过程。而无模板的RSO free 和 RFDiffusion 可能在探索全新的蛋白质结构空间方面有更多的灵活性，但可能需要更多的计算资源和优化步骤。

任务3: 结合蛋白设计（Binder Design）

文章对针对人类Activin II型A和B受体设计了结合蛋白。通过界面预测对齐误差（I_PAE）的分布（图2H顶部），展示了 RSO 具有设计结合蛋白的能力。这些结合蛋白在结构上是多样化的，包括所有β-β混合或经典的螺旋束结构（图2H底部）。

实验结果

论文更多是在湿实验验证了 RSO 在下游蛋白设计任务的表现，包括大型蛋白单体的设计任务上（图3-4），以及结合蛋白设计任务上的表现（图5）。

3.2 湿实验结果

任务1: 单体蛋白设计

表达量与可溶性：对76个蛋白质的SEC色谱图进行分析（图3B左），拟合SEC曲线得到蛋白分子量。统计发现18%的蛋白没有表达，58%的蛋白表达且可溶，还有23%的蛋白是Homooligomers

大蛋白单体的实验表征：大型蛋白质（500至1000个氨基酸）的AF2预测模型和SEC色谱图（图3C），说明蛋白是能表达且可溶的。作者进一步分析了设计的蛋白质观察到的与预期的分子量对比（图3D左），作者还通过负染色透射电子显微镜（nsTEM）重建的大型单体蛋白的结构（图3D右）。这些结果验证了 RSO 方法在设计大型蛋白质方面的准确性和可靠性。

大蛋白单体的结晶结构验证：作者通过结晶在实验上得到蛋白的三位结构，图4D-E展示了950和1000个氨基酸设计的蛋白质的实验cryo-EM密度图与ESMFold预测结构的叠加图。

任务2: 结合蛋白设计

RSO设计异质二聚体：首先介绍了RSO方法中设计异质二聚体的策略（图5A），包括如何通过定制损失函数来优化蛋白质之间的相互作用，以及如何利用AF2网络来预测和设计这些复合物的结构（图5B）。通过SEC分析展示了设计的异质二聚体在混合时形成复合物的能力（图5C）。SEC图显示了单体和二聚体的洗脱体积，从而验证了设计的异质二聚体是否能够在混合时正确组装。

Binder设计：图5F展示了设计的异质二聚体的结构和它们之间的结合亲和力实验数据。研究人员定量分析这些设计的异质二聚体之间的相互作用强度，其中较低的解离常数（Kd）表明了较强的结合亲和力，其范围从小于4.0 nM 到 790nM。

文献代码

[1] Scalable protein design using optimization in a relaxed sequence space.

[2] DOI: 10.1126/science.adq1741

[3] https://github.com/sokrypton/ColabDesign/blob/main/af/examples/RSO.ipynb

进群交流

进群请备注好：地区-单位-昵称

广告勿扰！广告勿扰！广告勿扰！

往期合集

干货文章｜线上报告｜蛋白设计｜综述｜Binder｜Co-design｜Benchmark｜AF3｜David Baker｜ESM｜MaSIF｜结构预测｜语言模型｜骨架生成｜逆向折叠｜抗体设计｜多肽设计｜酶设计｜稳定性｜药物设计

关注我们

死磕自己，愉悦大家

专注于*AI蛋白相关的论文解读&学术速运

历史文章

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

最新文章

Seminar｜多模态生成式蛋白质基础模型

蛋白质功能-序列空间压缩

David Baker｜变构蛋白设计

BioEmu｜生物分子仿真器

RFdiffusion进化史

Seminar｜AI辅助从头酶设计

David Baker｜RFpeptides设计环肽

文章合集

David Baker｜设计含β-strand的Binder

David Baker｜设计IDP的Binder

再看Binder设计

清华大学卢磊课题组招聘化学、生物、计算等方向的博士后与科研助理

Sci. Adv｜语言模型Pro-PRIME设计高稳定性高活性蛋白

直播预告｜去噪蛋白语言模型DePLM助力蛋白进化

读论文时如何辨别出“好东西”

Science｜语言模型 EVOLVEpro 帮助各种蛋白实现定向进化

Nat. Mach. Intell.｜蛋白设计工具预测突变热稳定性

Science｜基因语言模型Evo

GLM｜基因组语言模型的学习笔记

Seminar｜结构感知的蛋白语言模型 SaProt

AlphaFold3 最全食用指南

AlphaFold3 性能速度 & 机器配置

AlphaFold3 的输出的理解

AlphaFold 3 安装指南

AlphaFold 3 权重申请指南