松散序列空间的蛋白设计
Scalable protein design using optimization in a relaxed sequence space
这篇文章是由Sergey Ovchinnikov等人撰写的,题为“Scalable protein design using optimization in a relaxed sequence space”,发表在《Science》杂志上,日期为2024年10月25日。文章主要介绍了一种改进版的幻觉(Hallucination)蛋白设计方法,ROS。该方法能够在一个放松的序列空间中进行高效的蛋白骨架设计。这种方法不需要重新训练,可以应用于多种规模的设计任务,包括单体蛋白、Binder 骨架生成等。
关键词
蛋白设计|骨架生成|Binder设计|单体设计
代码
https://github.com/sokrypton/ColabDesign/blob/main/af/examples/RSO.ipynb
速览
RSO是一种改进版的Hallucination RSO可应用三种蛋白设计任务
蛋白单体设计 Binder设计 功能位点支架(Site Scaffolding)
RSO在大型蛋白单体设计任务上,突破1000个氨基酸的瓶颈 RSO 在单体设计任务上比 RFdiffusion 更优秀
背景
近年来,由于结构预测模型的突破,显著加速了蛋白设计领域的发展。扩散生成模型,逐渐成为蛋白设计的主流,例如:
RFdiffusion,基于Frame的扩散 Chroma,基于坐标的扩散 EvoDiff,基于序列的扩散 Foldingdiff,基于二面角的扩散 ProteinGenerator,序列/结构扩散 + RoseTTAFold LatentDiff,隐空间的扩散
人们似乎忘了基于“幻觉(Hallucination)”的蛋白设计方法,Hallucination 是通过迭代来进化序列实现蛋白结构设计(下图)。
然而,Hallucination 存在一些缺陷,如:收敛速度慢、优化很困难、搜索有限的空间、实验成功率低、泛化能力差等。
为了克服这些缺陷,Sergey 提出了一种在松散的序列空间,使用优化,进行可扩展的蛋白设计策略,即本文的 RSO 方法。
RSO的核心思想:是通过在一个连续且松散的序列空间中进行优化,而不是局限于物理现实上的20种离散氨基酸序列。这种方法允许梯度下降算法更自由地探索序列空间,可以更平滑地寻找能够折叠成目标结构的蛋白序列。从而快速、高效地设计出能够折叠成目标三维结构的蛋白序列,无需重新训练网络。
这种方法可以显著提高复杂蛋白质设计的效率和成功率,本文也通过实验对该方法进行了验证,证明了其优越性。
原理
RSO是一种基于机器学习(ML)的蛋白质设计方法,它通过在放松的序列空间中进行优化来设计蛋白质。这种方法的核心在于,它允许在连续的序列空间中进行梯度下降优化,而不是在传统的离散氨基酸序列空间中。这样做的好处是可以更平滑、更直接地进行优化转换,从而提高蛋白质设计的效率和质量。
2.1 RSO的梯度下降优化
传统的Hallucination: 在传统方法中(图1A顶部previous work),更新后的放松序列通过argmax() 操作,被强制转换回物理现实的one-hot编码序列表示(虚线箭头)。这种转换会导致优化过程中的显著偏差,因为它可能会偏离最优梯度方向,从而影响蛋白质设计的准确性和效率。
RSO方法: RSO方法直接将更新后的放松序列,重新输入到结构预测网络中(图1A底部),进行下一次迭代,直到收敛。这种方法允许更自由的梯度下降路径,因为它避免了将序列强制转换回离散表示的需要(无虚线箭头的操作),从而更紧密地跟随最优梯度方向。
2.2 RSO的蛋白设计流程
RSO方法的完整设计流程的概览(图1C),这些步骤包括:
骨架设计(Backbone Design): 这是RSO流程的第一步,涉及到使用放松序列优化,来设计蛋白的骨架结构。
序列生成(Sequence Generation): 一旦生成的蛋白骨架收敛,RSO使用 ProteinMPNN 模块生成候选蛋白质序列。
候选设计筛选(Reprediction): 最后,使用结构预测网络(如ESMFold或AF2)对ProteinMPNN 生成的序列进行结构重预测,并使用置信度指标筛选与设计目标一致的序列。
2.3 RSO能处理的蛋白设计任务
使用RSO方法可以完成的各类蛋白质设计任务(图1B),比如:
结合蛋白设计(Binder Design): RSO可以设计出能够特定结合靶点的小蛋白Binder,这对于药物开发和生物传感器等至关重要。
功能位点支架(Site Scaffolding): RSO能够构建出具有特定功能位点的蛋白质骨架,这对于创建具有特定催化或结合功能的酶蛋白至关重要。
大型蛋白质设计(Large Designs): RSO能够设计包含多达1000个氨基酸的大型单链蛋白质,RSO 推动了可设计蛋白单体的规模上限,突破了 100 kDa 的分子量限制。这是由于 RSO 相比 RFdiffusion 在大蛋白上,有更低的 RMSD 和更高的 TM-Score。
结果
文章先在干实验(In silico)上验证了 RSO 的表现,做了 Benchmark 与 RFdiffusion 横向对比。
3.1 干实验结果
任务1: 单体蛋白设计
在蛋白设计任务上,特别是蛋白的骨架设计上,干实验上验证结果(图2A-C)相比著名的RFdiffusion更优,即RMSD更小,TM-Score更高。
通过提供目标骨架的信息作为初始猜测(initial guess,IG),AA_IG的AF2版本,能够更好地对大型蛋白质的预测质量,接近ESMFold的水平(图2D*)。
通过添加螺旋损失函数(Helix-loss),可以减少对二级螺旋结构的生成偏好,从而设计出更多样化的蛋白质结构(图2E)。更偏好生成螺旋结构是之前蛋白设计算法的一个缺点和通病。
任务2: 功能位点支架(Site Scaffolding)
展示了RSO在连续位点支架设计问题上的性能。
RSO在解决复杂的蛋白质设计任务,如位点支架设计时的性能。RSO成功地为所有设计任务找到了解决方案,表明其在蛋白质设计中的适用性和有效性。
RSO 在连续位点支架设计问题上的性能(图2G),并与RFDiffusion(RFD)进行了比较。
这三种方法的性能可能通过成功设计的数量来比较。结合了固定模板的使用的RSO fixed,可能在设计大型蛋白质和复杂结构时显示出优势,因为它可以利用已知的结构信息来指导设计过程。而无模板的RSO free 和 RFDiffusion 可能在探索全新的蛋白质结构空间方面有更多的灵活性,但可能需要更多的计算资源和优化步骤。
任务3: 结合蛋白设计(Binder Design)
文章对针对人类Activin II型A和B受体设计了结合蛋白。通过界面预测对齐误差(I_PAE)的分布(图2H顶部),展示了 RSO 具有设计结合蛋白的能力。这些结合蛋白在结构上是多样化的,包括所有β-β混合或经典的螺旋束结构(图2H底部)。
实验结果
论文更多是在湿实验验证了 RSO 在下游蛋白设计任务的表现,包括大型蛋白单体的设计任务上(图3-4),以及结合蛋白设计任务上的表现(图5)。
3.2 湿实验结果
任务1: 单体蛋白设计
表达量与可溶性:对76个蛋白质的SEC色谱图进行分析(图3B左),拟合SEC曲线得到蛋白分子量。统计发现18%的蛋白没有表达,58%的蛋白表达且可溶,还有23%的蛋白是Homooligomers
大蛋白单体的实验表征:大型蛋白质(500至1000个氨基酸)的AF2预测模型和SEC色谱图(图3C),说明蛋白是能表达且可溶的。作者进一步分析了设计的蛋白质观察到的与预期的分子量对比(图3D左),作者还通过负染色透射电子显微镜(nsTEM)重建的大型单体蛋白的结构(图3D右)。这些结果验证了 RSO 方法在设计大型蛋白质方面的准确性和可靠性。
大蛋白单体的结晶结构验证:作者通过结晶在实验上得到蛋白的三位结构,图4D-E展示了950和1000个氨基酸设计的蛋白质的实验cryo-EM密度图与ESMFold预测结构的叠加图。
任务2: 结合蛋白设计
RSO设计异质二聚体:首先介绍了RSO方法中设计异质二聚体的策略(图5A),包括如何通过定制损失函数来优化蛋白质之间的相互作用,以及如何利用AF2网络来预测和设计这些复合物的结构(图5B)。通过SEC分析展示了设计的异质二聚体在混合时形成复合物的能力(图5C)。SEC图显示了单体和二聚体的洗脱体积,从而验证了设计的异质二聚体是否能够在混合时正确组装。
Binder设计:图5F展示了设计的异质二聚体的结构和它们之间的结合亲和力实验数据。研究人员定量分析这些设计的异质二聚体之间的相互作用强度,其中较低的解离常数(Kd)表明了较强的结合亲和力,其范围从小于4.0 nM 到 790nM。
文献代码
[1] Scalable protein design using optimization in a relaxed sequence space.
[2] DOI: 10.1126/science.adq1741
[3] https://github.com/sokrypton/ColabDesign/blob/main/af/examples/RSO.ipynb
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运
进群交流
进群请备注好:地区-单位-昵称
广告勿扰!广告勿扰!广告勿扰!