这篇文章介绍了一种新的深度学习方法,称为ProteinMPNN,用于解决蛋白质序列设计的问题。传统的蛋白质设计方法通常基于物理能量的优化,例如Rosetta,但这些方法在计算上较为耗时。相比之下,ProteinMPNN通过机器学习的方式直接从已有的蛋白质结构数据库中学习,以找到最可能折叠成目标结构的蛋白质序列。
研究者通过实验证明了ProteinMPNN的有效性,ProteinMPNN成功组装了罗塞塔失败的四面体纳米颗粒设计就证明了这一点。即使存在点突变,ProteinMPNN也能够生成与靶域表现出强结合力的序列,这凸显了其设计具有特定功能的蛋白质的潜力。通过距离编码整合空间信息使ProteinMPNN能够捕获残基之间的结构关系,从而实现更准确的折叠预测并改善设计蛋白质的结构特性。
ProteinMPNN在保持蛋白质骨架不变的情况下,重新生成序列,成功地提高了蛋白质的可溶性和稳定性。文章还着重强调了ProteinMPNN在设计多种类型的蛋白质结构方面的成功,包括单体、组装体、循环寡聚体和纳米颗粒结构。
作者指出ProteinMPNN的优势在于不需要针对特定设计挑战进行大量定制,从而提高了蛋白质设计的广泛可及性。此外,ProteinMPNN生成的序列对结晶也更具倾向,有助于更好地了解设计蛋白质的结构。
使用下载地址
github地址:
https://github.com/dauparas/ProteinMPNN
运行前提,安装python,安装conda(非必要),从conda上下载运行环境PyTorch, Numpy。
python官网:www.python.org/
conda官网:https://www.anaconda.com/
conda 下载 PyTorch, Numpy。
ProteinMPNN 如何编码距离?
ProteinMPNN 使用消息传递神经网络 (MPNN) 架构对氨基酸残基之间的距离进行编码。
-N、Ca、C、O 和虚拟 Cb 原子之间的距离使用 MPNN 进行编码和处理,以获得图节点和边缘特征。这种编码允许将空间信息整合到设计过程中,从而能够按随机解码顺序迭代生成氨基酸。通过编码和处理距离,ProteinMPNN 可以捕获残基之间的结构关系,这对于精确的蛋白质设计至关重要。
传统方法的局限性是什么?
传统蛋白质设计方法的局限性:
基于物理的传统方法,例如罗塞塔,面临计算难度,因为需要计算所有可能结构的能量,包括不需要的寡聚态和聚合态。
设计目标与显式优化之间缺乏一致性通常需要进行自定义才能生成可正确折叠的序列。
在限制范围方面可能会出现歧义,例如在蛋白质表面放置疏水氨基酸。传严重依赖人类专家的判断和专业知识,这使它们变得主观,并可能限制其稳健性 。
传统方法(例如原生序列恢复)中使用的计算机指标可能与正确的折叠不相关,并且可能对晶体学分辨率敏感。
在蛋白质设计模型的训练过程中引入噪声的作用
因为带噪声的模型更关注整体拓扑特征,例如整体极性-非极性序列模式,而不是局部结构细节。例如,使用0.3-Å噪声训练的模型生成的序列,其AlphaFold预测在真实结构的lDDT-Ca(14)为95.0和90.0的情况下,比未加噪声或轻微加噪声的模型多两到三倍(图2C;使用更高水平的噪声进行训练增加了对较宽松lDDT截断的成功率)。在蛋白质设计计算中,使用更多噪声训练的模型具有生成更强烈映射到目标结构的序列的优势,通过预测方法(这增加了设计通过基于预测的筛选器的频率,相应地也可能增加达到所需目标结构的折叠频率)
图1. ProteinMPNN的架构。(A) N、Ca、C、O和虚拟Cb之间的距离通过消息传递神经网络(编码器)进行编码和处理,以获得图节点和边的特征。编码后的特征与部分序列一起,用于以随机解码顺序迭代生成氨基酸。(B) 固定的从左到右的解码无法使用序列上下文(绿色)进行前置位置(黄色)的解码,而使用随机解码顺序训练的模型可以在推断期间使用任意解码顺序。可以选择解码顺序,使得首先解码固定上下文。(C) 可以将链内和链间的残基位置绑定在一起,实现对称、重复蛋白质和多状态设计。在此示例中,使用不同链中的位置耦合设计同源三聚体。绑定位置的预测非归一化概率取平均,得到单个概率分布,从中采样氨基酸。
图2. ProteinMPNN的体外评估。
(A) ProteinMPNN的原生序列恢复率高于Rosetta。最近的八个邻居的平均Cb距离(x轴)报告了埋藏情况,最埋藏的位置在左侧,更显露的位置在右侧;在所有埋藏水平上,ProteinMPNN优于Rosetta。ProteinMPNN的平均序列恢复率为52.4%,而Rosetta为32.9%。
(B) ProteinMPNN对单体以及Cb-Cb < 8 Å的同聚物和异聚物界面的序列恢复率高;小提琴图显示了690个单体、732个同聚物和98个异聚物。
(C) 序列恢复(黑色)和相对AlphaFold成功率(蓝色)随训练噪声水平的变化。对于更高准确度的预测(圆圈),较小量的噪声是最佳的(1.0对应1.8%的成功率),而对于在较低准确度截止时最大化预测成功的情况(方形),使用更多噪声的模型更好(1.0对应6.7%的成功率)。
(D) 随着采样温度的变化,序列恢复和多样性的变化。
(E) 使用ProteinMPNN重新设计原生蛋白质骨架与使用没有多序列信息的原始原生序列相比,显著提高了AlphaFold的预测准确性。在两种情况下都输入了单个序列(设计或原生)。深橙色表示重叠。
(F) ProteinMPNN重新设计之前由Rosetta设计的NTF2折叠蛋白质(总共3000个骨架)显著提高了AlphaFold的单序列预测准确性。深橙色表示重叠。
图3. ProteinMPNN设计的结构表征。 (A) 在AlphaFold产生的一组单体和同源寡聚体上比较可溶性蛋白表达(蓝色)与使用ProteinMPNN设计的相同一组骨架的序列(橙色)(N = 129)。在大肠杆菌中表达后,通过镍-NTA纯化蛋白质的凝胶排阻曲线下的积分面积得到的总可溶性蛋白产量,与ProteinMPNN rescue后原始序列的几乎不溶蛋白相比显著增加(相当于1升培养液的中位产量分别为9和247毫克)。箱型图表示可溶性产量分布的四分位数,whiskers显示其余部分。 (B到D) 对来自(A)中组的单体幻觉和相应ProteinMPNN rescue的深入表征。像(A)中的几乎所有设计一样,该设计模型与PDB的序列和结构相似性很低[E值=使用HHblits对UniRef100进行的期望值(期望值)=2.8;对PDB使用HHblits的TM-score= 0.56]。正如(B)所示,ProteinMPNN-redesigned设计具有很高的热稳定性,在95°C时的圆二色谱曲线与25°C时相比几乎没有变化。MRE,平均残基椭圆度。如(C)所示,原始设计的SEC曲线与ProteinMPNN序列设计重叠,后者在预期保留体积处有一个明确的单分散峰。mAU,毫吸收单位。如(D)所示,ProteinMPNN(PDB ID 8CYK)设计的晶体结构与设计模型几乎相同(在130个残基上的2.35-Å RMSD);有关更多信息,请参见fig. S5。右侧面板显示模型侧链在电子密度中的位置;晶体侧链为绿色,AlphaFold侧链为蓝色。 (E和F) ProteinMPNN rescue来自具有完全重复结构和序列单元的Rosetta设计。在ProteinMPNN序列推断期间,绑定了重复单元中相应位置的残基。如(E)所示,具有绑定残基的骨架设计模型(橙色)和MPNN重新设计的序列AlphaFold模型(蓝色)(在232个残基上的~1.2-Å误差)。如(F)所示,通过固定金属亲和层析(IMAC)纯化的原始Rosetta设计和两个ProteinMPNN重新设计的SEC曲线。 (G和H) 在ProteinMPNN序列推断期间在链内和链间绑定残基,以强制实现重复蛋白和循环对称性。如(G)所示,是设计模型的侧视图。一组绑定的残基显示为红色。如(H)所示,是设计模型的俯视图。 (I) 经过纯化的设计的阴极染电子显微图。 (J) 图(I)中图像的类平均与(H)中的俯视图密切匹配。 (K) ProteinMPNN接口设计拯救了失败的两组分Rosetta四面体纳米颗粒设计T33-27(16)。经过ProteinMPNN rescue后,纳米颗粒容易组装且产量高,晶体结构(灰色)与设计模型(绿色和紫色)几乎相同(在形成ProteinMPNN rescue的界面上的两个完整非对称单元上的骨架RMSD为1.2埃)。
图4. 使用ProteinMPNN设计蛋白功能。(A) 设计方案。第一面板显示结构(PDB ID 2W0Z),为Gab2肽的一个片段结合到人类Grb2 C-term SH3结构域(核心SH3结合基序PPPRPPK为绿色;目标呈面和蓝色)。在第二面板中,使用RIFDOCK(20)将螺旋束骨架对接到肽的外露面,然后使用Rosetta remodel构建连接肽与骨架的环。使用Rosetta序列设计并进行层设计任务操作,以优化融合物(青色)的序列,以提高稳定性,提高肽-螺旋束界面的刚性和与Grb2 SH3结构域的结合亲和力。第三面板显示设计的结合物序列的ProteinMPNN重新设计(橙色);显示了涉及天冬酰胺侧链之间的氢键的绿色和插图。在第四面板中,将两个天冬酰胺(N)突变为天冬酸(D)会破坏目标肽的支架。(B) 使用生物层干涉法进行结合的实验特性。将生物素化的人类Grb2 C端SH3结构域加载到Streptavidin(SA)生物传感器上,然后将其浸入含有不同浓度SH3结合肽AIAPPPRPPKPSQ(第一面板;A,丙氨酸;I,异亮氨酸;S,丝氨酸;Q,谷氨酸)或设计的溶液中(第二至第四面板),然后将其转移到不含额外蛋白的缓冲液中进行解离测量。ProteinMPNN设计(第三面板)的结合信号比原始Rosetta设计(第二面板)大得多;这一信号在将天冬酰胺突变为天冬酸后大大降低(第四面板)。