Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计!秘诀是对抗性损失与序列扩散

学术   2024-10-21 08:44   韩国  

DRUGAI

今天为大家介绍的是来自中科大刘海燕团队的一篇论文。最近,RFdiffusion方法在利用去噪扩散概率模型(DDPM)进行蛋白质结构设计方面取得了成功,其依赖于对RoseTTAFold结构预测网络的微调,以实现蛋白质骨架去噪。在此,作者介绍了SCUBA-diffusion(SCUBA-D),这是一种全新训练的蛋白质骨架去噪扩散概率模型,模型通过增加序列表示的扩散过程以达到序列、结构共设计来增强正则化效果,并引入对抗性损失以减少数据分布外的误差。虽然SCUBA-D在生成实验上可行的蛋白质结构时与基于RoseTTAFold的预训练RFdiffusion相匹配,但SCUBA-D能够轻松生成与RoseTTAFold预测结构不同的、尚未观察到的蛋白质整体折叠结构。通过对16种设计的蛋白质和一个蛋白质复合物的X射线结构分析,以及设计的血红素结合蛋白和Ras结合蛋白的实验验证,证明了SCUBA-D模型的准确性。作者的工作表明,通过解决诸如数据分布外误差等问题,图像或文本的深度生成模型可以成功扩展至复杂的物理对象,如蛋白质结构。

在全新的蛋白质设计中,一个主要的问题是如何生成具备可设计性/物理可行性的蛋白质结构。最近蛋白设计领域的进展是RFdiffusion,它采用了去噪扩散概率模型(DDPMs),DDPM是一类使网络学习对损坏数据去噪的机器学习模型。RFDiffusion在广泛的实验测试中表现出无与伦比的性能,但其依赖于预训练的RoseTTAFold结构预测网络进行不同的微调,以应对不同的蛋白质骨架去噪任务。


开发全新训练的DDPMs来补充像RFdiffusion这样的模型是有价值的:全新训练的DDPMs的独立网络配置和训练使它们避免继承现有结构预测网络中的潜在特定偏差。然而,到目前为止,当前已知在蛋白质结构数据上训练的 DDPM遇到了在某些方面遇到了一些困难,比如生成无缺陷的蛋白质骨架,该骨架需要能够通过现有序列设计方法实现并通过实验确定的。作者认为这些困难可能归咎于DDPMs通常只考虑了最大化恢复训练数据的目标函数。虽然这个目标对无法生成某些观察到的数据的错误非常敏感(即要求模型能够生成多样化的结构),但对生成真实数据分布之外的数据错误却不敏感(即模型不会因为生成分布外的数据而直接受到惩罚)(图1a)。正是这些数据分布外的错误导致了有缺陷或不可实现的骨架。一个有效减少这些错误的方法是考虑减少对抗性损失的附加目标,正如在生成对抗网络(GANs)中,判别器网络与生成器网络共同训练,并最大限度地减少生成与训练数据区分开来的数据的概率。


模型部分

图 1


在此,作者通过结合数据恢复损失(data recovery loss)和对抗性损失(adversial loss),对模型进行训练,开发了一种全新训练的DDPM,能够生成多样化的蛋白质骨架,并且其准确性已通过实验验证。作者将模型命名为SCUBA(sidechain unknown backbone arrangement)扩散,简称SCUBA-D,因为该模型生成的骨架不依赖于预先确定的氨基酸序列。作者展示了SCUBA-D可以执行多种蛋白质设计任务(图1b),包括从随机噪声中生成可设计的骨架(无条件生成)、基于用户给出的不可设计的初始骨架来生成可设计的骨架(基于草图输入生成),以及生成“包含与小分子或其他蛋白质结合功能的基序(motif)“的骨架(基序支架)。


作者使用ABACUS-R或ProteinMPNN程序为生成的骨架选择氨基酸序列,并通过实验验证了SCUBA-D在这些任务中的表现。实验涵盖了大量设计蛋白质,包括获得了16种全新蛋白质和一个蛋白质复合物的X射线晶体结构,并验证了多种设计的血红素结合蛋白及若干与人类蛋白Ras结合的设计蛋白(Ras为信号转导的调节因子;图1c)的配体结合功能。


SCUBA-D的网络架构概述如图1d所示。简而言之,两个模块用于将初始骨架x_init去噪到最终骨架x̃0(t = 0)。第一个模块执行一步去噪,生成低分辨率模型μ_x,作为非零先验,然后在第二个模块中进行多次连续的扩散步骤进一步去噪。在这些模块内部,骨架结构通过一个配对表征(pair representation)来表示,使用单一的氨基酸序列表征(single representation)来指导配对表征的训练。作者指出,配对表征中包含的结构信息用于更新单一表征。这种信息流动允许使用单一表征的训练损失作为额外的模型正则化项,在训练过程中引入关于天然氨基酸序列的知识。


SCUBA-D通过使用加入不同噪声级别的天然蛋白质结构作为初始骨架进行训练。在图1d所示的主要训练损失中,“帧对齐点误差”(FAPE)损失用于测量结构偏差,单一表征损失用于测量在预训练的进化尺度建模(ESM)表示空间中的序列偏差,这属于数据恢复损失。而用于减少数据分布外错误的对抗性损失则由两个判别子子网络提供,一个处理局部骨架构象,另一个处理残基间的空间填充(packing)。


序列表征和对抗性损失的影响

为了研究这些影响,作者对比了四种不同的模型变体。其中三种变体模型在没有对抗性损失的情况下进行训练,并且针对单一表征采用了不同的学习目标:第一种是“不使用ESM”模型,该模型没有使用ESM向量编码原生序列作为学习目标;第二种是“压缩ESM”模型,使用压缩版的ESM向量作为学习目标;第三种是“全ESM”模型,使用完整维度的原始ESM向量作为学习目标。第四种变体模型“全ESM与GAN”是在使用“全ESM”学习目标的基础上,加入了对抗性损失进行训练。为了便于比较,这些模型在相同的数据上进行了训练(更新步数上限为70,000)。这些变体模型用于对25个天然输入骨架进行“去噪”,这些骨架覆盖了三种折叠类别(全α、全β和混合αβ),其CATH拓扑类型未出现在训练数据中。对于每个输入骨架,使用每种变体模型获得了3个“去噪”后的骨架。所有变体模型的一步去噪都保留了天然骨架,几乎没有变化(均方根偏差RMSD < 0.7 Å)。随后,DDPM去噪模块根据这些非零先验(即天然骨架)生成了变化的骨架。


输出的骨架通过三种方法进行了评估,相应结果总结在扩展数据图1a-c中。首先,使用TM-Score和原子位置的均方根偏差(RMSD)测量“去噪”后的骨架与对应输入骨架的偏差。TM评分的可能值在0到1之间,值越高表示结构相似性越高。TM评分低于0.5则表示两个结构的整体折叠明显不同。第二,使用ABACUS-R程序为这些骨架选择氨基酸序列后,测量AlphaFold2(AF2)预测的“去噪”骨架与之的偏差,得出self-consistent TM scores(scTM-score)和self-consistent RMSD(scRMSD);扩展数据图1b),以评估模型生成的骨架的可设计性。第三,使用ABACUS-R logits评分评估可设计性,该评分衡量骨架与为该骨架最佳选择的氨基酸序列(由ABACUS-R选择)之间的兼容性(扩展数据图1c)。


扩展数据图1a-c的结果显示,“全ESM”在保持输入的天然骨架和生成可设计的“去噪”骨架方面,相较于“压缩ESM”和“无ESM”有显著提升。这表明,使用“全ESM”作为单一表示的学习目标起到了积极的模型正则化作用。然而,“全ESM”生成的“去噪”骨架的ABACUS-R logits评分仍低于天然骨架(扩展数据图1c),这表明“去噪”结构中存在缺陷。“全ESM与GAN”模型在四个变体模型中表现最佳,其生成的ABACUS-R logits评分与天然骨架相当。扩展数据图1d展示了一个“全ESM与GAN”生成的“去噪”骨架的具体示例,其scRMSD远小于“全ESM”生成的“去噪”骨架(0.96 Å 对比 5.45 Å),尽管两者的“去噪”骨架相似(RMSD为1.39 Å)。基于对这些变体模型的评估,作者对“全ESM与GAN”模型进行了进一步训练,直到总损失停止下降。最终的网络参数用于后续的计算和实验测试。


作者研究了通过在SCUBA-D生成的单一ESM表示上应用ESM残基类型分类器网络,直接获得氨基酸序列的可能性。生成的序列(称为pESM序列)与在相同骨架结构上使用ProteinMPNN设计的序列有相当大的相似性(对于上述25个天然骨架,两组序列之间在理化性质上相似的残基类型平均比例为51%,相似性通过将20种残基类型划分为五个相似组确定,包括GAVLI、FYW、CM、ST、KRH、DENQ和P)。然而,pESM序列仅能准确恢复20%的对应天然氨基酸残基类型,而ProteinMPNN准确恢复的比例为61%。此外,扩展数据图1e显示,pESM序列的ABACUS-R logits评分远低于天然序列或ProteinMPNN设计的序列,表明pESM序列与相应的骨架兼容性远不如天然序列或根据给定骨架设计的序列。


无条件生成蛋白骨架

图 2


作者将SCUBA-D与其他五种基于DDPM的方法(RFdiffusion、Chroma、FrameDiff、Genie和ProteinSGM)进行了比较,分别使用不同方法无条件生成长度从100到400个残基的骨架,并对生成的骨架进行了评估。评估内容包括使用ESMfold对ProteinMPNN设计的序列计算的scRMSDs、通过检查所有原子间距离与原子半径之和加上1.5Å的容差因子来评估的冲突残基数量,以及与蛋白质数据银行(PDB)结构的最高TM-score。总结结果见图2a-c和扩展数据图2a。


对于100个残基的骨架组(每组包含100个通过特定方法无条件生成的骨架),RFdiffusion的平均scRMSD为0.72 Å,SCUBA-D为0.78 Å,显著低于其他方法生成的骨架的平均scRMSD(在2.36到3.72 Å之间)。对于200至400个残基的骨架组(每组包含200、300或400个残基的300个骨架),RFdiffusion的平均scRMSD为3.28 Å,SCUBA-D为3.46 Å,同样显著低于Chroma(8.15 Å)和FrameDiff(9.32 Å)的平均scRMSD(另外两种方法Genie和ProteinSGM无法生成这些长度的骨架)。


值得注意的是,图2c和扩展数据图2a中的结果表明,对于100个残基的蛋白质,SCUBA-D和Chroma生成的新颖结构比例显著高于RFdiffusion和FrameDiff(与PDB的最高TM评分低于0.5)。扩展数据图2b显示了两个SCUBA-D生成的100个残基骨架示例,这些骨架与PDB结构数据库或AF2预测结构数据库的最高TM评分都低于0.5,这表明生成的两个骨架与数据库中匹配的结构在整体上相似性很低。对于200至400个残基的骨架,四种方法都生成了较高比例(超过三分之一)的新颖结构(见图2c和扩展数据图2a)。这是因为较长蛋白质的构象空间更为广泛,而PDB数据库中的有限结构未能覆盖该空间中许多物理上可能的区域。此外,偏向生成相对低新颖性小结构的模型,仍可以通过组合各种低新颖性的小单位,生成具有显著整体新颖性的大型结构。


新训练的DDPMs的一个优势是可以避免预训练结构预测网络的潜在偏差错误。为进一步验证这一点,作者分别使用SCUBA-D和RFdiffusion各生成了500个100个残基的骨架,并使用t-SNE(t分布随机邻嵌入)将这些骨架在二维平面上可视化。生成的图(图2d)显示,虽然骨架整体分布在一个球形区域内,但RFdiffusion生成的骨架主要集中在右上部分,几乎没有出现在左下部分。而SCUBA-D生成的骨架分布在整个球形区域,既覆盖了RFdiffusion很少采样的左下部分,也覆盖了RFdiffusion骨架集中的右上部分。因此,通过使用正交训练的DDPM,SCUBA-D生成的骨架在可设计骨架结构空间中,与RFdiffusion形成互补分布。


在500个SCUBA-D生成的骨架中,作者找到了80个同时具备高度结构新颖性(与PDB结构的最高TM-score低于0.5)和高度预测可设计性(通过ESMfold在ProteinMPNN序列上获得的scRMSD低于2.0 Å)的骨架。作者进一步研究了RoseTTAFold网络预测这些骨架结构的能力。图2e中的散点图显示,其中12个骨架的ProteinMPNN设计序列无法通过RoseTTAFold2准确预测其结构(对应的scRMSD超过6 Å)。对这些结构的视觉检查未发现任何可能影响其可设计性的特征(图2e展示了两个示例结构,扩展数据图2c展示了其余十个结构)。这些结构是与RoseTTAFold网络预测的骨架不同的新颖骨架的示例。


最后,作者获得了一组SCUBA-D无条件生成的骨架,链长从100到490个残基,间隔为10个残基,评估了它们的scRMSD和与PDB的最高TM评分(补充图1a、b),结果与图2a和图2c中的对应结果类似。作者从中选择了16个约200个残基长、scRMSD小于2.0 Å且具有不同骨架拓扑结构的骨架(通过视觉检查确定),并对这些骨架上设计的氨基酸序列(通过ProteinMPNN设计)进行了实验表征。成功纯化了12种可溶性设计蛋白,并通过尺寸排阻色谱(SEC)确认了它们的单体状态(扩展数据图3中展示了示例结果)。作者为其中7种蛋白质获得了晶体,并解析了6种蛋白质的X射线结构(2种全α结构和4种混合αβ结构),分辨率从1.3 Å到2.1 Å不等(图2f、g;X射线数据总结见补充表1)。这些晶体结构与相应的设计结构吻合良好,骨架RMSD在0.96 Å到1.73 Å之间。这些蛋白质中的41个环区段中有38个的RMSD也低于2.0 Å(扩展数据图4a)。


基于草图输入的蛋白结构生成

图 3


SCUBA-D可以使用草图输入结构来更有针对性地探索可设计的骨架空间。作者通过考虑采用给定整体架构的草图骨架,评估了SCUBA-D在这些任务中的表现,这些架构通过二级结构元素的类型、近似大小和粗略定义的三维排列进行指定。首先,作者考虑了前面提到的25种天然蛋白质所采用的架构。图3a显示,对于25种架构中的16种,通过为每种架构提供9个草图输入,成功生成了至少一个保留输入折叠的可设计骨架(scRMSD小于2.0 Å,且与初始骨架的TM-score大于0.5)。对于剩下的9种架构中的8种,通过将草图输入的数量增加到60,也能生成符合指定计算标准的骨架(示例结果见扩展数据图6a)。对于最后一种架构,从60个初始骨架中生成的所有骨架都未能符合指定的计算标准,相关结果展示在扩展数据图6b中。


作者进一步使用草图输入方法设计了循环排列重复单元的架构,包括一系列重复次数n从9到15的(αβ)n桶状结构和一系列重复次数n从7到11的(β4)n螺旋桨结构。scRMSD分布如图3c、d所示。扩展数据图7a、b显示,对于每个给定重复次数的架构,至少生成了一个scRMSD值低于2.0 Å的骨架。需要注意的是,重复次数n大于8的(αβ)n架构和(β4)11架构在天然蛋白质中很少见。此外,生成的12种架构中有10种的骨架,其与PDB结构数据库和AF2预测结构数据库的最高TM评分均低于0.5。因此,草图输入方法也可以用来生成超越天然蛋白质的结构。


作者还对12种(αβ)9桶状架构的蛋白质进行了实验表征,这些蛋白质的骨架是通过生成的,氨基酸序列则由ABACUS-R设计。其中,11种蛋白质是可溶的,4种蛋白质的X射线晶体结构已经解析。其中两个晶体(T03和T09)展示了可以与对应设计骨架紧密对齐的单体结构(图3e),T03和T09之间存在局部结构差异(图3e)。T01和T11的晶体则分别显示了域交换的二聚体和三聚体结构(扩展数据图7c、d)。尽管如此,这些晶体结构中的各个结构域仍然呈现设计的(αβ)9桶状架构。此外,静态光散射实验表明,T01和T11在溶液中以单体形式存在(扩展数据图7c、d)。


使用 SCUBA-D 设计血红素结合蛋白

全新的蛋白质骨架设计的一个重要应用是生成支架(scaffold),这些支架能够精确保持一组预定义残基的三维结构,以形成与其他分子进行特定相互作用的功能位点。尽管已有研究表明,通过专门调整预训练的结构预测网络,RFdiffusion能够解决功能位点的支架设计问题,但使用全新训练的结构生成网络成功实现小分子或蛋白质结合位点的支架设计还没有得到实验验证。

图 4


作者评估了SCUBA-D在小分子结合位点支架设计中的表现,具体是通过生成骨架来支撑从天然的铁调节表面决定蛋白G(IsdG)中提取的单个血红素结合位点。IsdG的结构与血红素的复合物以二聚体形式解析(PDB 2ZDO;图4a)。使用2ZDO中一个单体的血红素周围残基(口袋残基)作为需要支架的基序。关于基序定义和骨架生成的更多细节在补充方法中描述。通过在30个骨架上使用ABACUS-R设计的90个序列中,作者发现14个设计蛋白的AF2预测scRMSD值小于2.0 Å,且配体预测的局部距离差异测试(pLDDT)值大于80(扩展数据图8a)。这些设计蛋白表现出不同的骨架架构。作者对其中12个设计蛋白进行了实验表征。紫外-可见光光谱实验显示,其中5个可以结合血红素(扩展数据图8b)。作者通过等温滴定量热法(ITC)测定了3个蛋白的血红素结合解离常数(KD)(图4b),显示出与天然蛋白类似的紫外-可见光吸收峰。尺寸排阻色谱(SEC)和核磁共振(NMR)15N-1H HSQC光谱证实,这些设计蛋白在溶液中形成良好折叠的单体(图4c和扩展数据图8c、d)。H5、H6和H8的KD值分别为2.64 μM、0.855 μM和0.924 μM(图4c和扩展数据图8c、d),与二聚体IsdG的两个血红素结合位点的KD值(分别为2.98 μM和3.94 μM)相比较(扩展数据图8e)。突变体(H5的H119W,H6的H129W,H8的H131W)的紫外-可见光谱确认了在设计蛋白中组氨酸对于铁和血红素的配位作用(图4d和扩展数据图8f)。

编译 | 黄海涛

审稿 | 王梓旭

参考资料

Liu, Y., Wang, S., Dong, J., Chen, L., Wang, X., Wang, L., ... & Liu, H. (2024). De novo protein design with a denoising diffusion network independent of pretrained structure prediction models. Nature Methods, 1-10.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章