Science | 在“放松”序列空间中实现可扩展的蛋白设计

学术   2024-11-27 00:02   韩国  

DRUGAI

今天为大家介绍的是来自德国慕尼黑工业大学Hendrik Dietz团队的一篇论文。基于机器学习的设计方法推动了从头蛋白质设计的发展,扩散模型的生成方法在蛋白质设计流程中越来越占据主导地位。本文介绍了一种基于“幻觉”的蛋白质设计方法,它在放松(relaxed)的序列空间中运行,能够在多个尺度上高效设计高质量的蛋白质骨架,并具有广泛的应用范围,无需任何形式的重新训练。作者通过实验生成并表征了100多种蛋白质,其中三种高分辨率的晶体结构和两张包含多达1000个氨基酸的设计单链蛋白的冷冻电子显微镜密度图验证了该方法的准确性。该流程还可用于设计合成蛋白质-蛋白质相互作用,实验验证了一组蛋白质异二聚体的效果。放松序列优化在设计性、不同设计问题的应用范围以及蛋白质尺寸的扩展性方面表现出色。

机器学习方法从根本上改变了蛋白质设计的格局。结构预测网络,如AlphaFold2(AF2)、ESMFold和RoseTTAFold2,能够根据输入序列准确预测蛋白质结构,从而支持各种蛋白质设计任务,并用于筛选候选设计方案。基于扩散和流匹配的生成模型,如RFDiffusion和Chroma,因其在不同设计任务中生成从头蛋白质设计的能力而备受关注。


另一种方法是通过结构预测网络(如AF2)进行迭代序列进化,这一过程被称为“幻觉”。然而,随机搜索算法的收敛速度较慢,在离散序列空间中实现稳健的基于梯度下降的优化也存在挑战,这些因素阻碍了将该方法应用于更复杂的蛋白质设计任务。


模型部分

作者假设,基于梯度下降的“幻觉”方法若在超越离散(即物理上真实的)蛋白质序列空间的环境中操作,能更顺畅、直接地进行优化过渡,从而更好地达到目标(图1A)。

图 1


为了实现这种“放松的幻觉”过程,作者在之前能够通过AF2网络进行反向传播的工作基础上进行了扩展。在该框架中,将一个序列输入到网络中,并使用预测结构计算基于目标的损失。然后,将损失相对于输入序列进行反向传播,获得梯度。利用该梯度来更新输入序列,使其更接近目标。用获得的梯度更新序列通常不会生成单一编码的序列,而是生成类似logit或位置特异性评分矩阵(PSSM)。这种“放松”的表示在物理上并不现实,因为每个残基位置似乎由20种氨基酸的叠加体组成,每种氨基酸都有特定的数值权重。之前的方法通常通过应用argmax操作将更新的放松序列强制转换回真实的单一编码序列,从而导致与最佳梯度方向产生较大偏差(图1A,顶部)。在作者的方法中,即放松序列优化(RSO),直接将更新后的放松序列重新输入到结构预测网络中(图1A 底部),并进行迭代,直到收敛为止。


RSO展现出快速且稳定的收敛效果,并且在性能上优于先前的协议。通过引入损失函数来数值测量预测设计与目标之间的差异,RSO能够快速学懂各种目标属性,无需重新训练。作者发现,RSO可以沿着复杂的梯度收敛,从而设计出复杂的问题,包括结合物设计(binder design)和功能位点支架设计,还可以设计包含多达1000个氨基酸的大型单链蛋白质(图1B)。一旦RSO收敛,流程将舍弃放松序列,并将收敛的骨架几何输入到蛋白质信息传递神经网络(ProteinMPNN)模块中(图1C),以生成符合收敛骨架几何的候选蛋白质序列。ProteinMPNN是关键组成部分,因为它经过专门训练,能够设计出在实验中也会折叠成给定骨架结构的蛋白质序列。然后,将ProteinMPNN生成的序列交给ESMFold或AF2等结构预测网络重新预测结构,以检验其与RSO初始生成的收敛骨架几何是否一致。该流程通过简单调整损失函数即可满足用户定义的设计任务,从而高效工程化从头设计的蛋白质。


模型性能评估

为了评估RSO设计的骨架质量,作者进行了“可设计性测试”,使用ProteinMPNN为RSO设计的骨架生成序列集,并通过ESMFold重新预测编码结构。作者通过计算均方根偏差(RMSD)和模板匹配(TM)评分来评估与初始RSO骨架的相似性,选择最匹配的序列。


作者设计了长度从100个氨基酸到1000个氨基酸逐渐增加的蛋白质链,每种长度生成100个候选骨架。损失函数的优化目标包括较高的置信度、较小的回转半径、较多的链内接触点,并减少螺旋含量。对于每个骨架设计,作者使用ProteinMPNN生成了8个候选序列(采用可溶性权重),然后利用ESMFold(图2,A到C)和AF2的单次序列预测对这些序列进行重新预测。

图 2


在测试中,RSO相较于RFDiffusion生成了RMSD更低的设计(匹配度更高),特别是在较大的蛋白质尺寸上,这一结果通过ESMFold进行了评估(图2B)。RSO成功地为多达1000个氨基酸的蛋白质生成了理想的设计,1000个氨基酸的中位TM评分达到了0.89(图2C)。虽然RFDiffusion在小型蛋白上表现良好,但在设计超过600个氨基酸的可行骨架时遇到了挑战。


在这些测试中,作者还观察到一个趋势,即当使用AF2的单序列进行重新预测时,大型蛋白质的RMSD有所增加,而在ESMFold的重新预测中没有出现这种趋势。通过将目标骨架信息作为初始猜测补充给AF2的Evoformer模块,并应用“big bang初始化”,AF2的单序列预测也能够以更高的质量(重新)预测大型蛋白质,接近ESMFold的水平(图2D)。


作者还测试了是否可以直接使用RSO生成的放松序列和收敛的骨架来创建候选序列。简单地使用argmax操作将放松序列转换为单一编码序列,会导致重新预测的结构与目标骨架偏差较大。使用更复杂的方法,例如从放松序列进行模拟退火,能够提高计算机模拟中的成功率。这意味着,重新预测的计算机结构与初始骨架设计更匹配,但模拟退火生成的候选序列在实验测试中的成功率较低,这与之前仅依赖AF2设计序列的结果一致。AF2的结构预测对突变有较高的容忍度,这可能反而限制了其区分有效序列和对抗序列的能力。因此,加入如ProteinMPNN这样的模块,专门用于为给定骨架生成有效序列,可以提升整体实验的成功率。


RSO生成的蛋白质结构多,且大多呈球状。通过加入螺旋损失,可以减少生成螺旋二级结构的偏向性(图2E)。为了研究这些蛋白质的新颖性,作者利用foldseek将其与蛋白质数据银行(PDB)中已知的全部结构进行了对比。与以往的方法类似,小型蛋白与PDB中的已有蛋白显示出较高相似度,而在大型设计中,PDB中相似结构逐渐减少,这表明RSO可能借助AF2的泛化能力超越已知蛋白质空间,创造出全新的折叠结构(图2F)。


在计算效率方面,与RFDiffusion相比,RSO中使用反向传播使得较大设计的骨架设计迭代时间有所增加,但需要注意的是RFDiffusion在生成超过600个氨基酸的序列上,常常存在设计序列无效的问题。在生成与目标的RMSD小于3Å的设计成功率方面,RSO和RFDiffusion在GPU上的效率相当。


作者还测试了RSO在更复杂的设计任务上的表现,包括使用已建立的支架问题基准集进行不连续位点支架的设计(图2G)。所有设计均采用相同的设置,并使用相同的成功标准(即整体骨架的RMSD小于2.0Å、结构基序的RMSD小于1.0Å,且具有较高的置信度pLDDT >85)。作者设定了各基序之间的最大设计环长度,并在设计过程中将支架结构元素的完整序列保持不变(一一编码),以便同时设计特定氨基酸和放松的序列。


作者采用了两种设计方法,即“固定”或“自由”模式,分别指基序在三维空间中固定或不固定结构模板的情况。RSO在所有设计任务中均找到了解决方案(图2G)。加入模板的“固定”模式减少了收敛至低RMSD设计所需的平均步数,从而在单位时间内生成更多候选设计。无模板的自由方法生成了相似质量的设计,但收敛速度较慢。将基于距离图的损失与RMSD损失相结合,相较于仅基于框架对齐误差的损失,提升了性能。总体上,RFDiffusion和RSO在这些支架问题中表现相近,不同设计任务的成功率则存在差异(图2G)。


实验验证

利用RSO方法,作者设计了85种蛋白质,大小从100到300个氨基酸不等。九种单体蛋白通过亲和层析进行纯化,并使用SEC方法进行分析。其中八种蛋白质表达效果良好,在SEC中显示出一个主要峰,并在预期分子量的部分洗脱出来(图3A)。圆二色性光谱分析显示出符合其设计二级结构内容的特征光谱(图3A)。这些蛋白质在高达95°C的温度下表现出热稳定性,与此前对de novo设计蛋白高热稳定性的报道一致。其余76种蛋白则采用先前描述的高通量策略进行表达和纯化,其中58%的蛋白质分子量与通过分子量校准的SEC所得预期值相符(图3B)。

图 3


作者还设计了一组由500到1000个氨基酸组成的较大蛋白质。候选设计通过结合AF2的初始估算和“big bang”初始化以及/或ESMFold再预测进行筛选。尽管蛋白质的整体计算机模拟结构基本正确且预测可信度较高,但部分再预测的候选设计在RSO设计的骨架上存在轻微偏差,例如低可信度的环区或域间连接处出现较长且无结构的区域。作者构建了14种大型候选蛋白的基因,其中13种成功表达,11种在SEC中于正确的分子量处显示出一个主要峰(图3C和3D)。其中三种蛋白因结构足够大,通过负染色透射电子显微镜(nsTEM)分析后,与设计结构相符(图3D)。


蛋白质-蛋白质相互作用设计

目前,许多新兴的de novo蛋白设计应用涉及设计蛋白质-蛋白质相互作用。通过加入残基索引间隙,AF2也可用于设计由多个独立链组成的蛋白质复合物(图4A)。作者利用这一功能,使用RSO设计了同源寡聚体和异源二聚体。为此,作者设计了一种损失函数,包括两个部分回转半径损失项,以及一个额外的同源二聚体过滤器,以便偏向于生成异源二聚体(图4A)。这种方法成功生成了异源二聚体设计,其单体在单独表达时保持单体状态,但在混合后则形成二聚体复合物,这一结果通过SEC分析得到了验证(图4B和4C)。微尺度热泳动和荧光偏振分析显示,异源二聚体设计的解离常数分别为560和480 nM(图4D)。

图 4


作者设计了第二组异源二聚体,但未采用计算机模拟的同源寡聚体过滤。这些蛋白在洗脱浓度下各自形成了同源寡聚体,但在低浓度时,其中四个蛋白中有三个表现为单体。然而,当作者混合为异源二聚体设计的两个不同单体时,所有设计均转变为预期的异源二聚体复合物(图4E)。通过荧光偏振分析的结合亲和性检测显示,异源二聚体相互作用的解离常数范围在4.0至790 nM之间(图4F)。这些结果表明,RSO还可与ProteinMPNN序列优化结合使用,以完成界面设计任务。

编译 | 黄海涛

审稿 | 王梓旭

参考资料

Frank, C., Khoshouei, A., Fuβ, L., Schiwietz, D., Putz, D., Weber, L., ... & Dietz, H. (2024). Scalable protein design using optimization in a relaxed sequence space. Science, 386(6720), 439-445.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章