DRUGAI
今天为大家介绍的是来自Subha Kalyaanamoorthy团队的一篇论文。蛋白质序列概率模型(PSLMs)是一类新兴的自监督深度学习算法,这些算法通过结构或进化背景,学习氨基酸身份的概率分布。最近,PSLMs 在预测变体序列的相对适应性方面表现出色,无需特定任务的训练,但它们在蛋白质工程中的核心目标——提高稳定性方面的潜力仍未被充分探索。本文中,作者全面分析了八个 PSLMs 在数个定量数据集中,对数百种异质蛋白变体的相对热稳定性预测的零样本迁移能力。作者将 PSLMs 与流行的特定任务稳定性模型进行对比,显示某些 PSLMs 在考虑适当统计时具有竞争力。文章突出 PSLMs 的相对优势与不足,并探讨其与特定任务模型的互补性,特别是在稳定性工程应用中的作用。结果表明,所有 PSLMs 通过整合其不同训练目标的见解,能够显著提升现有方法的预测,指出了在计算稳定性预测领域停滞不前的情况下的前进方向。
当前一种常用的蛋白质稳定性工程策略是通过诱变改变蛋白质的氨基酸序列。尽管这种方法非常有效,但诸如定向进化等蛮力诱变技术通常需要对数百种突变蛋白进行表达、纯化和表征,才能看到显著的改进,因为稳定性突变稀少且探索过程缺乏先验知识的指导。通过帮助优先选择有潜力的突变体进行实验表征,突变体稳定性预测的计算方法能够显著节省成本和时间。这些方法主要集中在预测突变体相对于野生型的稳定性,而不是绝对稳定性测量,如熔点温度。然而,尽管该领域已经进行了几十年的研究,这些预测工具在蛋白质稳定性工程中的实际应用仍然有限,并且这一领域的进展已陷入停滞。
突变体稳定性预测工具的局限性主要反映了数据的稀缺性:当前最大的单一突变体直接稳定性测量数据库之一(FireProtDB)中,仅包含约230种蛋白的几千个独特突变体的实验数据,通常每种蛋白的表征突变体少于100个。定量数据涵盖的结构背景和突变类型有限,且严重偏向于不稳定突变。训练数据的不足导致在依赖大量数据的深度学习方面进展缓慢,而缺乏适当隔离的测试数据和不当的统计处理则导致普遍的过拟合和性能高估,掩盖了实际的改进。因此,诸如预测辅助的工业酶热稳定化等应用成功案例甚少。
除非能够获得大量跨蛋白家族和突变类型的额外稳定性测量数据,否则深度学习辅助的稳定突变预测必须利用更丰富的数据来源。尽管最近深度突变扫描的进展提供了大量适合迁移学习的稳定性相关数据,但当前的方法,如互补DNA蛋白水解分析,仍存在显著的局限性,特别是在测量稳定蛋白的突变体时敏感性不足。同时,新型热蛋白质组分析策略已测定了数千种不同天然蛋白的熔点特性,并汇编于Meltome Atlas中。然而,这些信息在细粒度预测变体稳定性方面的可迁移性尚不明确。
而蛋白质的氨基酸序列则是一个容易获取且数量多的数据源。蛋白质语言模型和逆折叠模型可以通过预测部分掩盖残基的身份,利用剩余未掩盖的上下文进行训练,这种模型作者一律统称为蛋白质序列概率模型(PSLMs)。近期的一项研究显示,蛋白质语言模型(基于序列的PSLMs)能够通过与野生型相比的突变残基相对对数可能性(delta log-likelihood, ΔLL)来预测蛋白变体的相对适应性,换句话说,残基可能性的预测可以以零样本的方式转移。其他研究表明,逆折叠模型(基于结构的PSLMs)也可以直接用于蛋白质稳定性预测,但其分析范围有限。本文中,作者展示了PSLMs作为补充突变体稳定性预测的有前景工具,特别是在稳定性工程的应用中。
突变体稳定性预测在数据集中的应用
作者研究了八种不同的蛋白质序列可能性建模方法,大致分为逆折叠(基于结构)和蛋白质语言建模(基于序列)两类。具体来说,作者评估了四种主要的结构方法:MIF和MIF-ST、ProteinMPNN、MutComputeX 、ESM和ESM-IF。结构类PSLMs在推理时需要野生型结构的模型,而序列类PSLMs可以使用单个目标序列(如ESM-1V、ESM-2和Ankh),或利用一组对齐的同源序列(如MSA Transformer、Tranception)。作者使用真实可观测的ΔΔGu,即突变引起的蛋白质展开自由能差(unfolding free energy difference)的变化进行方法比较。被突变稳定的蛋白质具有正的ΔΔGu值,而被预测为稳定的突变也具有正的ΔLL分数。
图 1
作者首先总结了在图1中测试的模型中,表现较好的PSLMs与表现最好的迁移学习、生物物理、监督学习、未训练和统计潜力模型相比的零样本性能。作者将未训练模型(包括PSLMs)与稳定性模型区分开来,因为稳定性模型显式地适配了部分实验稳定性数据。由于各模型的训练数据差异较大,几乎无法在所有测试方法之外的数据上测试稳定性预测器,因此只有PSLMs和未训练的方法不太可能表现出虚高的性能。
表现最好的结构型PSLM——ProteinMPNN在分类(AUPRC)、排序(Spearman相关系数ρ)和整体稳定性提升(net stabilization)方面表现出色,经常超越稳定性模型,在其自身训练数据集K2369上的测试表现几乎与“突变知识库方向性潜力模型”(KORPM,Knowledge-base Orientational Potential for Mutation)相当。事实上,所有基于结构的PSLMs在更全面的统计分析中表现出相似的行为。尽管稳定性模型在多种蛋白质突变体稳定性排序上表现更好,但其能力受到数据泄漏和高实验测量不确定性的影响,这对典型的稳定化范围影响显著。Rosetta在扩展数据图1中对其已见过的蛋白突变体排序更为精准,这是数据泄漏的证据。为应对不确定性,作者在整个分析中实施了“理论最大值”基准,为标签加入标准差为1 kcal mol-1的高斯噪声,以估计在实验不确定性恒定条件下“完美”模型的性能。
在这些考虑因素下,结构型PSLMs表现极为优异,尽管Ssym数据集显示,像许多稳定性模型一样,结构型PSLMs倾向于预测“去稳定化”(destabilization),未能尊重突变与其对应逆转中内在的反对称(antisymmetric)关系。这种行为可能源于野生型残基的“印记”:在训练过程中,突变位点附近的局部主链原子坐标被用来预测掩码残基的身份,可能保留了足够的原始信息,使得所有突变平均上不那么一致。随着添加的主链噪声增多,ProteinMPNN模型的反对称性改善和中位ΔLL增加为这一理论提供了支持。这种效应使得预测的分布偏向于较低的ΔLL,也导致结构型PSLMs的敏感性低于稳定性模型。
序列模型的敏感性进一步降低,ESM-2语言模型在分类和回归中的表现通常不如其他模型(见图1)。然而,序列PSLMs在S_sym数据集上的统计表现更为优异,并且在各数据集中表现出net stabilization的优势,其他基于序列的PSLMs也表现出类似的趋势。有趣的是,ESM-2 650M的表现通常略好于更大版本,暗示在更高参数数量下,记忆替代残基身份的能力可能存在权衡。此外,令人惊讶的是,只提供单一序列作为上下文的模型经常优于提供多序列比对(MSA)的模型,尽管后者的计算需求大得多。一个可能的解释是,单序列模型由于在推理时没有明确的同源信息,因此能够学习到更具普适性的特征来预测可能性(如稳定性),而进化模型则学会提取家族特定的特征,如独特的功能适应性。无论是仅依赖单序列的模型还是依赖MSA的进化PSLMs,天生具有反对称性且无偏性,使它们在预测对称数据集如S_sym时具有优势。此外,它们在预测高度去稳定化的突变(S_sym中最稳定的逆转)方面也表现优异,进一步提升了其性能。
图 2
有趣的是,作者发现仅通过简单地将ProteinMPNN和Rosetta Cartesian DDG(ΔΔG)的原始预测值相加,就能在各项统计和数据集中获得持续优异的表现,这表明PSLMs与稳定性模型之间的信息具有互补性。为了更好地评估PSLMs及其组合在不同通量预算下用于稳定性筛选的实际应用性,作者接下来分析了突变体的实验稳定性与预测得分之间的关系。图2展示了在Q3421和K2369数据集中,不同蛋白家族中排名前x%的预测结果的平均稳定化效应。
模型互补
作者研究了模型组合,以进一步探讨模型的互补性,同时还探讨了额外的计算代价是否能带来性能提升。首先,作者测试了在S_sym和S461数据集中,通过增加来自不同模型的分数加权贡献后的预测性能,每个模型的贡献都根据整个数据集的标准差进行归一化处理。值得注意的是,大多数稳定性模型的训练数据要么包含这些数据集中的突变体,要么来自具有显著同源性的蛋白质突变体。然而,本节的重点在于零样本预测带来的增强效果,因此,预期这些性能改进具有广泛的通用性。
图 3
图3展示了在两个测试集中,每组双模型组合中表现最佳的组合在整个数据集上的排序性能,以及相较于最佳单个模型的改进情况。上三角中深红色的单元格表明,当将一个PSLM与一个稳定性模型的预测结合时,通常会获得最大的性能提升。事实上,在Ssym数据集中,KORPM是最佳的单个模型,但该数据集上的前30个双模型组合明显提升了其得分,包括19种PSLM与任务特定模型的独特组合。同时,将PSLMs或稳定性模型与相同类型的其他模型组合可能导致性能下降(灰蓝色单元格),这可能是由于现有偏差的强化和泛化能力的丧失。在S461数据集中,涉及Stability Oracle的组合频繁出现在最佳组合中,但在S_sym中则不然,这表明结构PSLMs的监督迁移不一定能为模型集成带来有价值的新信息。
图 4
将模型互补性分析扩展到更多模型需要一种数据指导的方法。作者采用贪心递归特征添加,使用K2369数据集的子集训练线性回归模型,以展示单个模型在集成中的相对重要性,以及随着增加额外特征或模型后的性能提升程度。作者加入了3个已知可作为稳定性预测最小特征集的理化属性,并剔除了与S_sym或S461中任意条目序列同一性超过25%的蛋白质,最终保留了1,566个训练数据点(K1566)。集成模型在剩余的数据集上测试,并额外构建了一个通过从K3822中移除K1566突变体得到的数据集,命名为K3822*。虽然K3822*和Q3421未完全从训练集中剔除,图4仍显示PSLMs可以可靠地结合理化属性来超越基准稳定性预测器(Rosetta Cartesian DDG)的中位性能。
具体来说,MIF-ST首先通过使用QuantiProt Python包确定的突变导致的残基体积和疏水性变化的加权组合进行增强,显著提升了性能。这些基于序列的特征每种仅有20×19种可能组合(对应每种野生型和突变体),可以预先计算,计算成本几乎可以忽略不计。在包含通过DSSP计算的结构依赖性相对溶剂可及表面面积(RSA)以及ProteinMPNN和Ankh的零样本预测后,四个数据集的中位自举性能都超过了Rosetta Cartesian DDG,表明这些方法之间的信息互补性。任何后续的添加在任何测试集上都未能显著提升性能,表明在组合了三个不同的PSLM后,几乎没有剩余的附加信息。值得注意的是,基于理化属性的监督增强使集成模型专注于稳定性预测,但也牺牲了它们免于训练数据偏差和局限的自由度。
编译|黄海涛
审稿|王梓旭
参考资料
Reeves, S., Kalyaanamoorthy, S. Zero-shot transfer of protein sequence likelihood models to thermostability prediction. Nat Mach Intell 6, 1063–1076 (2024).