Nature Communications|基于少量样本学习的蛋白质语言预测模型!

文摘   2024-09-24 08:19   天津  

关注+标星,邂逅每一篇经典!

文章摘要

准确地建模蛋白质适应度景观对于蛋白质工程具有重要意义。预训练的蛋白质语言模型在无需湿实验室实验数据的情况下预测蛋白质适应度方面已经达到了最先进的性能水平,但它们的准确性和可解释性仍然有限。另一方面,传统的监督深度学习模型需要大量的标记训练样本来提高性能,这构成了实际应用中的障碍。在这项工作中,作者引入了FSFP,这是一种能够在极端数据稀缺的情况下有效优化蛋白质语言模型用于适应度预测的训练策略。通过结合元迁移学习、学习排序和参数高效的微调,FSFP能够显著提升各种蛋白质语言模型的性能,仅需使用目标蛋白质的几十个标记单点突变体。在87个深度突变扫描数据集上的计算机模拟基准测试证明了FSFP相对于无监督和有监督基线的优越性。此外,作者成功地将FSFP应用于通过湿实验室实验来改造Phi29 DNA聚合酶,实现了阳性率25%的提升。这些结果凸显了方法在辅助AI指导的蛋白质工程方面的潜力。

学术论文地址:

https://doi.org/10.1038/s41467-024-49798-6

开源代码地址:

 https://github.com/ai4protein/FSFP

前世今生

蛋白质在生物活动中扮演着不可或缺的角色。由于它们作为生物催化剂的属性——绿色、高效且成本效益高——对它们在科学研究和工业生产中的应用需求稳步增长。然而,大多数直接从生物物种中获得的野生型蛋白质不能直接应用于工业条件下,因为它们的一些物理化学性质,如稳定性、活性和底物特异性,并不够好。蛋白质工程旨在挖掘具有特定应用有用特性的蛋白质。传统的蛋白质工程依赖于定向进化和理性设计等方法来增强这些特性。尽管定向进化强大,但在筛选庞大的突变库时面临着高通量测定设置复杂性和成本方面的挑战。理性设计虽然减少了实验要求,但由于缺乏详细的结构知识和机制见解而受到限制。近年来,深度学习显示出巨大的潜力,能够揭示蛋白质序列与其功能(即适应度)之间的隐含关系,从而有助于有效地探索广阔的蛋白质设计空间。

一般来说,深度学习方法可以分为监督和无监督模型,主要区别在于训练数据是否需要人工收集的标签。预训练的蛋白质语言模型(PLM)是最流行的无监督适应度预测方法。这些模型,例如ESM-2、ProGen、SaProt和ProtT5,在广泛的蛋白质宇宙上进行训练,可以独立于实验数据估计各种蛋白质序列的概率分布。这种能力促进了突变效应的预测,但准确性有限。由于这些模型本质上代表自然界中天然蛋白质序列的统计特征,它们的零样本似然分数基本上衡量了突变蛋白序列与天然蛋白质或特定蛋白质家族的相似程度。虽然这一指标可以预测某些天然蛋白质属性,如溶解性和稳定性,但它本质上缺乏预测非天然催化性质的能力,例如催化非天然底物或产生非天然产物。

相比之下,监督深度学习模型最近在预测蛋白质适应度方面显示出了高精度。基于它们强大的提取蛋白质局部和全局特征的能力,它们可以通过在充足的标记数据上训练来构建更准确的序列-适应度相关性。然而,这些模型严重依赖于从昂贵的高通量突变实验中获取的大量数据,这对大多数蛋白质来说是一个重大挑战。最近,开发了一种高效的岭回归模型,该模型结合了氨基酸的一热编码特征和由无监督模型计算的概率密度特征。当在有限的标记数据上进行训练时,它表现出优于更复杂和昂贵方法的改进性能。然而,一热编码特征不足以表示不同残基之间的关系。此外,作为一种线性模型,岭回归可能难以学习影响蛋白质适应度的复杂模式。因此,在蛋白质工程领域融合无监督和监督方法的优势,开发新的策略以有效地利用少量湿实验室数据来微调PLM是有意义的。

在这项工作中,作者利用元迁移学习(MTL)、学习排序(LTR)和参数高效的微调的协同方法来开发一种通用的方法来训练PLM。作者的方法,命名为FSFP(蛋白质适应度预测的少量样本学习),其特点是仅依靠目标蛋白质的最小标记数据集,包含仅数十个随机单点突变体。通过FSFP,这个精简的数据集可以显著提高训练模型预测突变效应的准确性。为了验证方法,使用包括ESM-1v、ESM-2和SaProt在内的代表性PLM进行了计算机模拟基准测试。尽管理论上FSFP与任何PLM兼容,但选择测试的模型主要受实际考虑的影响,特别是计算效率和资源限制。方法在ProteinGym上表现出了显著的性能,这是一个包括87个深突变扫描(DMS)数据集的基准,展示了适应不同PLM和蛋白质时的稳健性。这与仅使用数十个数据训练的无监督和监督模型相比取得了成就。具体而言,方法仅使用来自目标蛋白质的20个标记单点突变体,就能平均提高Spearman相关系数0.1左右。此外,FSFP被应用于通过湿实验室实验改造Phi29 DNA聚合酶,其中ESM-1v的前20个预测的平均熔点(Tm)和阳性率都得到了改善。这些结果凸显了它在数据利用效率方面的优势,表明了其在辅助AI引导的蛋白质工程方面的潜力。

匠心独运

图1 | FSFP概述。FSFP包括三个阶段:构建用于元学习的辅助任务、在辅助任务上对PLM进行元训练,以及将PLM转移到目标任务上。a 基于目标蛋白质的野生型序列或结构,检索两个相似蛋白质的标记突变数据集作为前两个任务。此外,使用基于多重序列比对(MSA)的方法来估算候选突变体的变异效应,作为第三个任务的伪标签。b 使用MAML算法在构建的任务上对PLM进行元训练,并最终将其优化为一个元学习者,为目标任务提供良好的参数初始化(右侧)。为了避免PLM在小规模训练数据上过拟合,LoRA被应用于约束模型更新到有限数量的参数(左侧)。c 元训练后的模型随后被转移到目标的少量样本学习任务上。FSFP将适应度预测视为一个排序问题,并利用LTR技术来进行迁移学习和元训练。它训练PLM通过计算预测值与真实排列顺序之间的列表式排名损失来对适应度进行排序。

卓越性能

图2 | 在ESM-2上的消融研究。a 在ProteinGym所有数据集上,针对不同的训练数据大小,每种策略的平均性能,通过Spearman相关系数评估。对于每个数据集,随机选择一小部分(20、40、60、80和100个)单点突变体作为训练集,其余的全部作为测试集。图中的每个点是五个随机数据分割的平均测试性能,误差棒指示了因不同分割导致的标准偏差。使用双侧Mann-Whitney U检验来比较FSFP与其他所有策略的性能,所有训练大小中最大的P值为0.0079。使用NDCG、Pearson相关系数和MAE测量的类似结果展示在补充图1b-d中。b 在ProteinGym所有数据集上,使用40个训练样本时,与零样本预测相比的Spearman相关系数性能提升的分布。每个数据集的性能增益是在五个随机分割中的平均值。

图3 | 在单点突变体和多点突变体上的总体性能。a 在所有87个数据集上测试的单点突变体上的平均模型性能,通过Spearman相关系数评估。误差棒代表了五个随机分割导致的标准偏差。SaProt (FSFP) 显著优于所有基线模型,所有训练大小中最大的P值为0.0079(双侧Mann-Whitney U检验)。使用NDCG测量的类似结果展示在补充图3a中。b 总结了在某个数据集上单点突变体的最佳测试Spearman相关系数是由哪种PLM实现的次数,颜色代表应用于最佳PLMs的不同策略。c 在11个数据集上测试的多点突变体上的平均模型性能,通过Spearman相关系数评估。误差棒代表了五个随机分割导致的标准偏差。SaProt (FSFP) 显著优于所有基线模型,所有训练大小中最大的P值为0.016(双侧Mann-Whitney U检验)。使用NDCG测量的类似结果展示在补充图3b中。d 类似于(b),但针对多点突变体的最佳性能计数。

图4 | 使用FSFP改造Phi29。a 使用FSFP改造Phi29 DNA聚合酶的工作流程。b 通过FSFP训练前后,ESM-1v预测的前20个单点突变体的湿实验室实验熔点(Tm)值。源数据作为一个源数据文件提供。

总结展望

在这项工作中,作者引入了FSFP,这是一种有效的训练蛋白质语言模型(PLM)以预测蛋白质适应度的方法,只需要少量(数十个)标记的突变体。FSFP整合了LTR(学习排序)、LoRA(低秩适配)和MTL(元迁移学习)的技术,其中LTR满足了定向进化内在的需求,即对蛋白质适应度进行排序;LoRA大大降低了PLM在遇到小规模训练数据集时过拟合的风险;MTL为PLM提供了更好的初始参数,以便快速适应目标蛋白质。作者应用FSFP到三种代表性的PLM上,即ESM-1v、ESM-2和SaProt进行案例研究,尽管理论上它可以与任何PLM兼容。通过对87个深突变扫描(DMS)数据集进行全面的计算机模拟实验,证明了FSFP在少量样本蛋白质适应度预测的有效性和稳健性:(1) 它使用仅仅20个训练示例就能将PLM的测试性能平均提高0.1的Spearman相关系数;(2) 它一致且显著地提高了不同PLM的性能;(3) 它使PLM能够很好地推广到训练数据中未出现的突变位置;(4) 即使PLM在目标蛋白质上的零样本性能较差时,FSFP也可以既有效又节省数据。还应用FSFP通过湿实验室实验来改造Phi29 DNA聚合酶,结果显示它显著提高了ESM-1v的前20个预测的平均熔点(Tm)值和阳性率。

合理地,作者发现,在含有更多突变体并与目标蛋白质高度相似的蛋白质上元训练PLM可以带来更好的迁移学习性能。与没有MTL的PLM微调(LTR + LoRA)相比,即使检索到的蛋白质相似度较低,当辅助任务的数据集大小≥500时,元学习也是有益的。由于第三个辅助任务仅从目标蛋白质的多重序列比对(MSA)构建,不相似蛋白质的负面影响可以被缓解。值得注意的是,在最坏的情况下,FSFP的性能与LTR + LoRA相当,仍然比零样本预测高出很大幅度。潜在的原因是使用目标训练数据来提前停止元训练(“方法”),从而防止模型在质量较低的辅助任务上过度拟合。总的来说,辅助任务对目标蛋白质越有信息含量,元学习的效果就越显著。因此,根据先验知识收集与目标任务足够接近的辅助数据集非常重要,例如使用来自目标蛋白质的不同类型的实验数据。

基于其卓越的少量样本性能,FSFP可以实现更有效的定向进化,特别是在高通量筛选困难的情况下。定向进化的初始数据可能来源于理性设计、随机突变或PLM的零样本预测。无论这个初始数据集中阳性突变的比例如何,它都可以作为选择最适合的PLM的基础。在后续的迭代轮次中,可以应用FSFP来训练选定的PLM。利用FSFP训练的模型的推断能力,它们可以被用来推荐新的突变体。

参考文献:

Zhou, Z., Zhang, L., Yu, Y. et al. Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning. Nat Commun 15, 5566 (2024).

关注+标星,邂逅每一篇经典!

群函数
分享前沿的开源技术以及有趣的科普知识。敬请关注!
 最新文章