Nature Communications|基于少量样本学习的蛋白质语言预测模型！

文摘 2024-09-24 08:19 天津

关注+标星，邂逅每一篇经典！

文章摘要

准确地建模蛋白质适应度景观对于蛋白质工程具有重要意义。预训练的蛋白质语言模型在无需湿实验室实验数据的情况下预测蛋白质适应度方面已经达到了最先进的性能水平，但它们的准确性和可解释性仍然有限。另一方面，传统的监督深度学习模型需要大量的标记训练样本来提高性能，这构成了实际应用中的障碍。在这项工作中，作者引入了FSFP，这是一种能够在极端数据稀缺的情况下有效优化蛋白质语言模型用于适应度预测的训练策略。通过结合元迁移学习、学习排序和参数高效的微调，FSFP能够显著提升各种蛋白质语言模型的性能，仅需使用目标蛋白质的几十个标记单点突变体。在87个深度突变扫描数据集上的计算机模拟基准测试证明了FSFP相对于无监督和有监督基线的优越性。此外，作者成功地将FSFP应用于通过湿实验室实验来改造Phi29 DNA聚合酶，实现了阳性率25%的提升。这些结果凸显了方法在辅助AI指导的蛋白质工程方面的潜力。

学术论文地址：

https://doi.org/10.1038/s41467-024-49798-6

开源代码地址：

https://github.com/ai4protein/FSFP

前世今生

蛋白质在生物活动中扮演着不可或缺的角色。由于它们作为生物催化剂的属性——绿色、高效且成本效益高——对它们在科学研究和工业生产中的应用需求稳步增长。然而，大多数直接从生物物种中获得的野生型蛋白质不能直接应用于工业条件下，因为它们的一些物理化学性质，如稳定性、活性和底物特异性，并不够好。蛋白质工程旨在挖掘具有特定应用有用特性的蛋白质。传统的蛋白质工程依赖于定向进化和理性设计等方法来增强这些特性。尽管定向进化强大，但在筛选庞大的突变库时面临着高通量测定设置复杂性和成本方面的挑战。理性设计虽然减少了实验要求，但由于缺乏详细的结构知识和机制见解而受到限制。近年来，深度学习显示出巨大的潜力，能够揭示蛋白质序列与其功能（即适应度）之间的隐含关系，从而有助于有效地探索广阔的蛋白质设计空间。

一般来说，深度学习方法可以分为监督和无监督模型，主要区别在于训练数据是否需要人工收集的标签。预训练的蛋白质语言模型(PLM)是最流行的无监督适应度预测方法。这些模型，例如ESM-2、ProGen、SaProt和ProtT5，在广泛的蛋白质宇宙上进行训练，可以独立于实验数据估计各种蛋白质序列的概率分布。这种能力促进了突变效应的预测，但准确性有限。由于这些模型本质上代表自然界中天然蛋白质序列的统计特征，它们的零样本似然分数基本上衡量了突变蛋白序列与天然蛋白质或特定蛋白质家族的相似程度。虽然这一指标可以预测某些天然蛋白质属性，如溶解性和稳定性，但它本质上缺乏预测非天然催化性质的能力，例如催化非天然底物或产生非天然产物。

相比之下，监督深度学习模型最近在预测蛋白质适应度方面显示出了高精度。基于它们强大的提取蛋白质局部和全局特征的能力，它们可以通过在充足的标记数据上训练来构建更准确的序列-适应度相关性。然而，这些模型严重依赖于从昂贵的高通量突变实验中获取的大量数据，这对大多数蛋白质来说是一个重大挑战。最近，开发了一种高效的岭回归模型，该模型结合了氨基酸的一热编码特征和由无监督模型计算的概率密度特征。当在有限的标记数据上进行训练时，它表现出优于更复杂和昂贵方法的改进性能。然而，一热编码特征不足以表示不同残基之间的关系。此外，作为一种线性模型，岭回归可能难以学习影响蛋白质适应度的复杂模式。因此，在蛋白质工程领域融合无监督和监督方法的优势，开发新的策略以有效地利用少量湿实验室数据来微调PLM是有意义的。

在这项工作中，作者利用元迁移学习(MTL)、学习排序(LTR)和参数高效的微调的协同方法来开发一种通用的方法来训练PLM。作者的方法，命名为FSFP（蛋白质适应度预测的少量样本学习），其特点是仅依靠目标蛋白质的最小标记数据集，包含仅数十个随机单点突变体。通过FSFP，这个精简的数据集可以显著提高训练模型预测突变效应的准确性。为了验证方法，使用包括ESM-1v、ESM-2和SaProt在内的代表性PLM进行了计算机模拟基准测试。尽管理论上FSFP与任何PLM兼容，但选择测试的模型主要受实际考虑的影响，特别是计算效率和资源限制。方法在ProteinGym上表现出了显著的性能，这是一个包括87个深突变扫描(DMS)数据集的基准，展示了适应不同PLM和蛋白质时的稳健性。这与仅使用数十个数据训练的无监督和监督模型相比取得了成就。具体而言，方法仅使用来自目标蛋白质的20个标记单点突变体，就能平均提高Spearman相关系数0.1左右。此外，FSFP被应用于通过湿实验室实验改造Phi29 DNA聚合酶，其中ESM-1v的前20个预测的平均熔点(Tm)和阳性率都得到了改善。这些结果凸显了它在数据利用效率方面的优势，表明了其在辅助AI引导的蛋白质工程方面的潜力。

匠心独运

图1 | FSFP概述。FSFP包括三个阶段：构建用于元学习的辅助任务、在辅助任务上对PLM进行元训练，以及将PLM转移到目标任务上。a 基于目标蛋白质的野生型序列或结构，检索两个相似蛋白质的标记突变数据集作为前两个任务。此外，使用基于多重序列比对（MSA）的方法来估算候选突变体的变异效应，作为第三个任务的伪标签。b 使用MAML算法在构建的任务上对PLM进行元训练，并最终将其优化为一个元学习者，为目标任务提供良好的参数初始化（右侧）。为了避免PLM在小规模训练数据上过拟合，LoRA被应用于约束模型更新到有限数量的参数（左侧）。c 元训练后的模型随后被转移到目标的少量样本学习任务上。FSFP将适应度预测视为一个排序问题，并利用LTR技术来进行迁移学习和元训练。它训练PLM通过计算预测值与真实排列顺序之间的列表式排名损失来对适应度进行排序。

卓越性能

图2 | 在ESM-2上的消融研究。a 在ProteinGym所有数据集上，针对不同的训练数据大小，每种策略的平均性能，通过Spearman相关系数评估。对于每个数据集，随机选择一小部分（20、40、60、80和100个）单点突变体作为训练集，其余的全部作为测试集。图中的每个点是五个随机数据分割的平均测试性能，误差棒指示了因不同分割导致的标准偏差。使用双侧Mann-Whitney U检验来比较FSFP与其他所有策略的性能，所有训练大小中最大的P值为0.0079。使用NDCG、Pearson相关系数和MAE测量的类似结果展示在补充图1b-d中。b 在ProteinGym所有数据集上，使用40个训练样本时，与零样本预测相比的Spearman相关系数性能提升的分布。每个数据集的性能增益是在五个随机分割中的平均值。

图3 | 在单点突变体和多点突变体上的总体性能。a 在所有87个数据集上测试的单点突变体上的平均模型性能，通过Spearman相关系数评估。误差棒代表了五个随机分割导致的标准偏差。SaProt (FSFP) 显著优于所有基线模型，所有训练大小中最大的P值为0.0079（双侧Mann-Whitney U检验）。使用NDCG测量的类似结果展示在补充图3a中。b 总结了在某个数据集上单点突变体的最佳测试Spearman相关系数是由哪种PLM实现的次数，颜色代表应用于最佳PLMs的不同策略。c 在11个数据集上测试的多点突变体上的平均模型性能，通过Spearman相关系数评估。误差棒代表了五个随机分割导致的标准偏差。SaProt (FSFP) 显著优于所有基线模型，所有训练大小中最大的P值为0.016（双侧Mann-Whitney U检验）。使用NDCG测量的类似结果展示在补充图3b中。d 类似于(b)，但针对多点突变体的最佳性能计数。

图4 | 使用FSFP改造Phi29。a 使用FSFP改造Phi29 DNA聚合酶的工作流程。b 通过FSFP训练前后，ESM-1v预测的前20个单点突变体的湿实验室实验熔点(Tm)值。源数据作为一个源数据文件提供。

总结展望

在这项工作中，作者引入了FSFP，这是一种有效的训练蛋白质语言模型(PLM)以预测蛋白质适应度的方法，只需要少量（数十个）标记的突变体。FSFP整合了LTR（学习排序）、LoRA（低秩适配）和MTL（元迁移学习）的技术，其中LTR满足了定向进化内在的需求，即对蛋白质适应度进行排序；LoRA大大降低了PLM在遇到小规模训练数据集时过拟合的风险；MTL为PLM提供了更好的初始参数，以便快速适应目标蛋白质。作者应用FSFP到三种代表性的PLM上，即ESM-1v、ESM-2和SaProt进行案例研究，尽管理论上它可以与任何PLM兼容。通过对87个深突变扫描(DMS)数据集进行全面的计算机模拟实验，证明了FSFP在少量样本蛋白质适应度预测的有效性和稳健性：(1) 它使用仅仅20个训练示例就能将PLM的测试性能平均提高0.1的Spearman相关系数；(2) 它一致且显著地提高了不同PLM的性能；(3) 它使PLM能够很好地推广到训练数据中未出现的突变位置；(4) 即使PLM在目标蛋白质上的零样本性能较差时，FSFP也可以既有效又节省数据。还应用FSFP通过湿实验室实验来改造Phi29 DNA聚合酶，结果显示它显著提高了ESM-1v的前20个预测的平均熔点(Tm)值和阳性率。

合理地，作者发现，在含有更多突变体并与目标蛋白质高度相似的蛋白质上元训练PLM可以带来更好的迁移学习性能。与没有MTL的PLM微调（LTR + LoRA）相比，即使检索到的蛋白质相似度较低，当辅助任务的数据集大小≥500时，元学习也是有益的。由于第三个辅助任务仅从目标蛋白质的多重序列比对(MSA)构建，不相似蛋白质的负面影响可以被缓解。值得注意的是，在最坏的情况下，FSFP的性能与LTR + LoRA相当，仍然比零样本预测高出很大幅度。潜在的原因是使用目标训练数据来提前停止元训练（“方法”），从而防止模型在质量较低的辅助任务上过度拟合。总的来说，辅助任务对目标蛋白质越有信息含量，元学习的效果就越显著。因此，根据先验知识收集与目标任务足够接近的辅助数据集非常重要，例如使用来自目标蛋白质的不同类型的实验数据。

基于其卓越的少量样本性能，FSFP可以实现更有效的定向进化，特别是在高通量筛选困难的情况下。定向进化的初始数据可能来源于理性设计、随机突变或PLM的零样本预测。无论这个初始数据集中阳性突变的比例如何，它都可以作为选择最适合的PLM的基础。在后续的迭代轮次中，可以应用FSFP来训练选定的PLM。利用FSFP训练的模型的推断能力，它们可以被用来推荐新的突变体。

参考文献：

Zhou, Z., Zhang, L., Yu, Y. et al. Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning. Nat Commun 15, 5566 (2024).

关注+标星，邂逅每一篇经典！

http://mp.weixin.qq.com/s?__biz=Mzk0MTYxOTM0MQ==&mid=2247486124&idx=1&sn=41146a83d6c093e5422f51f94fa36291

群函数

分享前沿的开源技术以及有趣的科普知识。敬请关注！

Science | 神经网络中的特征学习机制以及无需反向传播的机器学习模型。

Nature | 用于快速、无需标记的胶质瘤浸润检测的基础模型！

Science Advances|基于生成对抗网络的重建泛癌组织学

Science Advances|基于光学相干断层扫描（OCT）的非侵入性虚拟活检！

ECCV | 通过密集归一化的超高分辨率非配对图像到图像的转换!

CVPR2024|通过扩散模型调优增强的“SAM”

Nature Mach. Intell.|基于任务辅助的GAN来增强光学纳米显微图像分辨率！

Light | 深度学习自发荧光-谐波显微镜！

Nature Communications|使用自荧光显微镜和深度学习进行虚拟双折射成像和组织学染色！

Nature Communications|未标记尸检组织的虚拟组织学染色！

Nature Communications | 超紫外光声显微镜实现深度学习驱动的真实虚拟组织学！

Nature Communications|基于深度学习的H&E染色组织向特殊染色的转换

Nature B.M.E.|通过深度学习的紫外光声显微镜实现骨组织的无标记术中组织学检查

Light|基于深度学习的虚拟染色、分割和分类在无标记光声组织学中的应用

Cell Systems|基于弱监督深度学习的图像空间转录组学中精确的单分子点检测

Nature B.M.E. | 通过深度学习对未标记组织的自体荧光图像进行虚拟组织学染色

Nature Methods|综述-用于细胞图像分析的深度学习！

Nature Communications| 基于自监督学习亚细胞空间转录组数据分割！

Nature Communications | 用于多尺度组织成像和神经元分割的模块化框架！

Nature Methods|使用Kubernetes扩展基于深度学习的细胞图像分析

Nature Methods| Cellpose 2.0：如何训练你自己的模型？

一种用于多模态图像的细胞分割基础模型

Nature Biotech.|使用大规模数据标注和深度学习实现组织图像的全细胞分割！

Science |诺奖获得者06年经典之作-使用神经网络降低数据的维度！

ECCV | ActionVOS：将动作作为提示进行视频对象分割!

超越自适应SAM：通过自动提示实现端到端的超声图像分割！

CVPR | 端到端多模态Transformer视频对象分割！

ECCV 2024 | AI的物理世界，在音视频场景中参考并分割对象Ref-AVS

Nat.Biomed.Eng. | 用于临床血管成像的快速全光学3D光声扫描仪。

Nature Communications | 高性能的深度脉冲神经网络！

刚刚，2024年诺贝尔化学奖同样也授予AI科学家！

nature | 通用医学人工智能的基础模型！

刚刚，诺贝尔物理学奖颁给研究神经网络的科学家！

NeurIPS 2024 | 何恺明老师新作！通过异构预训练的变换器扩展本体感觉-视觉学习

Nature Communications |纵向深度神经网络用于评估大型开放基准上的转移性脑癌！

基于大型视觉和语言模型的提示引导病理分割PFPs

SAM-Adapter：适应性能低下场景中的任何片段适配！

CVPR2024 | 处理扩散模型中时间间隔端点的奇异性!

CVPR2024 | 面向大图像生成的学习表示引导扩散模型！

Nature Communications|基于少量样本学习的蛋白质语言预测模型！

Nature Communications|基于临床-组织学-基因组的肾细胞癌多分类器系统！

Science Advances | 通过受激拉曼CycleGAN模型对新鲜脑组织进行虚拟病理染色!

Nature Communications | 基于预训练多模态大模型的皮肤病诊断SkinGPT-4！

Nature | 癌症诊断和预后预测的通用病理基础模型！

Nature Communications | 基于可解释图神经网络的癌症基因分析！

Nature Communications | 基于去噪超分辨率网络的蛋白质组学细胞分割与聚类！

Science | 基于无反向传播训练的深度物理神经网络！

Nature Communications|基于组织病理学的临床试验中患者预筛查深度学习算法！

Nature Rev. Cancer | 基于人工智能的癌症研究人员指导综述！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉