登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

科技 2024-12-09 12:43 北京

作者：李宝珠

编辑：十九

上海交通大学联合上海人工智能实验室，以及上海科技大学和中科院杭州医学院的合作者，共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME。

蛋白质不仅是人体生命活动的执行者，同时也在生物医药、食品加工、酿造业、化工业等多领域发挥着重要作用。所以，人们从未停止围绕蛋白质结构、功能等展开研究，为工业应用场景遴选出符合需求、稳定性高的蛋白质。

然而，从生物体中提取的「野生型」蛋白质，在工业环境中发挥作用所需的理化条件（如温度、pH 值）大多与其原生生物环境相去甚远。换言之，这一类蛋白质的稳定性难以适应严酷的工业环境。因此，为了满足不同应用场景的需求，往往需要通过突变来改善蛋白质的理化特性，从而提高其在极端温度 / pH 值条件下的稳定性，或是增加酶活性及特异性。

需要注意的是，想要改变蛋白质的生物活性需要对其工作机理进行长达数年的实验研究，不仅耗时费力，同时也愈发难以满足快速变化的改造需求。近年来，蛋白质语言模型的出现，虽然已经极大地提高了蛋白质适配性预测的准确度，但在其稳定性预测精度上仍有欠缺。

真正有意义的蛋白质突变，应该在提高稳定性的同时，仍能保持其生物活性；反之亦然。针对于此，上海交通大学自然科学研究院/物理天文学院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀，以及上海科技大学和中科院杭州医学院的合作者，共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME，同时在蛋白质突变-活性和突变-稳定性预测，以及其他温度相关的表征学习上取得了最佳预测效果。

相关研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」为题，已发表于知名期刊 Science 旗下的 Science Advances。

研究亮点：
* PRIME 能够在不依赖提前实验数据的情况下，预测特定蛋白质突变体的性能改进

* PRIME 能够有效预测出一种蛋白质的多种属性，使得研究人员在不熟悉的蛋白质领域也能获取成功设计
* PRIME 基于「温度感知」语言模型进行训练，能够更好地捕捉蛋白质序列的温度特征

论文地址：
https://www.science.org/doi/10.1126/sciadv.adr2641

关注公众号，后台回复「温度感知」获取完整 PDF

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：9,600万条数据，探索蛋白质序列与温度之间的关系

通过整合 Uniprot (Universal Protein Resource) 的公开数据，以及通过宏基因组学研究从环境样本中获得的蛋白质序列，研究人员整理了一个包含 47 亿条天然蛋白质序列的大型数据库 ProteomeAtlas。

* UniProt 是一个提供蛋白质序列和相关详细注释的大型数据库。

在序列筛选过程中，研究人员仅保留了完整长度的序列，并使用生物序列比对工具 MMseqs2 对这些序列进行处理，将序列同一性阈值设置为 50% 以减少冗余，进而识别并注释与细菌菌株最佳生长温度 (optimal growth temperatures, OGT) 相关的序列。

最终，研究人员以这种方式注释了 9,600 万条蛋白质序列，为探索蛋白质序列与温度之间的关系提供了丰富的资源。

此外，在模型热稳定性 zero-shot 预测能力分析中，用于研究熔解温度变化 (ΔTm) 的数据集来源于 MPTherm、FireProtDB 和 ProThermDB，并确保所有实验均在相同的 pH 条件下进行。

其中，MPTherm 包含与蛋白质热稳定性相关的实验数据；FireProtDB 专门用于存储与蛋白质热稳定性及功能相关的突变实验数据；ProThermDB 专门收集与蛋白质热力学性质相关的数据。同时，研究人员还结合了深度突变扫描 (DMS) 的数据，主要来源于蛋白质突变分析数据库 ProteinGym。

* ProteinGym 蛋白质突变数据集
https://go.hyper.ai/YlMT5

模型架构：基于「温度感知」的深度学习模型

该研究所提出的新型深度学习模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction)，能够在不依赖提前实验数据的情况下，预测特定蛋白质突变体的性能改进。

该模型基于「温度感知」语言模型进行训练，依赖 9,600 万蛋白质序列的数据集，结合 token 层面的掩码语言建模 (MLM) 任务，和序列层面最优生长温度 (OGT) 预测目标，并通过多任务学习引入 correlation loss 项，能够筛选出具备高温耐受性的蛋白序列，以优化其稳定性和生物活性。

具体而言，PRIME 由 3 个主要部分组成，如下图所示。首先是编码器模块 (Encoder module)，这是一个用于提取序列潜在特征的 Transformer 编码器。第二个是 MLM 模块，旨在帮助编码器学习氨基酸的上下文表征。同时，MLM 模块还可用于突变体评分。第三个组件是 OGT 预测模块，它可以根据潜在表征预测蛋白质所在生物体的 OGT。

PRIME 的架构设计

PRIME 在预训练阶段的多任务学习包括了 MLM、OGT 预测及 Correlation loss。

其中，MLM 经常被用作序列数据表征的预训练方法。在该研究中，噪声蛋白质序列作为输入，部分标记被屏蔽为或用替代标记表示，训练目标是重建这些噪声标记。这种方法有助于模型捕捉氨基酸之间的依赖关系以及序列的上下文信息，同时还可以利用这一重建过程对突变进行评分。

第二个训练任务是在监督条件下进行优化，研究人员使用一个包含 9,600 万个用 OGT 注释的蛋白质序列数据集来训练 PRIME 模型。该任务的输入为蛋白质序列 (protein sequence)，OGT 模块生成的温度值范围为 0° 至 100°C。值得注意的是，OGT 模块和 MLM 模块使用共享编码器运行。这种结构使模型能够同时捕捉氨基酸上下文信息以及其中与温度相关的序列特征。

PRIME 在温度预测中的应用

最后，研究人员引入了 Correlation loss，促进从预测的 OGT 到 MLM 分属的反馈，对齐 token 和序列层面的任务信息，使得大模型更好地捕捉蛋白质序列的温度特征。

实验结论：在预测突变蛋白序列的适应性方面优于最先进方法

研究人员通过实验比较了 PRIME 与当前最先进模型在热稳定性上的 zero-shot 预测能力，其中包括了深度学习模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle，以及传统计算方法 GEMME 和 Rosetta。

研究人员使用了来自 MPTherm、FireProtDB 和 ProThermDB 的数据集，其中包含了在相同 pH 环境下收集的熔解温度变化 (ΔTm)，并确保每个蛋白质至少有 10 个数据点，共有 66 项检测。同时，该研究还纳入了深度突变扫描 (DMS) 的检测方法，将 ProteinGym 用作测试基准。

结果如下图所示，PRIME 在预测蛋白质可用性和稳定性方面的表现均优于所有其他方法。

在 ProteinGym 基准测试中（下图中黄色），PRIME 的得分为 0.486，排名第二的 SaProt 得分为 0.457。在 ΔTm 数据集中（下图中深紫色），PRIME 仍然以 0.437 的得分位居榜首，第二名的得分为 0.412。此外，研究人员还在 ProteinGym 的子数据集 ProteinGym-stability 中（下图浅紫色）将 PRIME 与其他方法进行了比较，PRIME 仍然优于所有其他方法。

ΔTm 和 ProteinGym 数据集上的无监督模型基准测试

值得关注的是，为了检测 PRIME 在蛋白质工程实际应用中的有效性及效果，研究人员还进行了湿实验，选择了 5 种蛋白质进行验证，包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶，以及一个特异性纳米抗体的重链可变区。

在 top 30-45 个单位点突变的实验检验中，超过 30% 的 AI 推荐单点突变体在关键性能，如热稳定性、酶促活性、抗原-抗体结合亲和力、非天然核酸聚合能力或者极端碱性条件下的耐受性等方面明显优于野生型蛋白，个别蛋白质的阳性率超过 50%。

PRIME 预测的 5 种蛋白质单位点突变体的结构和实验结果

值得一提的是，团队还基于 PRIME 还展示了一种高效的方法，可快速获得具备增强活性和稳定性的多位点突变体。通过这种小样本微调方法，在不到 100 个湿实验样本下，2-4 轮进化就能产生非常优异的蛋白质突变体。

例如 T7 RNA 聚合酶经过 4 轮干湿迭代，成功获得了具有高活性和高稳定性的多点突变体，最高的多点突变体 Tm 高出野生型 12.8℃，活性是野生的近 4 倍，且部分产品性能超越国际领先的生物科技公司 (New England Biolabs) 统治市场10年之久的同类产品。并且，在 LbCas12a、T7 RNA 聚合酶的实验中，Pro-PRIME 能将阴性单点突变叠加得到阳性多点突变。

这表明 PRIME 能够从序列数据中学习到蛋白质突变的上位效应，这对传统蛋白质工程意义重大。

深耕蛋白质工程，攻克小样本难题

在蛋白质工程领域，蛋白质的表达、纯化和功能测试通常需要昂贵的试剂、仪器，且实验耗时较长，这极大限制了可生成的样本数量。在蛋白质功能研究中，测试蛋白质突变对功能（如催化活性、热稳定性、结合亲和力等）的影响更加需要精确且复杂的实验，很难通过一次性高通量测量所有可能突变的性能。

这就使得机器学习模型难以在有限样本上获得足够的训练，导致模型在预测新突变时表现不佳，加之小样本数据中，实验误差或噪声可能对模型训练造成更大的干扰。可以说，小样本数据的挑战在一定程度上限制了蛋白质工程领域的研究效率及准确性。功过相伴，这也极大推动了研究人员探索创新技术，结合机器学习、实验技术和多模态数据分析等突破小样本的限制。

本文所述的研究团队便在这方面表现突出，除了上文提到的 PRIME 外，洪亮教授团队联合谈攀博士还曾面向小样本学习发布多项成果。

此前，该团队综合利用元迁移学习 (meta-transfer learning, MTL)、排序学习 (learning to rank, LTR) 和参数高效微调 (parameter-efficient fine-tuning, PEFT)，开发了一种能在数据极度匮乏的情况下，有效优化蛋白质语言模型的训练策略 FSFP，可用于蛋白质适配性的小样本学习，在使用极少湿实验数据的情况下，极大地提高传统蛋白质预训练大模型在突变-性质预测的效果，在实际应用中也显示出了巨大的潜力。

相关研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」为题，发表在 Nature 旗下 Nature Communications。

*点击查看详细报道：20个实验数据创造AI蛋白质里程碑！上海交大联合上海AI Lab发布FSFP，有效优化蛋白质预训练模型

此外，洪亮教授也曾分享过相关观点，他认为「未来 3 年，在蛋白设计、药物研发、疾病诊断、新靶点发现、化学合成路径设计以及材料设计等领域，专业领域的通用人工智能将带来明确的范式变革，将过去依靠人脑零星试错的科学发现模式，转变为 AI 大模型自动化标准设计模式」。

具体变革包括了构建零样本或者小样本学习方法，以及构建预训练技术模型，在没有数据的情况下，则通过物理模拟器产生精度略低的大量假数据来做预训练，再用真实珍贵的数据进行微调，完成强化学习。

洪教授强调，「假数据指非真实世界的数据，但有一定的可靠度，它可以是 AI 生成的，也可以是物理计算模拟得来进行数据增强，最后真实的湿实验数据最为宝贵，用于模型的最终微调」。

诚然，数据稀缺挑战其实不仅存在于蛋白质工程领域，小样本、甚至是零样本学习方法至关重要，期待洪亮教授团队及谈攀博士围绕这一痛点带来更多高质量成果。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉