Z科技｜入选NeurIPS 24，浙大团队提出全新去噪蛋白质语言模型DePLM，突变效应预测优于SOTA模型

学术 2024-10-22 20:03 浙江

藕舫天使Ofound 专注服务、投资浙大系创业者

浙大人物

陈华钧浙江大学计算机科学与技术学院教授、博导

2005年博士毕业于浙江大学计算机科学与技术专业。中文开放知识图谱OpenKG牵头发起人，浙江省数智科技研究会副会长，中国人工智能学会知识工程专委会副主任，中国中文信息学会语言与知识计算专委会副主任。入选浙江省有突出贡献中青年专家，浙江省高层次人才特殊支持计划科技创新领军人才，斯坦福全球前2%顶尖科学家终身榜单（人工智能领域）。

本研究所提出的全新去噪蛋白质语言模型 (DePLM) 不仅显著提升了蛋白质优化性能，而且保持了强大的泛化能力。

作为生物功能的主要载体，蛋白质结构和功能在数十亿年的进化中所展示出的多样性，为药物发现和材料科学等领域的进步提供了重要机遇，然而，现有蛋白质的固有特性（如热稳定性）在许多情况下往往无法满足实际需求。因此，研究人员致力于通过优化蛋白质来增强其特性。

传统的深度突变扫描 (DMS) 和定向进化 (DE) 依赖于昂贵的湿实验技术，与之相比，基于机器学习的方法能够快速评估突变效果，对高效的蛋白质优化至关重要。其中，一种应用广泛的研究途径是利用进化信息 (Evolution Information) 来检验突变效果。进化信息可以通过氨基酸在蛋白质序列中某一位置出现的可能性来推断突变效果。为了计算将一种氨基酸突变为另一种的相关概率，主流方法使用训练在数百万蛋白质序列上的蛋白质语言模型 (PLMs)，以自监督的方式捕捉进化信息。

然而，现有的方法通常有 2 个关键方面被忽视——首先，现有方法未能去除无关的进化信息，进化是为了满足生存需求而同时优化多个特性，这往往会掩盖目标特性的优化；其次，目前主流的学习目标包含数据集特定的信息，这些信息往往过度拟合于当前的训练数据，限制了模型对新蛋白质的泛化能力。

为了解决这些挑战，浙江大学计算机科学与技术学院、浙江大学国际联合学院、浙江大学杭州国际科创中心陈华钧教授、张强博士等人，共同提出了一种针对蛋白质优化的全新去噪蛋白质语言模型 (DePLM)，核心在于将蛋白质语言模型捕捉到的进化信息 EI 视为与特性相关和无关信息的混合体，其中无关信息类似于目标特性的「噪音」，因此需要消除这些「噪音」。大量实验表明，本研究所提出的基于排序的去噪过程显著提高了蛋白质优化性能，并同时保持了强大的泛化能力。

相关成果以「DePLM: Denoising Protein Language Models for Property Optimization」为题，入选了顶会 NeurIPS 24。

研究亮点：

* DePLM 能够有效过滤无关信息，通过优化 PLM 中包含的进化信息来改善蛋白质优化

* 本研究设计了去噪扩散框架中的基于排序的前向过程，将扩散过程扩展到突变可能性的排序空间，同时将学习目标从最小化数值误差转变为最大化排序相关性，促进数据集无关的学习并确保强大的泛化能力

* 大量实验结果表明，DePLM 不仅在突变效应预测方面优于当前最先进的模型，还展现出对新蛋白质的强大泛化能力

论文地址：https://neurips.cc/virtual/2024/poster/95517
ProteinGym 蛋白质突变数据集下载：https://hyper.ai/datasets/32818
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：https://github.com/hyperai/awesome-ai4s

数据集：广泛的深度突变筛选实验集合

ProteinGym 是一个广泛的深度突变筛选 (DMS) 实验集合，包含 217 个数据集。由于 PLM 的长度限制，研究人员排除了包含长度超过 1,024 的野生型蛋白质的数据集，最终保留了 201 个 DMS 数据集。ProteinGym 将 DMS 分类为 5 个粗略类别：66 个用于稳定性，69 个用于适应性，16 个用于表达，12 个用于结合，38 个用于活性。

* 性能比较实验：研究人员采用了随机交叉验证方法，在该方法中，数据集中的每个突变会随机分配到 5 个折叠中的一个，然后通过对这 5 个折叠的结果进行平均来评估模型的性能。

* 泛化能力实验：给定一个测试数据集，研究人员随机选择多达 40 个与其优化目标（例如热稳定性）一致的数据集作为训练数据，需确保训练蛋白质与测试蛋白质之间的序列相似性低于 50%，以避免数据泄漏。

模型架构：基于排序空间的前向过程来扩展扩散模型

如前文所述，DePLM 的核心在于将蛋白质语言模型 PLM 捕捉到的进化信息 EI 视为与特性相关和无关信息的混合体，其中无关信息类似于目标特性的「噪音」，并消除这些「噪音」。为实现这一目标，研究人员从去噪扩散模型中获得灵感，该模型通过精炼含噪输入以生成期望的输出。

具体而言，研究人员设计了一个基于排序信息的前向过程来扩展扩散模型以去噪进化信息，如下图所示。在下图左侧，DePLM 使用从 PLM 中得出的进化似然 (Evolution Likelihood) 作为输入，并生成针对特定属性的去噪似然 (Denoised Likelihood)，用于预测突变的影响；在下图中间和右侧，去噪模块 (Denoising Module) 利用特征编码器 (Feature Encoder) 生成蛋白质的表征，考虑一级和三级结构，这些表征随后通过去噪模块用于过滤似然中的噪声。

DePLM 架构概览

去噪扩散模型 (Denoising diffusion models) 包含 2 个主要过程：正向的扩散过程和需要学习的反向去噪过程。在正向扩散过程中，少量噪声逐步添加到真实值中；然后，反向去噪过程学习通过逐步消除积累的噪声来恢复真实值。

然而，在将这些模型应用于蛋白质优化中的突变概率进行去噪时，存在 2 个主要挑战——首先，实际特性值与实验测量之间的关系通常表现出非线性，这源于实验方法的多样性，因此，仅依赖于最小化预测值和观测值之间的差异进行去噪，可能会导致模型过拟合到特定数据集，从而降低模型的泛化能力；其次，与传统的去噪扩散模型不同，研究人员要求累积的噪声收敛。

为了解决这些挑战，研究人员提出了基于排序的去噪扩散过程 (a rank-based denoising diffusion process)，重点在于最大化排序相关性，如下图所示。在下图左侧，DePLM 的训练涉及 2 个主要步骤：正向加噪过程 (a forward corruption process) 和反向去噪过程 (a learned reverse denoising process)。

在加噪步骤中，研究人员使用排序算法 (sorting algorithm) 生成轨迹，从属性特异性似然 (Property-specific Likelihood) 的排序转变为进化似然 (Evolution Likelihood) 的排序，DePLM 被训练来模拟这一反向过程。在下图右侧，研究人员展示了从进化似然 (Evolution Likelihood) 向属性特异性似然 (Property-specific Likelihood) 转变过程中 Spearman 系数的变化。

DePLM 的训练过程

最后，为了实现与数据集无关的学习和强大的模型泛化能力，研究人员在特性值的排序空间中进行扩散过程，并将传统的最小化数值误差目标替换为最大化排序相关性。

研究结果：DePLM 性能优越且具备强大的泛化能力

性能评估：验证了将进化信息与实验数据相结合的优势

首先，为了评估 DePLM 在蛋白质工程任务中的性能，研究人员将其与 9 个基准进行了比较，包括 4 个从零开始训练的蛋白质序列编码器 (CNN、ResNet、LSTM 和 Transformer)，5 个自监督模型 (OHE、ESM-1v 的微调版本、ESM-MSA、Tranception 以及 ProteinNPT)。

结果如下表所示，最佳结果和次优结果在表中分别用粗体和下划线标出。整体来看，DePLM 的表现优于基线模型，从而确认了将进化信息与实验数据相结合在蛋白质工程任务中的优势。

DePLM 与基线模型在蛋白质工程任务中的表现

值得注意的是，ESM-MSA 和 Tranception 由于引入了多序列比对 (MSA)，表现出比 ESM-1v 更强的进化信息，通过比较它们的结果，研究人员证明了高质量的进化信息显著改善了微调后的结果。然而，即使在这些改进的情况下，它们的表现仍然未能达到 DePLM 的水平。研究人员还注意到，DePLM 的表现优于 ProteinNPT，强调了所提出的去噪训练过程的有效性。

泛化能力评估：消除无关因素影响，提升性能

接着，为了进一步评估 DePLM 的泛化能力，研究人员将其与 4 个自监督基线 (ESM-1v、ESM-2 和 TranceptEVE)、2 个基于结构的基线 (ESM-IF 和 ProteinMPNN) 以及 3 个监督基线 (CNN、ESM-1v 和 ESM-2 的微调版本）进行比较。

结果如下表所示，最佳结果和次优结果在表中分别用粗体和下划线标出，可以观察到，DePLM 始终优于所有基线模型——这进一步展示了仅依赖未过滤进化信息的模型存在不足，其往往由于同时优化多个目标而稀释了目标属性。通过消除无关因素的影响，DePLM 显著提高了性能。

泛化能力评估

此外，为了最小化预测分数与实验分数之间的差异而训练的基线模型 ESM1v (FT) 和 ESM2 (FT) 的表现远远低于 DePLM。这一结果表明，在排序空间中优化模型降低了来自特定数据集的偏差，从而实现了更优的泛化。此外，研究人员还观察到，蛋白质结构信息有助于稳定性和结合性的提升，而进化信息则增强了适应性和活性属性。

总而言之，大量实验结果表明，DePLM 不仅在突变效应预测方面优于当前最先进的模型，还展现出对新蛋白质的强大泛化能力。

浙大团队持续深耕 PLMs，助力生物产业发展

蛋白质大语言模型具有准确预测蛋白质结构、功能和相互作用的能力，代表了 AI 技术在生物学中的前沿应用，其通过学习蛋白质序列的模式和结构，能够预测蛋白质的功能和形态，对于新药开发、疾病治疗和基础生物学研究具有重大意义。

面对这一富有前景的新兴领域，浙江大学团队近年来持续深耕，取得了多项创新科研成果。

2023 年 3 月，陈华钧教授、张强博士和其所在的 AI 交叉中心研究团队开发了一种针对蛋白质语言的预训练模型，该模型的相关研究以「 Multi-level Protein Structure Pre-training with Prompt Learning」为题发表在 2023 年 ICLR 国际机器学习表征会议上。值得一提的是，ICLR 会议是深度学习领域最顶尖的会议之一，由两位图灵奖得主 Yoshua Bengio 和 Yann LeCun 领衔创办。

在这项工作中，研究团队在国际上率先提出了面向蛋白质的提示学习机制，并构建了 PromptProtein 模型，设计了 3 个预训练任务，将蛋白质的第一、三、四级结构信息注入到模型中。为了灵活使用结构信息，受到自然语言处理中的提示技术的启发，研究人员提出了提示符引导下的预训练和微调框架。在蛋白质功能预测任务和蛋白质工程任务上的实验结果表明，成果提出的方法比传统模型具有更好的性能。

时间来到 2024 年，该团队的研究取得了进一步进展。为了解决 PLMs 在理解氨基酸序列方面表现出色，但无法理解人类语言的挑战，浙江大学陈华钧、张强团队提出 InstructProtein 模型，利用知识指令对齐蛋白质语言与人类语言，探索了在蛋白质语言和人类语言间的双向生成能力，有效弥补了两种语言之间的差距，展示了将生物序列整合到大型语言模型的能力。

该研究以「InstructProtein: Aligning Human and Protein Language via Knowledge Instruction」为题，被 ACL 2024 主会录用。大量双向蛋白质-文本生成任务的实验表明，InstructProtein 在性能上优于现有的最先进 LLMs。

论文地址：

https://arxiv.org/abs/2310.03269

实际上，这些文章仅仅还只是团队正在开展工作的一个方面。据报道，在浙江大学 AI 交叉中心研究人员更希望实现的是怎样利用蛋白质或分子语言大模型来驱动像 iBioFoundry 和 iChemFoundry 这样的科学实验机器人，将真实世界的传感器信号、蛋白质、人类语言相结合，建立语言和感知的链接。

未来，该团队期待将自己的研究成果进一步产业化，为新药研发、生命健康领域做更多有价值的探索和支撑。

参考资料：

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm

文章来源：HyperAl超神经

往期回顾

Z观点｜深度对话：白惠源“EPOCH”理论预言AI Agent的未来五部曲
 Z科技｜让普通人也能当“作曲家”，浙大研究人员探索音乐艺术创作和心理治疗新方法
 Z动态｜『地卫二』太空计算赋能星上能源：千帆星座18颗星入轨

使命：帮助有情怀的浙大人做有意义的事

愿景：以“藕”链接浙大校友，以“舫”承载求是情怀

价值观：求是本分

藕舫天使专注于服务、投资浙江大学校友师生创业的项目，致力于支持浙大校友成为“公忠坚毅，能担当大任，主持风会，转移国运”的商业领袖。

藕舫团队已经参与投资了100多家浙大校友创业企业：

科技领域：可胜技术、长光辰芯、棒糖科技、糖吉医疗、形色、票小秘、帕拉卡、码全信息、深视科技、双深信息、多翼科技、睿维视科技、地卫二空间技术、视光半导体、青塔科技、傲芯科技、玩点旅行、一目可视、超光微、速智通科技、再造再生；

智能制造领域：拓烯科技、三相科技、励贝液压、英创新材料、喜马拉雅科技、海川电气、晶宝新能源等。

—— Angel For ZJU

http://mp.weixin.qq.com/s?__biz=MjM5NjIwMjY2Nw==&mid=2247526175&idx=1&sn=aea71ade41ba23424154a8da4fcda02f

浙大校友创业观察

研究浙大校友创业现象关注浙大校友创业人物服务浙大校友创业生态

最新文章

Z动态 | Meta之后，Rokid也被同一家全球眼镜巨头看上了

Z动态｜喜报！全国第三，浙江大学四人上榜，第十八届中国青年科技奖公示

Z动态｜从白牌到全球品牌，浙大“兄弟”如何靠平价精品炼成骑行界迪卡侬？

Z动态｜阿曼国首颗人造卫星发射，『地卫二』在“空天信息”领域驶入国际化轨道

Z动态｜浙大校友企业『千寻智能』完成天使+轮融资，驶入商业化落地快车道

喜报｜藕舫投资企业『三相科技』领衔制定首项国标打破高端数控机床进口电机垄断

Z榜单｜亚洲大学排名出炉，浙江大学位列亚洲第八

Z动态｜浙大系潜伏了一家四足机器人头部企业，正在进军人形机器人领域

活动报名 | 求是AI圆桌第五期：AI效率工具的机遇与挑战

Z观点｜禾迈何以开启微逆大时代？——《高端说》对话禾迈股份总经理杨波

Z动态｜让杂交水稻制种“智能化”！他们为保障国家粮食安全勇闯“创业无人区”

Z动态｜「深度原理」完成种子++轮融资，祥峰独家投资，AI解锁新型化学反应和材料

求是直聘 | 校友企业招募HRD、财务总监、品宣总监、销售副总等核心职位

Z动态｜浙大校友企业『星海图』完成超2亿元Pre-A轮融资

Z人物｜用特殊的巧克力做关键材料，曾保送浙大的他花9年时间做可以吃的3D打印

Z观点｜AI+园艺如何破圈，这位开发了花信App的浙大校友这样说——

Z人物｜高考没考好却进了浙大，喜欢游泳的湖州男孩用AR让游泳眼镜进入next level

Z动态｜浙大校友企业『创视半导体』完成A轮数亿元融资

Z动态｜Cyan青心意创震撼发布“全面拟人”机器人Orca Ⅰ，机器人开始懂情感、有温度

Z动态｜小马智行开启美股IPO！累计营收12亿，自动驾驶已绕地球1000圈

Z观点｜前Postmates AI总监和阿里小蛮驴负责人，致力于通过AI技术打造数字员工新时代

Z科技｜浙江大学AFM：多组织自适应止血海绵

Z科技｜入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

Z动态｜一家融了15轮的成都公司，要被浙大系半导体并购了

Z科技｜有望用于清洁能源气体储存，浙大团队提出高孔性金属有机框架合成新策略

Z科技｜入选NeurIPS 24，浙大团队提出全新去噪蛋白质语言模型DePLM，突变效应预测优于SOTA模型

Z观点｜深度对话：白惠源“EPOCH”理论预言AI Agent的未来五部曲

Z科技｜让普通人也能当“作曲家”，浙大研究人员探索音乐艺术创作和心理治疗新方法

Z动态｜『地卫二』太空计算赋能星上能源：千帆星座18颗星入轨

Z动态｜浙大系杀出“智慧农业”概念第一股，开盘大涨800%！

求是TALK｜科创企业家创业心法

Z动态｜浙大系人工智能风险治理专家『君同未来』完成数千万元天使轮融资

求是直聘 | 需要大模型、CTO、HRD、品牌公关、研发等人才的企业看过来

Z动态｜浙大联合阿里推出人脸隐私保护新方案！

Z动态｜高瓴独家投了一个种子轮项目，是浙大校友企业

Z科技｜对话非夕科技：让机器人像人手一样灵敏，浙大校友企业另辟蹊径造出通用机器人独角兽

Z人物｜浙大校友从文艺青年到爆品专家的进化之路

Z人物｜重磅！国药控股董事长、总裁人选最终敲定！出自浙大系，原华润三九总裁

Z科技｜浙大校友参与设计新型蛋白质，实现蛋白靶向降解，已创立AI制药公司获10亿元美元投资

Z人物｜这位接任飞利浦大中华区总裁的女帅，是浙大学姐

Z动态｜七牛云通过港交所聆讯，阿里、经纬、启明等明星资本加持，中国第三大音视频PaaS服务商

Z科技｜浙大蒋超组合作《自然·通讯》：揭示ICU患者下呼吸道微生物基因组功能动态及其在感染防控中的潜在应用

Z科技｜浙江大学最新综述，揭秘大语言模型中知识的利用机制

Z科技｜浙大郑强教授/杜淼教授在JES期刊上发表：利用锆掺杂NiCoZr层状氢氧化物开发高性能的超级电容器电极材料

Z科技｜浙江大学新晋「国家杰青」，专注生物医用高分子材料与药物递送！

Z科技｜浙大团队开发低贵金属载量的双功能催化剂，运行100小时性能无明显下降，可降低质子交换膜电解水制氢成本

Z人物 | 保研浙大，哈佛毕业，ex-Googler创业智能眼镜，超越Ray-Ban Meta登顶亚马逊品类畅销榜

Z科技 | 浙大毛峥伟课题组：基于超分子相互作用的纳米武装益生菌用于疾病治疗

Z科技｜浙大吴丹教授团队《自然·通讯》：人类认知能力基本维度的神经生物学基础

Z科技 | 浙大研究团队设计新款软体机器人：最高弹跳超过自身身高100倍，响应仅数十毫秒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉