ProTrek | 融合多模态信息的蛋白质工具

文摘 2024-09-17 20:33 广东

ProTrek

蛋白质是一切生命的基础单元，理解蛋白质的结构、功能和功能是现代生物化学、分子生物学和药物创新的核心挑战。这三个层面相互关联，共同决定了蛋白质的行为和作用。这篇文章介绍了一个名为ProTrek的新型三模态蛋白质语言模型，它通过对比学习融合了蛋白质序列、结构和自然语言功能（SSF），旨在提高对蛋白质数据的搜索、理解和分析能力。

编辑｜馅饼

论文速览

摘要

ProTrek模型介绍：ProTrek是一个三模态蛋白质语言模型，它结合了蛋白质序列、结构和功能（SSF），通过对比学习来弥合蛋白质数据与人类理解之间的差距。
主要贡献：ProTrek在多个方面实现了性能的显著提升，包括蛋白质序列与功能转换、比对工具的速度与准确性，以及在多个下游预测任务中的表现。

模型

三模态学习：ProTrek通过对比学习融合了三种模态（序列、结构、功能），使用三种核心对齐策略进行训练。
对比学习策略：模型采用了双向监督（序列与结构、功能与结构、功能与序列）来加强不同模态间的关联。
数据集：来自Swiss-Prot的精确蛋白质-文本对和从UniRef50筛选的蛋白质-文本对。
模型架构：预训练的ESM编码器和BERT编码器，以及将蛋白质结构转换为离散标记序列。

结果

性能提升：

序列-功能互转：ProTrek显著提高了蛋白质序列与功能之间的转换效率。
比对工具的超越：在速度和准确性方面，ProTrek超越了现有的比对工具，如Foldseek和MMseqs2。
下游任务表现：在11个下游任务中的9个上，ProTrek超越了ESM-2模型，展示了其在蛋白质LLM的新基准。

搜索与分析：

检索能力：作为零样本检索模型，ProTrek能够通过所有九种不同的搜索任务探索复杂的SSF关系。
全局表示学习：ProTrek通过全局表示学习克服了当前序列比较工具的局限性，能够识别具有相似功能的蛋白质，即使它们的结构和序列不同。
超快的搜索速度：ProTrek使用最大内积搜索（MIPS）算法，实现了在大规模数据库中的快速搜索能力。

前言

01 蛋白质分析的复杂性

序列、结构和功能（SSF）：蛋白质的复杂性体现在其序列、结构和功能三个层面，这些层面相互关联，共同决定了蛋白质的行为和作用。
现有工具的局限性：传统的蛋白质分析工具，如BLAST、MUSCLE、MMseqs2、TM-align和Foldseek等，虽然在局部序列或结构比对方面取得了显著进展，但它们通常只关注单一模态，缺乏同时处理多种模态的能力。

02 存在大量未标记蛋白数据

大量未知蛋白质：在UniProt数据库中，约有30%的蛋白质尚未注释，这限制了对这些蛋白质功能和特性的理解。
序列同源性问题：这些未注释蛋白质的序列与已知功能同源物的系统发育距离较远，使得传统的基于序列同源性的方法难以应用。

03 蛋白质语言模型的新兴领域

大型语言模型的影响：随着大型语言模型在自然语言处理任务中取得突破，如ChatGPT和LlaMA，计算生物学领域也开始探索蛋白质语言模型（PLM）。
基础蛋白质模型的构想：文章提出了建立一个基础蛋白质模型的想法，该模型能够通过复杂的语言建模技术全面表示蛋白质的SSF（Sequence, Structure, and Function）。

04 本文亮点

ProTrek在包括1400万个精确蛋白质-功能注释对和2500万个从UniRef50筛选的蛋白质-功能注释对的大型数据集上进行训练。
本文提出一个融合多模态的PLM（ProTrek），其利用对比学习通过三种核心对齐训练策略（序列与结构、功能与结构、功能与序列之间的相互监督）来加强不同模态之间的联系。通过将蛋白质的序列、结构和功能（SSF）模式融合到一个统一的框架中，
该模型提供了以下三种关键能力：

零样本检索（Zero-shot Retrieval）：ProTrek作为一个零样本检索模型，能够精确探索蛋白质序列、结构和功能之间的复杂关系。它支持所有九种不同的搜索任务，包括序列到结构、序列到功能、序列到序列、结构到结构、结构到序列、结构到功能、功能到功能、功能到序列和功能到结构检索。这种能力使得研究人员能够通过自然语言描述来搜索和理解蛋白质属性。
全局表示学习（Global Representation Learning）：ProTrek利用其全局表示学习的能力，克服了当前序列比较工具的局限性。它能够识别具有相似功能的蛋白质，即使这些蛋白质在结构和序列上存在差异。这种全局视角有助于发现自然界中功能趋同但结构不同的蛋白质。
跨模态对比学习（Cross-modal Contrastive Learning）：通过SSF跨模态对比学习，ProTrek将结构和功能信息注入到氨基酸序列中，从而催化有效的迁移学习，并使得模型能够在多种下游任务中进行微调。这种能力扩展了ProTrek在蛋白质科学研究中的适用性。

正文

01 模型结构

ProTrek模型对于三个模态数据的输入均采用语言模型建模：

预训练的ESM编码器：用于处理氨基酸（AA）序列。ESM编码器是一种专门用于生物序列建模的工具，它能够捕捉序列中的进化信息和复杂的模式。
预训练的BERT编码器：用于处理和理解自然语言描述的蛋白质功能。BERT（编码器能够提供对文本数据深入的理解，使得模型能够从自然语言描述中提取蛋白质的功能信息。
蛋白质结构编码器：利用Foldseek将蛋白质的三维结构转换为离散的标记序列，用于语言模型的进一步特征转换。

02 预训练数据准备

论文对swiss-Prot数据库首先做了50%的序列相似性聚类，分别使用1000个cluster作为训练和验证集，剩余的作为训练集。对于数据集中的每个蛋白数据，根据数据库的功能描述构造蛋白-功能对。
ProTrek使用上述数据进行预训练后，采用蒸馏的策略，对UniRef50数据库进行预测和过滤，并保留了模型评分高于Swiss-Prot平均评分的所有蛋白质-功能对。

03 预训练损失函数

InfoNCE：经典的对比学习的loss，由序列-结构-功能三个向量嵌入，两两排列构成的六个部分。
MLM：对序列和结构两个维度进行建模，这种设计旨在提高模型对氨基酸序列和三维结构（3Di）标记层面上的认识和理解能力。
这些设计使得ProTrek能够理解蛋白各个层面上的理解/对齐能力，支持通用任务/模态的检索。

实验部分

01 搜索召回任务

实验设计了四种功能检索/召回任务：序列到文本（sequence-to-text）、结构到文本（structure-to-text）、文本到序列（text-to-sequence）、文本到结构（text-to-structure）。
如上图所示，与两个最先进的方法ProteinDT和ProtST相比较，ProTrek在大多数功能类别上展现出卓越的性能，无论使用氨基酸序列编码器还是3Di结构编码器。在全局检索任务中，ProTrek的性能比ProteinDT和ProtST提高了30倍以上和60倍以上。

02 蛋白功能相似性搜索

实验综合评估ProTrek在搜索功能相似蛋白质方面的能力，与多个已建立的基于比对的工具进行比较，包括MMseqs2、DIAMOND、BLASTP和Foldseek。如下图c所示，在总/平均命中方面，ProTrek优于所有这些经典序列比对工具。
实验进行了序列与结构之间的两种跨模态搜索（序列到结构和结构到序列），以及序列内和结构内的两种单模态搜索（序列到序列和结构到结构）。
如上图b所示，ProTrek在正确命中的总数和平均数方面超越了传统的序列比对工具。其中，ProTrek采用通过跨模态对比学习的全局比对方法，识别具有较低TM分数的功能相似蛋白质时的优势更加明显。然而传统工具一般是基于局部序列或结构的相似性，搜索结构越不相似找召回率越低。

03 通用的下游任务表征

ProTrek不仅在搜索能力上表现出色，其氨基酸和3Di序列编码器还作为通用表示模型，得益于对比学习和掩码语言建模这两种无监督损失函数。这些编码器在超过10个下游蛋白质任务中经过了严格的评估，包括蛋白质层面和氨基酸层面的分析，以及回归和分类任务。通过下游监督微调，ProTrek展现了卓越的性能，在11个任务中的9个超越了已有的ESM-2模型和最先进的ProtST模型。特别地，在几项任务中，ProTrek的性能提升显著，比ESM-2或ProtST高出5%到7%。这些结果凸显了ProTrek强大的迁移学习能力，以及它作为一个功能强大的表示模型在广泛的蛋白质相关应用中的潜力。

04 超快的运行速度

如下图所示，ProTrek的推理速度得益于其采用的最大内积搜索（MIPS）算法，使得它能够在几秒钟内对十亿规模的数据库执行快速搜索和排序操作，这一速度显著超过了现有的蛋白质结构搜索工具Foldseek和MMseqs2，提升了超过两个数量级，并且与TM-align和Dali等结构比对工具相比，速度提升了约400倍。

代码文献

ProTrek: Navigating the Protein Universe through Tri-Modal Contrastive Learning；Jin Su, Xibin Zhou, Xuting Zhang, Fajie Yuan, BioRxiv, https://www.biorxiv.org/content/10.1101/2024.05.30.596740v2
https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/ColabProTrek.ipynb

往期文章

蛋白设计｜综述｜AF3｜Benchmark｜David Baker｜ESM｜多肽设计｜抗体设计｜酶设计｜结构预测｜语言模型｜骨架生成｜逆向折叠｜稳定性｜药物设计

关注我们

死磕自己，愉悦大家

专注于AI蛋白相关的论文解读&学术速运

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

最新文章

Seminar｜多模态生成式蛋白质基础模型

蛋白质功能-序列空间压缩

David Baker｜变构蛋白设计

BioEmu｜生物分子仿真器

RFdiffusion进化史

Seminar｜AI辅助从头酶设计

David Baker｜RFpeptides设计环肽

文章合集

David Baker｜设计含β-strand的Binder

David Baker｜设计IDP的Binder

再看Binder设计

清华大学卢磊课题组招聘化学、生物、计算等方向的博士后与科研助理

Sci. Adv｜语言模型Pro-PRIME设计高稳定性高活性蛋白

直播预告｜去噪蛋白语言模型DePLM助力蛋白进化

读论文时如何辨别出“好东西”

Science｜语言模型 EVOLVEpro 帮助各种蛋白实现定向进化

Nat. Mach. Intell.｜蛋白设计工具预测突变热稳定性

Science｜基因语言模型Evo

GLM｜基因组语言模型的学习笔记

Seminar｜结构感知的蛋白语言模型 SaProt

AlphaFold3 最全食用指南

AlphaFold3 性能速度 & 机器配置

AlphaFold3 的输出的理解

AlphaFold 3 安装指南

AlphaFold 3 权重申请指南

AlphaFold3 的输入

AlphaFold3 开源啦！！！

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

Foldseek 有何妙用？

RSO｜超越RFdiffusion的蛋白设计方法？

DPLM｜扩散语言模型是多才多艺的蛋白学习者

RSO｜超越RFdiffusion的蛋白设计方法？

AF3｜复现进展

钟博子韬｜2024诺贝尔化学奖解读

BindCraft｜一站式设计高亲和力Binder

Pallatom｜线上报告

PROPREMAB｜预测抗体可开发性的机器学习框架

从零开始造抗体：诺奖技术引领的生物医药新革命！

2024年诺贝尔化学奖，刚刚颁发给了蛋白设计和结构预测

AI蛋白“相关”国内的公司

AI蛋白海内外课题组汇总

Binder设计大赛的结果启示

参数有效微调在蛋白质语言模型中的应用

图解AF3

简述酶的定向进化🦍

ProTrek | 融合多模态信息的蛋白质工具

ProteinBench｜蛋白基础模型最全面BenchMark

蛋白结构和序列的联合设计🤔

AlphaProteo｜从头设计高亲和力Binder蛋白

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉