ProTrek
编辑|馅饼
论文速览
摘要
ProTrek模型介绍:ProTrek是一个三模态蛋白质语言模型,它结合了蛋白质序列、结构和功能(SSF),通过对比学习来弥合蛋白质数据与人类理解之间的差距。
主要贡献:ProTrek在多个方面实现了性能的显著提升,包括蛋白质序列与功能转换、比对工具的速度与准确性,以及在多个下游预测任务中的表现。
模型
三模态学习:ProTrek通过对比学习融合了三种模态(序列、结构、功能),使用三种核心对齐策略进行训练。
对比学习策略:模型采用了双向监督(序列与结构、功能与结构、功能与序列)来加强不同模态间的关联。
数据集:来自Swiss-Prot的精确蛋白质-文本对和从UniRef50筛选的蛋白质-文本对。
模型架构:预训练的ESM编码器和BERT编码器,以及将蛋白质结构转换为离散标记序列。
结果
性能提升:
序列-功能互转:ProTrek显著提高了蛋白质序列与功能之间的转换效率。
比对工具的超越:在速度和准确性方面,ProTrek超越了现有的比对工具,如Foldseek和MMseqs2。
下游任务表现:在11个下游任务中的9个上,ProTrek超越了ESM-2模型,展示了其在蛋白质LLM的新基准。
搜索与分析:
检索能力:作为零样本检索模型,ProTrek能够通过所有九种不同的搜索任务探索复杂的SSF关系。
全局表示学习:ProTrek通过全局表示学习克服了当前序列比较工具的局限性,能够识别具有相似功能的蛋白质,即使它们的结构和序列不同。
超快的搜索速度:ProTrek使用最大内积搜索(MIPS)算法,实现了在大规模数据库中的快速搜索能力。
前言
序列、结构和功能(SSF):蛋白质的复杂性体现在其序列、结构和功能三个层面,这些层面相互关联,共同决定了蛋白质的行为和作用。
现有工具的局限性:传统的蛋白质分析工具,如BLAST、MUSCLE、MMseqs2、TM-align和Foldseek等,虽然在局部序列或结构比对方面取得了显著进展,但它们通常只关注单一模态,缺乏同时处理多种模态的能力。
大量未知蛋白质:在UniProt数据库中,约有30%的蛋白质尚未注释,这限制了对这些蛋白质功能和特性的理解。
序列同源性问题:这些未注释蛋白质的序列与已知功能同源物的系统发育距离较远,使得传统的基于序列同源性的方法难以应用。
大型语言模型的影响:随着大型语言模型在自然语言处理任务中取得突破,如ChatGPT和LlaMA,计算生物学领域也开始探索蛋白质语言模型(PLM)。
基础蛋白质模型的构想:文章提出了建立一个基础蛋白质模型的想法,该模型能够通过复杂的语言建模技术全面表示蛋白质的SSF(Sequence, Structure, and Function)。
ProTrek在包括1400万个精确蛋白质-功能注释对和2500万个从UniRef50筛选的蛋白质-功能注释对的大型数据集上进行训练。
本文提出一个融合多模态的PLM(ProTrek),其利用对比学习通过三种核心对齐训练策略(序列与结构、功能与结构、功能与序列之间的相互监督)来加强不同模态之间的联系。通过将蛋白质的序列、结构和功能(SSF)模式融合到一个统一的框架中,
该模型提供了以下三种关键能力:
零样本检索(Zero-shot Retrieval):ProTrek作为一个零样本检索模型,能够精确探索蛋白质序列、结构和功能之间的复杂关系。它支持所有九种不同的搜索任务,包括序列到结构、序列到功能、序列到序列、结构到结构、结构到序列、结构到功能、功能到功能、功能到序列和功能到结构检索。这种能力使得研究人员能够通过自然语言描述来搜索和理解蛋白质属性。
全局表示学习(Global Representation Learning):ProTrek利用其全局表示学习的能力,克服了当前序列比较工具的局限性。它能够识别具有相似功能的蛋白质,即使这些蛋白质在结构和序列上存在差异。这种全局视角有助于发现自然界中功能趋同但结构不同的蛋白质。
跨模态对比学习(Cross-modal Contrastive Learning):通过SSF跨模态对比学习,ProTrek将结构和功能信息注入到氨基酸序列中,从而催化有效的迁移学习,并使得模型能够在多种下游任务中进行微调。这种能力扩展了ProTrek在蛋白质科学研究中的适用性。
正文
预训练的ESM编码器:用于处理氨基酸(AA)序列。ESM编码器是一种专门用于生物序列建模的工具,它能够捕捉序列中的进化信息和复杂的模式。
预训练的BERT编码器:用于处理和理解自然语言描述的蛋白质功能。BERT(编码器能够提供对文本数据深入的理解,使得模型能够从自然语言描述中提取蛋白质的功能信息。
蛋白质结构编码器:利用Foldseek将蛋白质的三维结构转换为离散的标记序列,用于语言模型的进一步特征转换。
论文对swiss-Prot数据库首先做了50%的序列相似性聚类,分别使用1000个cluster作为训练和验证集,剩余的作为训练集。对于数据集中的每个蛋白数据,根据数据库的功能描述构造蛋白-功能对。
ProTrek使用上述数据进行预训练后,采用蒸馏的策略,对UniRef50数据库进行预测和过滤,并保留了模型评分高于Swiss-Prot平均评分的所有蛋白质-功能对。
InfoNCE:经典的对比学习的loss,由序列-结构-功能三个向量嵌入,两两排列构成的六个部分。
MLM:对序列和结构两个维度进行建模,这种设计旨在提高模型对氨基酸序列和三维结构(3Di)标记层面上的认识和理解能力。
这些设计使得ProTrek能够理解蛋白各个层面上的理解/对齐能力,支持通用任务/模态的检索。
实验部分
实验设计了四种功能检索/召回任务:序列到文本(sequence-to-text)、结构到文本(structure-to-text)、文本到序列(text-to-sequence)、文本到结构(text-to-structure)。
如上图所示,与两个最先进的方法ProteinDT和ProtST相比较,ProTrek在大多数功能类别上展现出卓越的性能,无论使用氨基酸序列编码器还是3Di结构编码器。在全局检索任务中,ProTrek的性能比ProteinDT和ProtST提高了30倍以上和60倍以上。
实验综合评估ProTrek在搜索功能相似蛋白质方面的能力,与多个已建立的基于比对的工具进行比较,包括MMseqs2、DIAMOND、BLASTP和Foldseek。如下图c所示,在总/平均命中方面,ProTrek优于所有这些经典序列比对工具。
实验进行了序列与结构之间的两种跨模态搜索(序列到结构和结构到序列),以及序列内和结构内的两种单模态搜索(序列到序列和结构到结构)。
如上图b所示,ProTrek在正确命中的总数和平均数方面超越了传统的序列比对工具。其中,ProTrek采用通过跨模态对比学习的全局比对方法,识别具有较低TM分数的功能相似蛋白质时的优势更加明显。然而传统工具一般是基于局部序列或结构的相似性,搜索结构越不相似找召回率越低。
ProTrek不仅在搜索能力上表现出色,其氨基酸和3Di序列编码器还作为通用表示模型,得益于对比学习和掩码语言建模这两种无监督损失函数。这些编码器在超过10个下游蛋白质任务中经过了严格的评估,包括蛋白质层面和氨基酸层面的分析,以及回归和分类任务。通过下游监督微调,ProTrek展现了卓越的性能,在11个任务中的9个超越了已有的ESM-2模型和最先进的ProtST模型。特别地,在几项任务中,ProTrek的性能提升显著,比ESM-2或ProtST高出5%到7%。这些结果凸显了ProTrek强大的迁移学习能力,以及它作为一个功能强大的表示模型在广泛的蛋白质相关应用中的潜力。
代码文献
ProTrek: Navigating the Protein Universe through Tri-Modal Contrastive Learning;Jin Su, Xibin Zhou, Xuting Zhang, Fajie Yuan, BioRxiv, https://www.biorxiv.org/content/10.1101/2024.05.30.596740v2
https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/ColabProTrek.ipynb
往期文章
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运