Graph与LLM对齐专题 || ProtST:蛋白质序列和生物医学文本的多模态学习, ICML 2023

文摘   2024-11-07 09:26   北京  

Graph与LLM对齐专题 || ProtST:蛋白质序列和生物医学文本的多模态学习, ICML 2023

基本信息

  • 题目:ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts
  • 作者:Minghao Xu, Xinyu Yuan, Santiago Miret, Jian Tang
  • 英语题目:ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts
  • 论文链接:Proceedings of the 40th International Conference on Machine Learning, https://proceedings.mlr.press/v202/xu23t.html
  • 代码链接:GitHub Repository, https://github.com/DeepGraphLearning/ProtST

论文内容

研究背景

蛋白质语言模型(PLMs)主要基于蛋白质序列来学习蛋白质表示,能够很好地捕捉协同进化信息,但它们无法明确获取蛋白质功能,而获取蛋白质功能是蛋白质表示学习的最终目标。对于许多蛋白质而言,它们的文本属性描述是可用的,其中也描述了它们的各种功能。基于这一事实,作者构建了ProtDescribe数据集,以增加蛋白质序列的功能和其他重要属性的文本描述。基于这个数据集,作者提出了ProtST框架来增强蛋白质序列的预训练和生物医学文本的理解。

研究方法

作者提出了ProtST框架,

ProtST框架处理蛋白质序列和生物医学文本的方法主要包括以下几个步骤:

  1. 多模态预训练:ProtST框架首先对蛋白质序列和生物医学文本进行多模态预训练。给定ProtDescribe数据集,训练蛋白质语言模型(PLM)以及生物医学语言模型(BLM)和融合模块来对成对的蛋白质序列和文本描述进行建模。在这个过程中,作者设计了三种预训练任务:单模态掩码预测、多模态表示对齐和多模态掩码预测,以捕获具有不同粒度的蛋白质属性信息,并保留PLM的原始表示能力。

  2. 单模态掩码预测:为了保持PLM在捕捉协同进化信息方面的能力,作者采用了掩码蛋白建模(MPM)任务,即基于蛋白质序列上下文预测被掩码的残基。这个任务可以通过模型残基类型依赖性来捕获协同进化信息。

  3. 多模态表示对齐:通过对比学习的方式,将蛋白质序列表示与其对应的文本描述表示进行对齐,从而将蛋白质属性信息注入到序列表示中。给定一批蛋白质{Pi = (Si, Ti)},使用PLM提取蛋白质序列表示{zS i },使用BLM提取文本描述表示{zT i },然后通过InfoNCE损失函数来最大化序列和文本之间的表示相似性,同时最小化负样本对之间的相似性。

  4. 多模态掩码预测:为了捕捉蛋白质序列中的残基和文本描述中的单词之间的细粒度跨模态相互依赖性,提出了一个新的预训练任务,鼓励模型基于两种模态的信息恢复被损坏的蛋白质序列(或文本描述)

  5. 融合模块:融合模块从蛋白质序列和文本描述的单模态表示中提取多模态表示。每个融合层接收一系列残基表示和一系列单词表示,并通过对所有残基和所有单词的注意力机制更新每个残基/单词表示。

  6. 下游应用:预训练完成后,PLM可以单独用于下游任务的监督学习,也可以基于对齐的表示空间进行零样本预测,包括零样本蛋白质分类和基于文本描述的大规模数据库中的功能蛋白质检索。

通过这种方法,ProtST框架能够有效地结合蛋白质序列和生物医学文本的信息,以增强蛋白质序列的预训练和理解。

主要发现

作者验证了ProtST诱导的PLM在多样化表示学习基准上优于以前的PLM。在零样本设置下,作者展示了ProtST在零样本蛋白质分类上的有效性,并且ProtST还可以在没有任何功能注释的情况下从大型数据库中检索功能蛋白质。这表明ProtST预训练通常对不同的PLM有益,提高了它们在不同下游任务上的性能。

该专题已经介绍了两篇相关的论文MoMuMoleculeSTM,那么ProtST和之前的工作有什么不一样呢?下面来对比分析一下

  1. ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts

  • 关注点:专注于蛋白质序列和生物医学文本的多模态学习,通过结合蛋白质序列和文本描述来增强蛋白质表示学习。
  • 方法:提出了一个框架,设计了单模态掩码预测、多模态表示对齐和多模态掩码预测三种任务,以增强蛋白质性质信息的PLM,并保持PLM的原始表示能力。
  • 应用:支持监督学习和零样本预测,验证了在多样化表示学习基准上的优越性,并展示了在零样本蛋白质分类和大规模数据库中功能蛋白质检索的有效性
  • A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language

    • 关注点:提出了一个分子多模态基础模型,通过对比学习预训练分子图和它们语义相关的文本数据,直接桥接分子图和自然语言。
    • 方法:模型由两个独立的编码器组成,分别处理分子图和文本,通过对比学习联合训练,使分子图的表示与相关文本的表示尽可能相似,与不相关文本的表示尽可能不同。
    • 应用模型不仅在跨模态任务如跨模态检索和分子描述上表现良好,还能从自然语言描述中生成有意义的分子图,对AI赋能的跨学科领域如生物学、化学、材料、环境和医学等有广泛影响。
  • Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing

    • 关注点:提出了一个多模态分子结构-文本模型,用于基于文本的检索和编辑。
    • 方法:强调了预训练分子模型在分子建模和药物发现中的两个关键属性:开放词汇和组合性。模型不限于预定义的分子相关注释,而是可以支持新生化概念的探索,并能将复杂的分子属性问题转化为语言组合问题。
    • 应用:在零样本检索和标准属性预测基准上验证了模型的性能,并观察到模型可以检索新的药物-靶标关系,并成功修改分子亚结构以获得期望的属性,可能加速药物发现实践,如再利用和多目标前导优化

    总的来说,三篇论文都关注于分子和文本数据的多模态学习,但各有侧重点:ProtST专注于蛋白质序列和生物医学文本,A Molecular Multimodal Foundation Model侧重于分子图和自然语言的关联,而Multi-modal Molecule Structure-text Model则强调基于文本的检索和编辑能力。每篇论文都提出了不同的方法来处理和学习分子数据,并在不同的应用场景中展示了其有效性.

    深度图学习与大模型LLM
    关注图机器学习,图表示学习,大模型LLM. 最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
     最新文章