Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM
基本信息
题目:Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing 作者:Shengchao Liu, Weili Nie, Chengpeng Wang, Jiarui Lu, Zhuoran Qiao, Ling Liu, Jian Tang, Chaowei Xiao, Anima Anandkumar 机构:Mila-Québec Artificial Intelligence Institute, Montréal, QC H3H, Canada, Université de Montréal, Montréal, QC H3T, Canada, Nvidia Research, Santa Clara, CA, United States, University of Illinois Urbana-Champaign, Champaign, IL, United States 题目:Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing 论文链接:https://arxiv.org/abs/2212.10789
论文内容
研究背景
人工智能在药物发现领域的应用日益增多,但现有研究主要利用分子的化学结构,忽略了化学领域中大量的文本知识。结合文本知识能够实现新的药物设计目标,适应基于文本的指令,并预测复杂的生物活性。本文提出了一种多模态分子结构-文本模型MoleculeSTM,构建了PubChemSTM的数据集,包含超过280K的化学结构-文本对,通过对比学习策略联合学习分子的化学结构和文本描述,以实现这些目标。
研究方法
MoleculeSTM的核心思想是将分子的内部化学结构和外部功能描述两大类信息联系起来,利用多模态学习的思路。
在MoleculeSTM中,分子结构与文本描述的对齐是通过对比学习策略实现的。具体来说,该模型包含两个分支:化学结构分支和文本描述分支。这两个分支分别处理分子的内部结构和外部领域知识。通过对比学习,模型能够将两个分支的表示映射到一个联合空间中,从而实现对齐。
化学结构分支:这一分支使用两种类型的编码器来处理分子结构。一种是将分子视为序列的SMILES字符串的Transformer编码器,另一种是基于2D分子图的图神经网络(GNN)编码器。这些编码器能够从分子结构中提取潜在的向量表示。
文本描述分支:这一分支提供了分子功能的高级描述,并使用BERT模型作为文本编码器。为了加强分子的表示,作者进一步调整了预训练的SciBERT,它是在化学和生物领域的文本数据上进行预训练的。
对比预训练:MoleculeSTM通过对比学习策略,如EBM-NCE和InfoNCE,来对齐结构-文本对。这种策略通过减少同一分子的结构和文本对之间的表示距离,同时增加不同分子对之间的表示距离,使得模型能够更好地区分不同分子之间的差异。
联合表示空间:MoleculeSTM通过两个投影器将两个分支的表示映射到一个联合空间中。这个联合空间允许模型在零样本的情况下泛化到新的药物设计目标和预测新的复杂生物活性。
通过这种方式,MoleculeSTM能够将分子的化学结构和文本描述对齐,并在联合表示空间中进行有效的信息融合,从而实现基于文本的检索和编辑任务。
主要发现
MoleculeSTM具有开放词汇和自然语言合成性两个主要特性,在各种基准测试中获得了最先进的新生物化学概念泛化能力。
实验表明,MoleculeSTM能够适应基于文本的指令,实现新的药物设计目标,并预测复杂的生物活性。该模型在结构-文本检索和分子编辑两个具有挑战性的零样本任务中表现出色,展现了其强大的泛化能力和实用性。
在前面的专题介绍中,我们介绍了MoMu(Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性(2022)), 下面从以下几个方面评价MoleculeSTM和MoMu这两种方法:
MoleculeSTM:
大规模多模态数据集:MoleculeSTM构建了迄今当时最大的多模态数据集PubChemSTM,包含超过280K的化学结构-文本对。这种大规模数据集的构建为模型训练提供了丰富的资源,有助于提高模型的泛化能力和准确性。 开放词汇和自然语言合成性:MoleculeSTM具有开放词汇和自然语言合成性两个主要特性,使其能够处理多样的药物描述,包括极端情况下的描述,如“开发一个药物能够治疗明年的突发的xxx疾病”。 零样本任务设计:MoleculeSTM设计了两个具有挑战性的零样本任务,包括结构文本检索和分子编辑,这验证了模型在理解和桥接分子两种模式方面的能力。 新生化概念泛化能力:在实验中,MoleculeSTM获得了跨越各种基准的新生化概念的最新泛化能力。
MoMu:
多模态预训练目标:MoMu通过结构-文本对比(STC)、跨模态匹配(CMM)、掩码语言模型(MLM)和知识图谱嵌入(KGE)作为预训练目标,这种多目标预训练策略有助于模型在不同任务上的表现。 零样本文本到分子图生成:MoMu提出了零样本文本到分子图生成任务,即根据自然语言描述生成新的分子图,这是分子设计和药物发现领域的一个重要进步。 理论证明:MoMu提供了理论证明,其多模态预训练可以解释为在特征空间中最小化同一分子的不同模态之间以及具有相似结构或功能的分子之间的距离。
最后:
数据集和任务设计:MoleculeSTM在数据集规模和任务设计上的创新为分子结构-文本模型的发展提供了新的方向,特别是在零样本学习和新概念泛化方面。MoMu则在预训练目标和理论证明方面展现了其创新性,特别是在跨模态匹配和零样本生成任务上。 模型特性:MoleculeSTM强调了模型的开放词汇和自然语言合成性,这对于处理复杂的化学文本描述至关重要。MoMu则通过多模态预训练目标和理论证明,增强了模型在跨模态任务上的表现和可解释性。 实际应用:两种方法都展示了在药物发现和分子编辑等实际应用中的潜力,但具体的应用效果和影响还需要进一步的实验和实践来验证。
总的来说,这两种方法在多模态分子结构-文本模型领域都展现了显著的创新,为未来的研究和应用提供了新的思路和工具。
Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性(2022)