Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性
基本信息
题目: A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language Title: A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language 论文链接: https://arxiv.org/abs/2209.05481
论文内容
研究背景
本研究的背景在于人工智能(AI)在理解分子方面的进展,尤其是在多个领域中对分子的认知能力。尽管AI取得了显著进展,现有的模型通常只能从单一的分子模态中获得单一的认知能力。由于分子知识的层次结构深奥,即使是人类也是通过包括直观图表和专业文本在内的不同模态来学习,以协助理解。因此,本研究提出了一个分子多模态基础模型,该模型通过对比学习从分子图和语义相关的文本数据中预训练,直接将分子图和自然语言桥接起来。
研究方法
本研究提出的分子多模态基础模型(MoMu)包含两个独立的编码器,分别用于分子图和文本。模型通过对比学习联合训练,使得分子图的表示与相关文本的表示尽可能相似,与不相关文本的表示尽可能不同。这样,MoMu模型能够将分子图与生物医学文本描述关联起来。
具体方法如下:
模型架构:MoMu模型包含两个独立的编码器,分别用于处理分子图和文本数据。这两个编码器通过对比学习联合训练,使得分子图的表示与相关文本的表示尽可能相似,与不相关文本的表示尽可能不同。
数据收集:研究者收集了约15K对分子图-文本数据,其中分子的文本从SCI论文数据集中检索得到。这些数据用于训练模型,使得模型能够将分子图与其生物医学文本描述关联起来。
对比学习:MoMu模型通过对比学习进行训练,使得分子图的表示与其相关文本的表示尽可能相似,而与不相关文本的表示尽可能不同。这种训练方式使得模型能够在特征空间中将具有相同语义信息的不同模态样本拉近,同时将不同语义的样本推远。
图和文本编码器:MoMu使用Graph Isomorphism Network (GIN)作为图编码器,使用BERT作为文本编码器。这两个编码器将分子图和文本编码到一个联合的表示空间中。
图增强和文本采样:在每个小批量中,研究者使用两种不同的图增强技术从分子图中创建两个独立的图,并从文档中随机抽取两个不同的句子。这种对比学习范式使得模型能够在特征空间中对具有相同语义信息的不同模态样本进行拉近,同时将不同语义的样本推远。
跨模态检索:MoMu模型能够处理分子的图和文本模态,评估其在跨模态检索中的性能。给定一个分子图,图到文本(G-T)检索的目标是检索这个分子最相关的文本描述。相反,给定一个文本段落,文本到图(T-G)检索的目标是检索它描述的最相关的分子图。
此外,为了应对专业学习分子知识的挑战,研究者使用从大规模单模态未标记数据中预训练的分子图模型和生物医学文本模型作为两个编码器的初始化,并通过对比学习与收集的专业图-文本数据进行微调。
主要发现
研究的主要发现是,预训练的MoMu模型在多种下游任务中展现出强大的泛化能力,包括跨模态分子检索、分子描述、零样本分子生成和分子属性预测。实验结果表明,模型不仅在跨模态任务中表现出色,还在分子属性预测方面超越了其他自监督方法,并且能够从自然语言描述中生成有意义的分子图。这些发现表明,由于MoMu模型强大的泛化和想象能力,它可以推进科学探索,并在生物学、化学、材料、医学等分子相关领域产生广泛影响。
MoMu模型的性能评估主要通过以下几个指标进行:
机器翻译评估指标:对于分子到文本的生成任务,MoMu模型使用了自然语言处理(NLP)中常用的机器翻译评估指标,包括:
BLEU(Bilingual Evaluation Understudy):评估机器翻译质量的指标,通过计算机器翻译文本与一组参考翻译之间的重叠程度。 ROUGE(Recall-Oriented Understudy for Gisting Evaluation):评估自动摘要和机器翻译的质量,通过计算机器翻译与参考翻译之间的重叠程度。 METEOR(Metric for Evaluation of Translation with Explicit Ordering):评估机器翻译质量的指标,考虑了同义词和句子结构。
Text2Mol:这是一种基于深度学习的指标,用于衡量文本-分子对的相似度。
文本到分子生成任务的评估指标:对于文本到分子的生成任务,MoMu模型使用了以下评估指标:
Exact:模型生成的SMILES(简化分子输入线性表达式)与标准答案SMILES完全匹配的比例。 分子指纹相似性:包括MACCS、RDK和Morgan三种分子指纹的谷本系数,用于评估生成分子与目标分子之间的相似性。 FCD评分:通过一个预训练模型测量分子距离的评分,用于评估生成分子与目标分子之间的相似性。 有效分子SMILES生成比例:生成有效的分子SMILES所占的百分比。
这些指标综合评估了MoMu模型在分子到文本和文本到分子生成任务中的性能,包括生成的准确性、相似性和有效性。通过这些指标,研究者能够全面评估模型的性能,并与其他模型(如MolT5)进行比较。
MoMu模型的作者信息:
主要作者:
Bing Su Dazhao Du Zhao Yang Yujie Zhou Jiangmeng Li Anyi Rao Hao Sun Zhiwu Lu Ji-Rong Wen 作者机构:
Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872, China Beijing Key Laboratory of Big Data Management and Analysis Methods Science & Technology on Integrated Information System Laboratory, Institute of Software, Chinese Academy of Sciences, Beijing, China University of Chinese Academy of Sciences, Beijing, China The Chinese University of Hong Kong, Hong Kong, China 通讯作者:
Ji-Rong Wen (jrwen@ruc.edu.cn)