基于MolCA的分子图与语言建模:跨模态投影器与单模态适配器
大家好,今天为大家介绍一篇关于分子图与语言建模的最新研究论文——MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter。这篇论文提出了一种结合分子图和语言模型的新方法,致力于解决现有分子语言建模方法中忽视分子拓扑结构的问题。MolCA通过跨模态投影器(Cross-Modal Projector)和单模态适配器(Uni-Modal Adapter)的引入,为分子到文本生成和分子文本检索任务带来了性能上的突破。
1. 基本信息
标题: MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
作者: Zhiyuan Liu, Sihang Li, Yanchen Luo, Hao Fei, Yixin Cao, Kenji Kawaguchi, Xiang Wang, Tat-Seng Chua
研究机构:
National University of Singapore University of Science and Technology of China Singapore Management University 链接:
@inproceedings{liu2023molca,
title={MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter},
author={Liu, Zhiyuan and Li, Sihang and Luo, Yanchen and Fei, Hao and Cao, Yixin and Kawaguchi, Kenji and Wang, Xiang and Chua, Tat-Seng},
booktitle={EMNLP},
year={2023},
url={https://openreview.net/forum?id=14WRhMNq7H}} ```DOI/ArXiv: arXiv:2310.12798 代码仓库: https://github.com/acharkq/MolCA
2. 研究背景
分子语言建模近年来成为化学和生物学领域的重要研究方向,其核心目标是让语言模型(Language Models, LMs)对分子进行表示和理解。然而,现有方法主要将分子表示为一维的SMILES字符串,这种线性表示方法忽略了分子的二维拓扑结构信息,而这些信息是分子化学属性的重要组成部分。
目前基于对比学习的分子-文本联合建模方法在检索任务中表现较好,但在更复杂的开放式生成任务(如分子描述生成、IUPAC名称预测)中表现有限。这些方法通常无法充分利用分子图信息,与文本生成的结合也较为粗糙。
研究动机: 本研究旨在构建一个能够同时理解分子图与文本信息的模型,从而在分子到文本生成和检索任务上取得更好的效果。
3. 方法
MolCA的核心架构由三个主要部分组成:图编码器、跨模态投影器和单模态适配器。这些组件通过创新的三阶段训练策略实现有效整合。
3.1 图编码器
MolCA采用基于图神经网络(Graph Neural Network, GNN)的图编码器来处理分子结构。具体地,使用五层GINE模型,该模型通过对比学习在大规模数据集(ZINC15)上进行了预训练。
其中,表示分子图的节点数,为特征维度。
3.2 跨模态投影器
MolCA的跨模态投影器基于Query-Transformer(Q-Former)架构,作用是将分子图的表示映射到语言模型的文本空间。投影器通过查询令牌与分子图和文本间的交叉注意力模块实现信息对齐。
模块特点:
查询令牌可以从图编码器输出中提取关键信息。 Q-Former与语言模型通过交叉注意力模块实现语义对齐。
3.3 单模态适配器
为了实现高效的微调,MolCA引入LoRA(Low-Rank Adaptation)适配器,只调整语言模型中的部分参数。公式为:
其中,为冻结的预训练权重,和为可训练的低秩矩阵,极大减少了微调时的内存和计算成本。
3.4 三阶段训练
MolCA通过三阶段训练实现模型的整合:
预训练阶段1: 通过对比学习优化跨模态投影器以提取与文本相关的分子特征。 预训练阶段2: 将投影器输出与冻结语言模型对齐,实现条件文本生成任务。 微调阶段: 使用单模态适配器对下游生成任务进行高效的微调。
4. 实验与发现
论文通过一系列严格的实验验证了MolCA的有效性。
4.1 实验设置
使用PubChem324k和CheBI-20数据集评估MolCA的性能。任务包括:
分子描述生成 IUPAC名称预测 分子文本检索
评价指标包括BLEU、ROUGE和METEOR等。
4.2 主要结果
分子描述生成: MolCA在PubChem324k数据集上实现了8.7 BLEU-2的提升,相比基线如MolT5和MoMu有显著优势。 在CheBI-20数据集上,MolCA在BLEU-4和ROUGE指标上也全面超越现有方法。
IUPAC名称预测: MolCA比基线模型提高了10.0 BLEU-2,展现了更强的分子结构理解能力。
分子文本检索: 在PubChem324k数据集上,MolCA的检索准确率提升了超过20%,展现了出色的跨模态检索能力。
6. 参考文献
Liu et al., 2023. MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter. 更多引用详见原论文。