上海交通大学&苏州实验室联合团队 | ChemDFM-X:跨模态化学材料大模型
文摘
科技
2024-12-13 12:00
北京
研究团队
赵梓涵,黎井漂,陈露,朱梓臣,张丹阳,李妍思,俞凯:上海交通大学跨媒体语言智能实验室
陈博,温李阳,王鹏宇,万紫平,戴中洋,陈忻:苏州实验室
文章下载
Zihan Zhao, Bo Chen, Jingpiao Li, Lu Chen, Liyang Wen, Pengyu Wang, Zichen Zhu, Danyang Zhang, Yansi Li, Zhongyang Dai, Xin Chen & Kai Yu. ChemDFM-X: Towards Large Multimodal Model for Chemistry. Sci China Inf Sci, 2024, 67(12): 220109, doi: 10.1007/s11432-024-4243-0
构建跨模态化学材料大模型对于推动材料、化学及相关领域科研具有重要意义。材料科学本质上是一个多模态学科,其研究对象多样,数据形式也多样,包括文本描述、分子结构、图像及光谱等多种类型。当前大多数AI模型主要聚焦于单一任务,输入数据通常限于单一模态,限制了此类模型在实际应用中的灵活性与泛化性。整合多种模态的大模型能够提供综合的信息处理平台,有助于更全面地理解复杂的材料与化学体系。这类多模态大模型不仅能处理来自不同来源的数据,还能有效利用不同模态间的关系信息,从而加深对物质现象的理解。例如,结合分子结构信息与实验数据(如光谱)可更有效的设计实验、构建材料构效关系,甚至揭示传统方法可能忽略的新规律。本文介绍了ChemDFM-X,一个跨模态材料化学大模型。该模型基于通用化学大语言模型ChemDFM(https://huggingface.co/OpenDFM/ChemDFM-v1.5-8B)构建,支持多种材料化学相关任务类型。ChemDFM-X能够理解不同类型的化学数据,包括文本、SMILES以及五种非文本形式的数据:二维分子结构、三维分子构象、分子或反应图片、质谱图和红外光谱图。
图1 ChemDFM-X 任务定义
ChemDFM-X采用了独立编码器与统一解码器相结合的设计思路。首先对不同模态的编码器进行预训练,之后将其接入大模型中,并通过监督学习更新编码器及投影层的参数。在推理过程中,文本信息与其他模态的信息按照自然语言顺序混合输入到大模型中,由共享的大语言模型解码器负责信息整合与分析。(1) 构建具备跨模态处理能力的大模型,可以同时处理多种材料化学数据类型,在面对复杂物质科学现象时提供更加全面的理解和支持。(2) 有效利用化学文本数据集中的SMILES来高效生成各类多模态数据。(3) “独立编码器+统一解码器”的架构设计,使得同一组参数能够解释多种不同的物质科学数据模态。(4) 首次实现了多模态材料化学通用智能系统:ChemDFM-X是一个能够广泛应用于各种任务的跨模态材料化学通用大模型。模型评估基于广泛使用的评估化学领域大语言模型的基准ChemLLMBench。考虑到不同模态之间存在固有的差异,适合每种模态的任务类型也会有所不同。因此,根据各模态的特点,设计了针对特定模态的任务,并与合适的专家模型和通用模型进行比较。在结构模态方面评测了模态识别、分子标注、反应预测及逆合成四项任务。结果显示,ChemDFM-X能够理解并推断分子图和分子构象,在所有测试中表现均达到或超过了开源通用模型的最佳水平。尤其是当同时提供SMILES表示和3D分子构象时,ChemDFM-X的表现尤为优异。对于图像模态,团队测试了分子图像识别、反应图像识别及分子标注三项任务。ChemDFM-X在所有涉及分子图像的任务上都展现了对比单一模态模型相当或更优的性能,证明其具有强大的化学图像理解能力。特别在需要识别图片中的多个分子的反应识别任务中,准确率略高于单独的分子图像识别,表明大语言模型可能依据上下文对任务中的小错误进行了修正,进一步突显了跨模态研究的重要性。在谱学模态方面,团队考察了模型根据部分已知化学反应来推断质谱和红外光谱对应分子的能力。在基础的谱图识别任务中,ChemDFM-X的Top-1准确率几乎为零,但在加入额外的反应信息后,预测准确性显著提升。具体来说,在给定生成物谱图的反应预测任务中,准确率达到64%,而在给定反应物谱图的逆合成任务中则达到60%。预测准确性远超无谱图信息的情况。从化学专业角度看,谱图可以为SMILES格式提供的信息补充关于反应物结构和组成的线索。通过这种跨模态协作方式, ChemDFM-X展现出远超单一模态限制的强大性能。总而言之,ChemDFM-X通过有效整合多种模态的信息,大幅提高了大模型的泛化能力与整体性能。图5 ChemDFM-X 谱学模态应用示例