Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）

文摘 2024-11-05 09:31 北京

Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性

基本信息

题目: A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language
Title: A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language
论文链接: https://arxiv.org/abs/2209.05481

论文内容

研究背景

本研究的背景在于人工智能（AI）在理解分子方面的进展，尤其是在多个领域中对分子的认知能力。尽管AI取得了显著进展，现有的模型通常只能从单一的分子模态中获得单一的认知能力。由于分子知识的层次结构深奥，即使是人类也是通过包括直观图表和专业文本在内的不同模态来学习，以协助理解。因此，本研究提出了一个分子多模态基础模型，该模型通过对比学习从分子图和语义相关的文本数据中预训练，直接将分子图和自然语言桥接起来。

研究方法

本研究提出的分子多模态基础模型（MoMu）包含两个独立的编码器，分别用于分子图和文本。模型通过对比学习联合训练，使得分子图的表示与相关文本的表示尽可能相似，与不相关文本的表示尽可能不同。这样，MoMu模型能够将分子图与生物医学文本描述关联起来。

具体方法如下：

模型架构：MoMu模型包含两个独立的编码器，分别用于处理分子图和文本数据。这两个编码器通过对比学习联合训练，使得分子图的表示与相关文本的表示尽可能相似，与不相关文本的表示尽可能不同。
数据收集：研究者收集了约15K对分子图-文本数据，其中分子的文本从SCI论文数据集中检索得到。这些数据用于训练模型，使得模型能够将分子图与其生物医学文本描述关联起来。
对比学习：MoMu模型通过对比学习进行训练，使得分子图的表示与其相关文本的表示尽可能相似，而与不相关文本的表示尽可能不同。这种训练方式使得模型能够在特征空间中将具有相同语义信息的不同模态样本拉近，同时将不同语义的样本推远。
图和文本编码器：MoMu使用Graph Isomorphism Network (GIN)作为图编码器，使用BERT作为文本编码器。这两个编码器将分子图和文本编码到一个联合的表示空间中。
图增强和文本采样：在每个小批量中，研究者使用两种不同的图增强技术从分子图中创建两个独立的图，并从文档中随机抽取两个不同的句子。这种对比学习范式使得模型能够在特征空间中对具有相同语义信息的不同模态样本进行拉近，同时将不同语义的样本推远。
跨模态检索：MoMu模型能够处理分子的图和文本模态，评估其在跨模态检索中的性能。给定一个分子图，图到文本（G-T）检索的目标是检索这个分子最相关的文本描述。相反，给定一个文本段落，文本到图（T-G）检索的目标是检索它描述的最相关的分子图。

此外，为了应对专业学习分子知识的挑战，研究者使用从大规模单模态未标记数据中预训练的分子图模型和生物医学文本模型作为两个编码器的初始化，并通过对比学习与收集的专业图-文本数据进行微调。

主要发现

研究的主要发现是，预训练的MoMu模型在多种下游任务中展现出强大的泛化能力，包括跨模态分子检索、分子描述、零样本分子生成和分子属性预测。实验结果表明，模型不仅在跨模态任务中表现出色，还在分子属性预测方面超越了其他自监督方法，并且能够从自然语言描述中生成有意义的分子图。这些发现表明，由于MoMu模型强大的泛化和想象能力，它可以推进科学探索，并在生物学、化学、材料、医学等分子相关领域产生广泛影响。

MoMu模型的性能评估主要通过以下几个指标进行：

机器翻译评估指标：对于分子到文本的生成任务，MoMu模型使用了自然语言处理（NLP）中常用的机器翻译评估指标，包括：

BLEU（Bilingual Evaluation Understudy）：评估机器翻译质量的指标，通过计算机器翻译文本与一组参考翻译之间的重叠程度。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：评估自动摘要和机器翻译的质量，通过计算机器翻译与参考翻译之间的重叠程度。
METEOR（Metric for Evaluation of Translation with Explicit Ordering）：评估机器翻译质量的指标，考虑了同义词和句子结构。

Text2Mol：这是一种基于深度学习的指标，用于衡量文本-分子对的相似度。

文本到分子生成任务的评估指标：对于文本到分子的生成任务，MoMu模型使用了以下评估指标：

Exact：模型生成的SMILES（简化分子输入线性表达式）与标准答案SMILES完全匹配的比例。
分子指纹相似性：包括MACCS、RDK和Morgan三种分子指纹的谷本系数，用于评估生成分子与目标分子之间的相似性。
FCD评分：通过一个预训练模型测量分子距离的评分，用于评估生成分子与目标分子之间的相似性。
有效分子SMILES生成比例：生成有效的分子SMILES所占的百分比。

这些指标综合评估了MoMu模型在分子到文本和文本到分子生成任务中的性能，包括生成的准确性、相似性和有效性。通过这些指标，研究者能够全面评估模型的性能，并与其他模型（如MolT5）进行比较。

MoMu模型的作者信息：

主要作者：

Bing Su
Dazhao Du
Zhao Yang
Yujie Zhou
Jiangmeng Li
Anyi Rao
Hao Sun
Zhiwu Lu
Ji-Rong Wen

作者机构：

Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872, China
Beijing Key Laboratory of Big Data Management and Analysis Methods
Science & Technology on Integrated Information System Laboratory, Institute of Software, Chinese Academy of Sciences, Beijing, China
University of Chinese Academy of Sciences, Beijing, China
The Chinese University of Hong Kong, Hong Kong, China

通讯作者：

Ji-Rong Wen (jrwen@ruc.edu.cn)

深度图学习与大模型LLM

关注图机器学习，图表示学习，大模型LLM. 最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

Tokenization 不存在了？Meta 最新研究，无需 Tokenizer 的架构来了

从线性注意力视角揭秘视觉Mamba，全新MILA模型

NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

Graph与LLM对齐专题 || 基于MolCA的分子图与语言建模：跨模态投影器与单模态适配器

最新RAG综述:15种经典RAG框架综述

ICML 2023 || 基于自然语言理解能力提升药物发现中的活性预测模型

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

自我进化！自对齐方法不需要人工注释或者蒸馏，而且效果更好 | NIPS 2024

2024快结束了，还有哪些会议可以投稿的？

怒推一万次的顶尖名校公开课-LLM Agents

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

大模型，可以这样学？

RAG黑盒被打开了，可视化RAGViz闪亮全场

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

港科大广州2025年春季与秋季博士生/研究助理招聘-大模型、AI4SCI、几何机器学习等方向

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

LOGS第2024/11/08期||丹麦奥尔堡大学缪浩：面向流式与分布式场景的时间序列分析

Graph与LLM对齐专题 || ProtST：蛋白质序列和生物医学文本的多模态学习， ICML 2023

恋天恋地恋师妹, 防火防盗防师兄, 你会接受同门师兄的追求吗？

Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM（2022.12）

把下班后的时间都用来刷手机，对人生对生活究竟有没有影响？

Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）

基金委发文：目前约17%资助率过低，危害大，应提升至30~35%！增大青年、面上项目经费

Equitorch: 基于pyg的模块化等变图神经网络包

北邮GAMMA Lab专题解读 | Graph Transformer 最新研究进展

LOGS第2024/10/26期||清华大学李瑞堃：通过识别双曲主干来预测复杂网络的长时动力学

归一化Transformer（nGPT）：（LLM）的训练速度提高多达20倍，同时保持原有的精度水平！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

实验室一块GPU都没有怎么做深度学习？

LLMs为零样本图学习器：GNN表示与LLM词元嵌入的对齐

为什么我们的研究生提不出问题？“如果制度把时间限定太死，学生只能选择‘短平快’，丧失了提出难题的勇气和机会。”

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

大模型不会推理，只是高级模式匹配器？无论是OpenAI GPT-4o和o1，还是Llama，都未被发现任何形式推理的证据？

NeurIPS 2024 || 结构信息原理指导的高效智能体探索

西北工业大学 || 诚邀海内外青年英才加盟，其中海外优青岗位：75万+奖励绩效+科研等其他收入+学院一次性奖励5万等，上不封顶

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

AI博士如何做出有影响力的研究？

ACM Survey || 麦考瑞大学最新《图级别学习》综述，274篇文献，图学习从图核到图transformer的交互和演变

NeurIPS 2024 ｜ SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

PyCharm vs VSCode，是时候改变你的 IDE 了！

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉