Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM（2022.12）

文摘 2024-11-06 08:54 北京

Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM

基本信息

题目：Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing
作者：Shengchao Liu, Weili Nie, Chengpeng Wang, Jiarui Lu, Zhuoran Qiao, Ling Liu, Jian Tang, Chaowei Xiao, Anima Anandkumar
机构：Mila-Québec Artificial Intelligence Institute, Montréal, QC H3H, Canada, Université de Montréal, Montréal, QC H3T, Canada, Nvidia Research, Santa Clara, CA, United States, University of Illinois Urbana-Champaign, Champaign, IL, United States
题目：Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing
论文链接：https://arxiv.org/abs/2212.10789

论文内容

研究背景

人工智能在药物发现领域的应用日益增多，但现有研究主要利用分子的化学结构，忽略了化学领域中大量的文本知识。结合文本知识能够实现新的药物设计目标，适应基于文本的指令，并预测复杂的生物活性。本文提出了一种多模态分子结构-文本模型MoleculeSTM，构建了PubChemSTM的数据集，包含超过280K的化学结构-文本对，通过对比学习策略联合学习分子的化学结构和文本描述，以实现这些目标。

研究方法

MoleculeSTM的核心思想是将分子的内部化学结构和外部功能描述两大类信息联系起来，利用多模态学习的思路。

在MoleculeSTM中，分子结构与文本描述的对齐是通过对比学习策略实现的。具体来说，该模型包含两个分支：化学结构分支和文本描述分支。这两个分支分别处理分子的内部结构和外部领域知识。通过对比学习，模型能够将两个分支的表示映射到一个联合空间中，从而实现对齐。

化学结构分支：这一分支使用两种类型的编码器来处理分子结构。一种是将分子视为序列的SMILES字符串的Transformer编码器，另一种是基于2D分子图的图神经网络（GNN）编码器。这些编码器能够从分子结构中提取潜在的向量表示。
文本描述分支：这一分支提供了分子功能的高级描述，并使用BERT模型作为文本编码器。为了加强分子的表示，作者进一步调整了预训练的SciBERT，它是在化学和生物领域的文本数据上进行预训练的。
对比预训练：MoleculeSTM通过对比学习策略，如EBM-NCE和InfoNCE，来对齐结构-文本对。这种策略通过减少同一分子的结构和文本对之间的表示距离，同时增加不同分子对之间的表示距离，使得模型能够更好地区分不同分子之间的差异。
联合表示空间：MoleculeSTM通过两个投影器将两个分支的表示映射到一个联合空间中。这个联合空间允许模型在零样本的情况下泛化到新的药物设计目标和预测新的复杂生物活性。

通过这种方式，MoleculeSTM能够将分子的化学结构和文本描述对齐，并在联合表示空间中进行有效的信息融合，从而实现基于文本的检索和编辑任务。

主要发现

MoleculeSTM具有开放词汇和自然语言合成性两个主要特性，在各种基准测试中获得了最先进的新生物化学概念泛化能力。

实验表明，MoleculeSTM能够适应基于文本的指令，实现新的药物设计目标，并预测复杂的生物活性。该模型在结构-文本检索和分子编辑两个具有挑战性的零样本任务中表现出色，展现了其强大的泛化能力和实用性。

在前面的专题介绍中，我们介绍了MoMu(Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）), 下面从以下几个方面评价MoleculeSTM和MoMu这两种方法：

MoleculeSTM：

大规模多模态数据集：MoleculeSTM构建了迄今当时最大的多模态数据集PubChemSTM，包含超过280K的化学结构-文本对。这种大规模数据集的构建为模型训练提供了丰富的资源，有助于提高模型的泛化能力和准确性。
开放词汇和自然语言合成性：MoleculeSTM具有开放词汇和自然语言合成性两个主要特性，使其能够处理多样的药物描述，包括极端情况下的描述，如“开发一个药物能够治疗明年的突发的xxx疾病”。
零样本任务设计：MoleculeSTM设计了两个具有挑战性的零样本任务，包括结构文本检索和分子编辑，这验证了模型在理解和桥接分子两种模式方面的能力。
新生化概念泛化能力：在实验中，MoleculeSTM获得了跨越各种基准的新生化概念的最新泛化能力。

MoMu：

多模态预训练目标：MoMu通过结构-文本对比（STC）、跨模态匹配（CMM）、掩码语言模型（MLM）和知识图谱嵌入（KGE）作为预训练目标，这种多目标预训练策略有助于模型在不同任务上的表现。
零样本文本到分子图生成：MoMu提出了零样本文本到分子图生成任务，即根据自然语言描述生成新的分子图，这是分子设计和药物发现领域的一个重要进步。
理论证明：MoMu提供了理论证明，其多模态预训练可以解释为在特征空间中最小化同一分子的不同模态之间以及具有相似结构或功能的分子之间的距离。

最后：

数据集和任务设计：MoleculeSTM在数据集规模和任务设计上的创新为分子结构-文本模型的发展提供了新的方向，特别是在零样本学习和新概念泛化方面。MoMu则在预训练目标和理论证明方面展现了其创新性，特别是在跨模态匹配和零样本生成任务上。
模型特性：MoleculeSTM强调了模型的开放词汇和自然语言合成性，这对于处理复杂的化学文本描述至关重要。MoMu则通过多模态预训练目标和理论证明，增强了模型在跨模态任务上的表现和可解释性。
实际应用：两种方法都展示了在药物发现和分子编辑等实际应用中的潜力，但具体的应用效果和影响还需要进一步的实验和实践来验证。

总的来说，这两种方法在多模态分子结构-文本模型领域都展现了显著的创新，为未来的研究和应用提供了新的思路和工具。

Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）

深度图学习与大模型LLM

关注图机器学习，图表示学习，大模型LLM. 最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

Tokenization 不存在了？Meta 最新研究，无需 Tokenizer 的架构来了

从线性注意力视角揭秘视觉Mamba，全新MILA模型

NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

Graph与LLM对齐专题 || 基于MolCA的分子图与语言建模：跨模态投影器与单模态适配器

最新RAG综述:15种经典RAG框架综述

ICML 2023 || 基于自然语言理解能力提升药物发现中的活性预测模型

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

自我进化！自对齐方法不需要人工注释或者蒸馏，而且效果更好 | NIPS 2024

2024快结束了，还有哪些会议可以投稿的？

怒推一万次的顶尖名校公开课-LLM Agents

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

大模型，可以这样学？

RAG黑盒被打开了，可视化RAGViz闪亮全场

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

港科大广州2025年春季与秋季博士生/研究助理招聘-大模型、AI4SCI、几何机器学习等方向

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

LOGS第2024/11/08期||丹麦奥尔堡大学缪浩：面向流式与分布式场景的时间序列分析

Graph与LLM对齐专题 || ProtST：蛋白质序列和生物医学文本的多模态学习， ICML 2023

恋天恋地恋师妹, 防火防盗防师兄, 你会接受同门师兄的追求吗？

Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM（2022.12）

把下班后的时间都用来刷手机，对人生对生活究竟有没有影响？

Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）

基金委发文：目前约17%资助率过低，危害大，应提升至30~35%！增大青年、面上项目经费

Equitorch: 基于pyg的模块化等变图神经网络包

北邮GAMMA Lab专题解读 | Graph Transformer 最新研究进展

LOGS第2024/10/26期||清华大学李瑞堃：通过识别双曲主干来预测复杂网络的长时动力学

归一化Transformer（nGPT）：（LLM）的训练速度提高多达20倍，同时保持原有的精度水平！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

实验室一块GPU都没有怎么做深度学习？

LLMs为零样本图学习器：GNN表示与LLM词元嵌入的对齐

为什么我们的研究生提不出问题？“如果制度把时间限定太死，学生只能选择‘短平快’，丧失了提出难题的勇气和机会。”

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

大模型不会推理，只是高级模式匹配器？无论是OpenAI GPT-4o和o1，还是Llama，都未被发现任何形式推理的证据？

NeurIPS 2024 || 结构信息原理指导的高效智能体探索

西北工业大学 || 诚邀海内外青年英才加盟，其中海外优青岗位：75万+奖励绩效+科研等其他收入+学院一次性奖励5万等，上不封顶

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

AI博士如何做出有影响力的研究？

ACM Survey || 麦考瑞大学最新《图级别学习》综述，274篇文献，图学习从图核到图transformer的交互和演变

NeurIPS 2024 ｜ SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

PyCharm vs VSCode，是时候改变你的 IDE 了！

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉