Bioinformatics | ChatMol：基于自然语言进行交互式的分子发现

学术 2024-09-19 00:01 韩国

在大语言模型时代，自然语言将成为人机交互的关键媒介。在生物化学领域，诸如性质预测和分子挖掘等任务至关重要，但在技术上具有挑战性。在自然语言和化学语言中架起分子表达的桥梁可以显著提高这些语言的可解释性和易用性，整合各种来源的化学知识，从而更深入地了解分子。

2024年9月2日，清华大学刘知远老师团队在Bioinformatics上发表文章ChatMol: Interactive Molecular Discovery with Natural Language。

作者提出了ChatMol，利用自然描述和编辑目标分子的语言进行对话式分子设计。ChatMol是一个预训练的分子大语言模型。该模型通过结合实验属性信息、分子空间知识、以及自然语言和化学语言之间的联系，证明了对话式分子设计的有效性。实验结果表明，ChatMol的性能超越了现有模型。

如图1所示，ChatMol在多任务预训练期间将所有具有不同任务前缀的数据混合，在微调期间应用分子映射关联中的插件。在分子设计的每一个训练轮次中，人类用户和智能系统都可以通过化学语言来参考分子，或者通过自然语言来参考化学性质。给定会话历史H(M, T)，其中包含分子M_{1,2，…，p}和化学性质描述T_{1,2，…, q}，ChatMol关注研究人员期望智能系统实现的两个主要功能: (1)分子理解：系统需要为H中的分子M_i生成一段性质描述T_i。(2)分子生成：系统还应该生成一个特定的分子M_j满足H中的要求，这可以用自然语言来描述，也可以用相似的分子来描述。由于可能有多个分子与描述相匹配，因此人类用户可以迭代地补充属性描述T_j+1，系统将根据当前的文本描述，生成修改后的分子。

图1 ChatMol结构图

对于传统的文本生成任务，BLEU，ROUGE和METEOR分数被广泛用于衡量预测结果与参考答案的相似性。BLEU分数主要用于评价生成内容的精准率；ROUGE分数主要评价内容的完备性(召回率)；METEOR分数通过外部知识来源考虑同义词，主要评价内容的意义相似度。它们也可以应用于分子理解的评价。然而，对于分子生成任务，从分子准确性的角度来看，内容文本相似度并不具有说服力。

对于分子生成，除了使用BLEU分数来衡量文本精度外，作者主要考虑两个方面：匹配率和分子相似度。对于匹配率，要求模型为每个输入生成三个最可能的分子，并计算第一个分子(精确匹配精度)和前三个分子(hit@3精度)的命中频率。对于分子相似性，应用各种指纹系统相似性进行评估，例如Tanimoto相似性。

由于SMILES和自然语言的特征有很大的不同，作者准备了两套编码器和解码器分别对M和T进行处理。每个集合都被设置为一个公共序列到序列(seq2seq)框架，并使用T5模型进行初始化，这是一种被广泛采用的具有220M参数的序列到序列预训练语言模型。在数据准备方面，相应的<M,T>对可以从化学的数据库中获得，其中提供了物质的简短文字介绍。

如果分子名称出现在文本中，可能会导致信息泄露。为了解决这个问题，目标分子的同义词被一般的参考短语取代，比如“分子”。为了进行多回合分子生成，作者基于ChEBI-20创建了一个新的数据集ChEBI-dia。在原始数据集中，用于描述分子M的T通常包含多个句子，描述的顺序从精细结构到整体性质。为了获得多回合文本描述，作者将T分成句子，并颠倒它们的顺序，得到S_1,2，…，其中详细信息的数量依次增加。对于第k次训练，有T_k = {S₁, S₂，…, S_k}。为了得到分子中间结果，作者采用预训练的MolT5-caption2smiles-large模型，自动生成5个候选M_k1_,k2，…，对于给定的T_k，随机选择一个作为期望生成的分子M_k，该分子具有RDK指纹相似性，目标是最终答案M_n大于0.5，小于1(即为了避免信息泄露)。这一方法建模了分子映射相关性。

此外，作者过滤掉那些只包含一个对话回合的条目，并删除句子中带有“-”的条目，以避免出现标准化学命名法(例如IUPAC命名法)来直接揭示答案。作者还随机保留一些中间分子与最终答案相似度较低的项，以保持多样性，增强模型的鲁棒性。

为了验证数据集的代表性，作者分析了所有相关分子之间的相似性。RDK分子指纹在训练和测试数据内和数据间的平均相似度均小于0.18；训练集中出现的测试分子不到32%，分子量超过5000g/mol的大分子很少。因此，所涉及的分子范围很广，测试场景具有足够的普遍性。

作者首先进行了流行的预训练范式掩码语言建模(MLM)，以确保模型对自然语言和化学语言的基本理解和生成能力。然而，为了处理多模态对话分子设计数据，模型还需要捕获两种语言之间的关联并进行转换。作者使用SciSpacy工具检测文献语料库中的分子实体，然后从PubChem中检索他们的SMILES。给定自然语言片段，分子生成模型需要为依次出现在其中的所有分子生成SMILES表达式。相反，期望分子理解模型生成给定分子的标准名称。通过这种方式，ChatMol以最少的监督建立并行关联。

数据库还可以在下游微调和推断过程中扮演插件的角色。对于生成分子的文本描述，根据模型提示提供了自动注释的实体SMILES字符串。为了避免信息泄露，强制删除提示框中与答案中的分子相同的SMILES字符串。

考虑到分子理解(分子到文本生成)和分子生成(文本到分子生成)是一对相互的任务，而现有的分子SMILES字符串远远超过自然语言中的分子性质描述，ChatMol采用双重学习的框架，这是神经机器翻译中的一种常见机制，以缓解缺乏并行数据的挑战。具体来说，微调后的分子理解模型可以为任何给定的分子生成增强文本描述，并对分子生成训练进行反馈。

注入分子知识是为了深入理解给定的化学语言表达式，生成更合理、更有信息量的自然语言描述。ChatMol使用两种类型的分子知识进行训练。一是属性知识。为此，作者收集了PubChem数据库中实验确定的15种物理和化学性质，包括溶解度、颜色、腐蚀性等。这些性质可以用自然语言直接描述，并为分子理解提供监督信号。二是空间结构知识。分子的空间信息对于理解分子性质至关重要，而SMILES表达式在语言模型中并不能直接表达分子的拓扑结构。为了满足理解分子结构的需要，作者引入了空间相关的预训练任务，使用RDKit工具包来获得输入分子的空间结构。

作者将ChatMol与一些具有代表性的方法进行了比较，如表1和表2所示。在本研究中，分子理解任务上的评测使用不同阈值下的BLEU（BL-2, BL-4），ROUTE（RG-1, RG-2, RG-L）和METEOR（MET）。分子生成采用完全匹配率（EM），前三命中率（hit@3），BLEU，Levenstein距离，以及基于RDK指纹，MACCS指纹和Morgan指纹的相似度进行评估。↑表示数值越高越好，↓表示数值越低越好。结果可见，在分子理解和分子生成任务上，ChatMol相对于现有方法在CheBI和PCdes数据集上均有显著提升，且ChatMol所需的训练步数远少于MolT5。

表1 分子理解：与其他方法对比

表2 分子生成：与其他方法对比

作者设计了消融实验来验证模型设计的有效性。如表3所示，w/o属性（property）、w/o空间（spatial）和w/o映射（mapping）是指在多任务预训练中去除实验属性预测、空间结构预测和分子映射相关性；w/o对话（conversation）是指对话历史中分子的去除；w/o增强（augmentation）是指去除双重增强训练；w/o提示（prompting）是指删除从数据库获得的SMILES提示。ChatMol的所有非完整版本在这两个任务上的表现都更差，这证明了我们的方法的有效性。特别是各个部件都去除后（w/o all，即使用基础的预训练语言模型）得分显著降低，表明桥接多用途子域的能力对于完成会话分子设计至关重要。w/o对话版本证明了迭代修改形式比直接提供整段文本需求更合理。

表3 消融实验

作者还进行了案例分析。如图2所示，输入文本描述，模型给出了对应的回答描述。可见，ChatMol提供了更高质量的分子描述输出，还掌握了一些关键的必需子结构，生成了非常相似的分子，同时提供了比基线模型更简洁的描述。

图2 案例分析

在本文中，作者提出了对话式分子设计模型ChatMol，这是一种利用自然语言描述和编辑目标分子的创新交互范式。作者在本研究中探索两个特定的任务：分子理解和分子生成。为了支持这些任务，作者开发了为会话交互量身定制的数据集ChEBI-dia。ChatMol是一个知识生成模型，有效地连接了分子的化学和自然语言描述，通过整合分子知识和促进不同语言表示之间的交互，提高了准确率和效率，显著降低了训练成本，优于现有方法。这种方法预示着人工智能辅助分子设计的一个有希望的新方向。

参考文献

Zeng et al. ChatMol: Interactive Molecular Discovery with Natural Language. Bioinformatics. 2024

--------- End ---------

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506727&idx=2&sn=956f6bf3d10e6ead4e4958d53106fb22

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Bioinformatics | ChatMol：基于自然语言进行交互式的分子发现

Nat. Commun. | 利用统计学驱动的图网络准确预测蛋白质功能

Nat. Methods | 利用几何深度学习预测蛋白质与DNA结合特异性

Nat. Commun. | 基于单序列快速准确预测蛋白质结构、适应度与稳定性变化

DrugMAP 2.0: 面向所有药物的“药物-分子相互作用图谱”

Drug. Discov. Today. | 深度生成模型探索类药物化学空间前沿

大语言模型如何助力药物开发? 哈佛George Church Lab最新综述

Nat. Commun. | 少样本逆向设计：针对耐药菌的HDP模拟聚合物

Chai-1:突破性的多模态基础模型，解锁生命分子相互作用

Nat. Commun. | 利用transformer模型将质谱数据序列翻译成肽段序列

Nat. Commun. | Stability Oracle：一个基于结构的图transformer框架，用于识别稳定突变

Nat. Commun. | 蛋白质语言模型驱动的DNA-蛋白质结合预测

Nat. Commun. | AGILE平台：一种基于深度学习的加速LNP开发用于mRNA递送的方法

Science | PhAI：一种解决晶体学相位问题的深度学习方法

第六届全国生物医学数据挖掘与计算学术会议通知（第一轮）

Nat. Commun. | 揭示不同癌症类型中髓系细胞的多样性和作用

Nat. Commun. | 基于上下文感知的几何深度学习用于蛋白质序列设计

Nat. Mach. Intell. | 突破对接瓶颈：ColabDock革新蛋白质-蛋白质结构预测

Nucleic Acids Res. | PROTAC-DB 3.0：具有扩展药物代谢动力学参数的PROTAC更新数据库

Nat. Chem. Biol. | 临床前药物发现中的机器学习

Brief. Bioinform.｜属性引导的原型网络用于少样本分子性质预测

Nat. Commun. | 双裂解Pre-F三聚体，hMPV疫苗新希望！

抗体药物研发：创新策略与知识产权保护的深度对话

Sci. China Life Sci. | 甘草查尔酮D通过靶向STING寡聚化改善炎症性疾病

Adv. Sci. | 构象系综增强的通用分子表征促进基于配体的药物发现

Sci. China Life Sci. | 发现天然产物脓毒酸A靶向于SHP-2的磷酸化ITSM识别位点

Nucleic Acids Res. | 时隔3年重大升级！DDInter2.0—全面更新的药物相互作用数据库

Brief. Bioinform | 李诗良/李洪林团队开发基于保留机制的小分子pKa值预测AI方法GR-pKa

Nat. Comput. Sci. | SPARROW：在分子设计中考量合成成本

Nat. Commun. | EasIFA: 基于多模态深度学习技术的高效和准确的酶催化活性位点注释方法

Nat. Commun. | 通过异质图学习从空间解析的转录组数据剖析肿瘤微环境

Nat. Methods | 单细胞蛋白生物学的上下文AI模型

Angew. Chem. Int. Ed. | 大数据训练下学习反应机理

解开分子结构：用于化学的多模态光谱数据集

报告免费领取 | 特应性皮炎深度解析：药物开发、专利分析与风险评估

Nat. Mach. Intell. | 糖肽串联质谱预测推动糖蛋白质组学研究

西湖大学人工智能研究创新中心药物建模小组招收实习生

Nat. Chem. Biol. | 虚拟筛选库扩展的建模

ICLR 2024｜基于化学反应标注的人在回路逆合成路径预测算法

Chem. Sci. | 贝叶斯框架融合多种高水平生物表征预测新颖靶标

PNAS | AlphaFold2结合超级计算加速生物物理学发现

今晚19:00！李子青/周耀旗/朱山风/张文彬/傅晓智Cell Press Live：蛋白质结构与功能预测及设计

Nat. Commun. | Uni-Mol+解析量子化学属性预测的全新突破

J. Cheminform. | 用最短哈密顿环度量分子多样性

Nat. Commun. | 基于迭代字符串编辑模型的逆合成预测

综述：大语言模型与自主智能体在化学中的应用

Nat. Commun. | 戴琼海/邓岳团队构建多模态融合的深度生成模型soScope，可高分辨率表征复杂组织结构

Nat. Mach. Intell. | 对32,111份AI模型卡片的系统分析描述了AI领域的文档实践

Nat. Commun. | SchNet4AIM：从真实空间的化学描述符中学习可解释性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉