ICML 2023 || 基于自然语言理解能力提升药物发现中的活性预测模型

文摘 2024-12-02 23:39 新加坡

基于自然语言理解能力提升药物发现中的活性预测模型

大家好，今天为大家介绍一篇ICML 2023研究论文，标题为 **"Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language，由 Philipp Seidl、Andreu Vall、Sepp Hochreiter 和 Günter Klambauer 合作完成，研究单位为 Johannes Kepler University, Linz, Austria 和 IARAI, Vienna, Austria。这项研究提出了一种新的模型架构，通过结合化学和自然语言的编码器，以及对大规模生物化学数据库数据的对比预训练，在药物发现领域显著提升了活性预测模型的零样本和少样本任务表现。

1. 基本信息

论文标题: Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language
中文标题: 基于自然语言理解能力提升药物发现中的活性预测模型
作者: Philipp Seidl, Andreu Vall, Sepp Hochreiter, Günter Klambauer
研究机构: Johannes Kepler University, Linz, Austria; IARAI, Vienna, Austria
论文链接: arXiv:2303.03363v2
代码链接: GitHub

2. 研究背景

在药物发现领域，活性和性质预测模型类似于自然语言处理中的大模型和计算机视觉中的图像分类模型。传统模型需要针对新任务进行训练或微调，而科学语言模型（SLM）虽然具备零样本和少样本学习能力，但其在活性预测任务中的表现还不理想。

本文提出一种模块化模型架构，通过结合化学结构和自然语言的编码器，并采用对比学习方法进行预训练，实现高效的零样本和少样本学习。

3. 方法

作者提出的模型命名为 CLAMP（Contrastive Language-Assay-Molecule Pre-training），其主要特点包括：

分子编码器: 提取化学分子的嵌入表示。
文本编码器: 提取实验描述的嵌入表示。
对比学习目标: 对齐活性分子和实验描述的嵌入表示。

CLAMP 模型通过以下公式预测分子活性：

其中和分别表示分子和文本的嵌入，是评分函数，用于衡量分子和实验描述之间的匹配程度。

对比学习的损失函数定义为：

模型预训练数据来源于大型化学数据库如 PubChem 和 ChEMBL，这些数据库包含丰富的化学结构、实验描述和生物活性信息。

4. 实验与发现

实验设置

数据集: FS-Mol 和 PubChem 的子集。
任务: 零样本活性预测、嵌入表示学习和分子检索。
基准模型: 包括传统活性预测模型和科学语言模型（如 KV-PLM）。

实验结果

零样本学习: CLAMP 相较于现有最佳方法，在分子活性筛选性能上提升了约 50 倍。
嵌入表示学习: 在 ToxCast 数据集上，CLAMP 的预测性能提高了约 80%。
分子检索: 在大规模化学数据库中，CLAMP 对活性分子的检索能力显著好于其他方法。

6. 参考文献

Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363v2.
Kim, S., et al. (2019). PubChem 2019 update: improved access to chemical data. Nucleic Acids Research.

深度图学习与大模型LLM

关注图机器学习，图表示学习，大模型LLM. 最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

Tokenization 不存在了？Meta 最新研究，无需 Tokenizer 的架构来了

从线性注意力视角揭秘视觉Mamba，全新MILA模型

NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

Graph与LLM对齐专题 || 基于MolCA的分子图与语言建模：跨模态投影器与单模态适配器

最新RAG综述:15种经典RAG框架综述

ICML 2023 || 基于自然语言理解能力提升药物发现中的活性预测模型

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

自我进化！自对齐方法不需要人工注释或者蒸馏，而且效果更好 | NIPS 2024

2024快结束了，还有哪些会议可以投稿的？

怒推一万次的顶尖名校公开课-LLM Agents

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

大模型，可以这样学？

RAG黑盒被打开了，可视化RAGViz闪亮全场

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

港科大广州2025年春季与秋季博士生/研究助理招聘-大模型、AI4SCI、几何机器学习等方向

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

LOGS第2024/11/08期||丹麦奥尔堡大学缪浩：面向流式与分布式场景的时间序列分析

Graph与LLM对齐专题 || ProtST：蛋白质序列和生物医学文本的多模态学习， ICML 2023

恋天恋地恋师妹, 防火防盗防师兄, 你会接受同门师兄的追求吗？

Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM（2022.12）

把下班后的时间都用来刷手机，对人生对生活究竟有没有影响？

Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）

基金委发文：目前约17%资助率过低，危害大，应提升至30~35%！增大青年、面上项目经费

Equitorch: 基于pyg的模块化等变图神经网络包

北邮GAMMA Lab专题解读 | Graph Transformer 最新研究进展

LOGS第2024/10/26期||清华大学李瑞堃：通过识别双曲主干来预测复杂网络的长时动力学

归一化Transformer（nGPT）：（LLM）的训练速度提高多达20倍，同时保持原有的精度水平！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

实验室一块GPU都没有怎么做深度学习？

LLMs为零样本图学习器：GNN表示与LLM词元嵌入的对齐

为什么我们的研究生提不出问题？“如果制度把时间限定太死，学生只能选择‘短平快’，丧失了提出难题的勇气和机会。”

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

大模型不会推理，只是高级模式匹配器？无论是OpenAI GPT-4o和o1，还是Llama，都未被发现任何形式推理的证据？

NeurIPS 2024 || 结构信息原理指导的高效智能体探索

西北工业大学 || 诚邀海内外青年英才加盟，其中海外优青岗位：75万+奖励绩效+科研等其他收入+学院一次性奖励5万等，上不封顶

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

AI博士如何做出有影响力的研究？

ACM Survey || 麦考瑞大学最新《图级别学习》综述，274篇文献，图学习从图核到图transformer的交互和演变

NeurIPS 2024 ｜ SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

PyCharm vs VSCode，是时候改变你的 IDE 了！

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉