基于自然语言理解能力提升药物发现中的活性预测模型
大家好,今天为大家介绍一篇ICML 2023研究论文,标题为 **"Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language,由 Philipp Seidl、Andreu Vall、Sepp Hochreiter 和 Günter Klambauer 合作完成,研究单位为 Johannes Kepler University, Linz, Austria 和 IARAI, Vienna, Austria。这项研究提出了一种新的模型架构,通过结合化学和自然语言的编码器,以及对大规模生物化学数据库数据的对比预训练,在药物发现领域显著提升了活性预测模型的零样本和少样本任务表现。
1. 基本信息
论文标题: Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language
中文标题: 基于自然语言理解能力提升药物发现中的活性预测模型作者: Philipp Seidl, Andreu Vall, Sepp Hochreiter, Günter Klambauer 研究机构: Johannes Kepler University, Linz, Austria; IARAI, Vienna, Austria 论文链接: arXiv:2303.03363v2 代码链接: GitHub
2. 研究背景
在药物发现领域,活性和性质预测模型类似于自然语言处理中的大模型和计算机视觉中的图像分类模型。传统模型需要针对新任务进行训练或微调,而科学语言模型(SLM)虽然具备零样本和少样本学习能力,但其在活性预测任务中的表现还不理想。
本文提出一种模块化模型架构,通过结合化学结构和自然语言的编码器,并采用对比学习方法进行预训练,实现高效的零样本和少样本学习。
3. 方法
作者提出的模型命名为 CLAMP(Contrastive Language-Assay-Molecule Pre-training),其主要特点包括:
分子编码器: 提取化学分子的嵌入表示。 文本编码器: 提取实验描述的嵌入表示。 对比学习目标: 对齐活性分子和实验描述的嵌入表示。
CLAMP 模型通过以下公式预测分子活性:
其中 和 分别表示分子和文本的嵌入, 是评分函数,用于衡量分子和实验描述之间的匹配程度。
对比学习的损失函数定义为:
模型预训练数据来源于大型化学数据库如 PubChem 和 ChEMBL,这些数据库包含丰富的化学结构、实验描述和生物活性信息。
4. 实验与发现
实验设置
数据集: FS-Mol 和 PubChem 的子集。 任务: 零样本活性预测、嵌入表示学习和分子检索。 基准模型: 包括传统活性预测模型和科学语言模型(如 KV-PLM)。
实验结果
零样本学习: CLAMP 相较于现有最佳方法,在分子活性筛选性能上提升了约 50 倍。 嵌入表示学习: 在 ToxCast 数据集上,CLAMP 的预测性能提高了约 80%。 分子检索: 在大规模化学数据库中,CLAMP 对活性分子的检索能力显著好于其他方法。
6. 参考文献
Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363v2. Kim, S., et al. (2019). PubChem 2019 update: improved access to chemical data. Nucleic Acids Research.