BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

学术 2024-11-09 08:24 北京

概要

药物重定位，也称为老药新用或药物重使用，这是一种将现有治疗方法应用于新的疾病的药物研发策略，其目标是扩大现有药物的适用范围和用途。目前的药物重定位模型大都依赖于特定的数据集进行训练，极大地限制了其预测药物的准确性和广度。

近日，中南大学曹东升教授联合电子科技大学邹权教授和湖南大学曾湘祥教授团队提出一种集成了GPT3.5, GPT4, Newbing等多种大语言模型（LLMs）与多源提示技术的药物重定位框架DrugReAlign，从海量人类知识库中学习靶点和药物的一般知识，克服了传统方法中数据可用性的限制。

研究背景

传统药物重定位方法需要分析大量医学文献和临床数据，通过多学科协作发掘已有药物治疗新疾病的潜力。这是一个耗时耗力的过程，效率相对较低。近年来，随着生物信息学的快速发展，以深度学习为核心的计算方法在药物重定位领域取得了显著进展。这些方法能够自动提取药物和靶点特征，提高了预测模型的精确性和可解释性，有力推动了药物重定位的发展。然而，这些方法往往依赖特定数据源，泛化能力有限。

自然语言处理（NLP）领域近年来取得了巨大突破。以ChatGPT为代表的大型语言模型（LLM）通过学习和训练海量人类知识文本数据库，在问答、翻译、情感分析等任务中展现出卓越性能。与传统的基于规则或知识的专家模型不同，LLM能够从庞大的文本数据中自动学习语言规律和模式，并对隐含知识进行深入理解和归纳。其跨领域学习能力使LLM有望成为药物发现等科学研究的新范式。

LLM仅需通过简单对话即可快速有效地提供相关主题的回答，大大降低了科研的时间成本，推动了科技进步。此外，LLM在处理和分析多源数据方面表现出色，能将各种形式的数据转化为文本描述作为有效输入。这对于涉及异构、跨领域数据的研究领域尤为重要，如基因组学、蛋白质工程和药物开发等。通过从人类知识库中获取海量多源信息，LLM加速并深化了数据分析过程，提升了科研效率和深度，预示着LLM有望彻底变革相关科学研究领域的未来格局。

LLM的发展为药物重定位领域注入了新活力。LLM的训练数据包含大量与目标药物相关的医学文献，涵盖了药物的基本信息、药理作用、临床试验结果，以及药物与疾病、靶点、生物途径的详细知识。LLM将这些海量多源数据整合到其知识库中，为药物重定位任务提供全面、多维度的参考信息，提高了其精准度和可解释性。然而，不可否认LLM也存在幻觉、虚假信息和理解错误等问题，可能导致误导性回答。这些问题主要源于现有方法过于依赖单一来源的提示信息，从而产生不可避免的统计偏差。

为此，这篇论文提出了基于LLM和多源提示技术的药物重定位框架，旨在高效探索现有药物的最大潜力。研究从RCSB数据库获取了大量基因组的靶点蛋白数据，采用格式化方法提取靶点的PDB ID、PDB Name等关键提示信息。从靶点的PDB文件中获取了小分子配体-靶点复合物的结合口袋细节，包括原子坐标和空间交互数据等，然后采用口袋分析工具提取疏水性、氢键等提示信息。经过数据清洗，共收集并提取了1273个PDB结构的提示信息。

随后，研究融合了靶点PDB结构和靶点与小分子空间交互的提示信息，使用不同的LLM（GPT-3.5、GPT-4、New Bing）来预测与相应靶点可能存在潜在相互作用的现有药物或实验药物。共获取了3819个有效回答，并对预测的药物进行了排序和解释。此外，研究利用AutoDock Vina进行了11801次分子对接，以验证LLM的预测结果。通过量化分析LLM的回答和分子对接结果，评估了LLM在药物重定位任务上的特性和可靠性。

方法

DrugReAlign的整体流程如图1所示。

图1.DrugReAlign程图。a.构建靶标的多源提示，b.基于LLMs和多源提示信息筛选与靶点有相互作用的潜在药物。c.特定靶点的Prompt构建示例 d. 使用 LLMs 进行交互式查询和决策支持。

在a模块中，从RCSB数据库获取了靶点的PDB（蛋白质数据库）结构描述信息，包括PDB名称、分类、基因归属等。此外，根据下载的相应靶点的PDB结构文件，还提取了已知靶点与小分子间的空间交互信息（包括空间坐标和各类相互作用力），作为示例化提示信息的一部分，以构建更为详细的问题。c模块展示了基于特定靶点的Prompt构建示例。在b模块中，输入靶点PDB结构概要与靶点-小分子空间交互的提示到LLMs中，据此分析并输出针对该靶点的药物重定位建议，包括预测药物的名称、排名及理由。随后，提取预测药物的结构，与对应的靶点进行分子对接实验，从相互作用角度验证提出框架在药物重定位任务上的有效性。在d模块中，基于LLMs和多源提示技术输出分析报告，并以此完成交互式查询，实现药物重定位任务。这框架提供了基于LLMs的靶点解析、药物排名理由、分子对接结果等，以揭示和分析潜在的药物重定位关系，有效减轻传统方法在药物重定位任务上的人才和资源密集型问题。

数据收集

这篇论文从公共数据库BindingDB中精细化筛选了部分靶点来构造数据集，从而评估提出框架靶向药物重定位领域的性能。筛选标准要求每个靶点在RCSB数据库中至少存在两种以上小分子配体的记录。以此来保证获取充足的靶点-小分子药物结合口袋信息。经过数据清理，共计收集了1273个靶点及相应小分子药物的PDB结构，作为分子对接的数据集。在此过程中，还收集了相关靶点的详细描述数据，包括PDB ID、蛋白质序列（fasta格式）、PDB名称、分类、生物体来源、表达系统等，并提取概要信息。此外，使用PLIP (Protein-Ligand Interaction Profiler) 工具分析靶点与小分子配体之间的相互作用，并提取了靶点-小分子药物空间交互信息。这两种信息被作为输入LLMs的提示。

靶点-配体空间交互信息

分析靶点-小分子配体交互的三维结构数据，能帮助深入理解分子间相互作用机制，指导药物设计和优化。在该研究中，每个靶点至少与两种小分子配体存在已经过验证的相互作用。具体地，使用PLIP (Protein-Ligand Interaction Profiler)工具分析了蛋白质-小分子配体相互作用，并提取了相应的原子坐标、键等空间交互信息。该工具能准确识别并分类包括氢键、疏水作用、π-π键多种相互作用类型。该过程获取和分析了靶点和小分子配体的三维结构信息，综合考虑原子间的空间关系及其化学特性，确保了空间交互的识别准确性。这尽可能确保足够的靶点-小分子药物的空间交互数据，为提出框架中的LLMs提供丰富、精确的约束性提示，从而提升药物重定位性能。

分子对接

分子对接通过模拟蛋白质与小分子或其他生物大分子间的相互作用，来预测小分子在蛋白质活性位点的最佳结合模式及对应的结合亲和力。在药物重定位任务中，该研究主要采用AutoDock Vina软件执行分子对接，从而验证提出框架预测的药物与相应靶点之间是否存在相互作用。

AutoDock Vina软件的评分函数则用于估计每个可能的姿态的结合亲和力，即评估药物分子与靶点结合时的稳定性。评分函数通过整合多种相互作用力，如疏水作用、氢键、范德华力、电荷作用等，从而估算出药物分子与靶点结合时的能量值。这个值越低意味着药物与靶点的结合更为紧密、相互作用更强，从而表明该药物具有更高的潜在生物活性。该研究使用的Vina评分函数是：

：范德华力能量，描述分子间因距离较近而产生的引力或排斥力。

：氢键能量，量化了分子间氢键形成的贡献，对于生物分子间的特异性相互作用非常关键。

：静电能量，反映了带电分子间的吸引或排斥作用。

：脱溶剂化能量，代表分子从溶剂环境中移动到结合位点时所需的能量改变。

：疏水作用能量，体现了分子间由于疏水效应而产生的吸引力。

：扭转能量，与配体中可旋转键的自由度相关，考虑到配体结合时可能的构象改变。

：构象依赖的内能量，评估分子内部各部分间相互作用的稳定性。

语义分析

该研究中，设定LLMs输出预测的药物时，必须同时提供相应的解释。为了量化解释中的语义信息，探究其对于预测结果的贡献，使用OpenAI提供的文本Embedding模型- text-embedding-3-small将解释性文本T转换成高维向量空间中的向量表示V。这主要包括以下步骤。

Tokenization: 输入文本T首先经过token化处理，转换为一系列的tokens:

Embedding：然后，使用text-embedding-3-small模型E将这些tokens转换为一个1536维的向量，作为预测药物对应解释的表示。这个步骤可以表示为：

随后，使用余弦相似度来计算预测药物的解释之间的语义相似性：

其中，和分别是药物分子1和药物分子2对应解释的文本向量。表示和的点积，而和分别表示向量和的欧几里得范数（即向量的长度）。以每个靶点的药物重定位结果作为基本单元，单个单元内的余弦相似度则可以表示为:

其中，n为单元内药物解释的数量，和分别是第i个和第j个药物解释对应的嵌入向量。

结果分析

基于AutoDock Vina的药物重定位结果量化分析

分子对接技术被广泛应用于评估和筛选靶点的候选药物。通过模拟药物与靶点的相互作用，分子对接软件可以预测他们的结合亲和力。亲和力的值在很大程度上可以指示某一药物对特定靶点的结合能力和潜在的生物活性。为了评估LLMs的预测结果，使用AutoDock Vina对相应的靶点与药物做了大量的分子对接。在分子对接中，通常来说，结合自由能低于-5 kcal/mol 被认为指示着中等到强的分子间相互作用，而低于-7 kcal/mol 或更低则被认为是强相互作用。

图2.a和表1展示了GTP3.5，GPT4.0及New Bing模型预测的药物与对应靶点的分子对接分数。可以观察到3种LLMs模型预测的结果都取得了令人满意的分子对接分数，这说明它们都能针对特定靶点预测有潜力的治疗药物。GPT4和NewBing模型预测的结果在对接实验中得分更高，而GPT3.5预测的结果则明显弱于这两者，平均对接结合自由能为-6.40 kcal/mol。这些发现揭示了分子对接分数与LLMs的整体能力之间似乎存在某种相关性。从而有望提供一种量化的方法，以评估LLMs在药物重定位任务中的应用性能。进一步地，探究了LLMs预测的药物排名与分子对接分数的相关性，如图2.b所示。对于GPT4和Newbing模型，平均趋势线都相对平坦，预测药物的排名与对接分数的分布之间没有显著的线性关系。值得注意的是，GPT3.5模型在整体性能上明显落后于其他的LLMs，且预测药物的排名与对接分数的分布之间却表现出近似线性关系。这反映了LLMs在解析指令时的侧重点可能不同，较新和较强的LLMs更擅长于理解复杂指令和执行高级的抽象任务，而较旧版本的模型只能适用于更直接、具体的任务。

图2.基于LLMs推荐药物的结合自由能分布与语义相关性分析。a. LLMs预测的药物与对应靶点的结合自由能分布。b. LLMs预测药物的排名与结合自由能的相关性。c. 高性能与低性能数据集的语义相似度分布。d. 同一靶点药物的平均结合自由能与语义相似度的相关性探索。

药物重定位中的解释与对接性能的相关性分析

LLMs通过简洁对话即可针对特定主题提供精准回答。在这项研究中，LLMs根据靶点的多源提示信息输出预测的药物名称，排名及理由。特别关注LLMs提供的关于预测药物的理由（或解释），并评估了LLMs在为特定靶点预测药物时提供解释的质量。采用OpenAI提供的文本Embedding模型-text-embedding-3-small将所有预测药物的文本解释转化为向量，从而进行量化评估。

具体来说，量化了LLMs预测药物的解释与分子对接分数之间的相关性。选取了每个靶点重定位的药物信息作为单元，计算了这些单元内预测药物的解释的平均余弦相似度，并统计了预测药物与相应靶点的平均结合自由能。根据所有单元计算了预测药物解释的平均余弦相似度与对应的平均分子对接分数的相关系数和p值，以量化二者之间的关系强度及其显著性。如图2.d显示，对于三种LLMs，计算的相关系数均小于0。在Newbing模型中，计算的相关系数达到了-0.3，这表明了一个轻微至中等强度的负相关趋势。即预测药物解释的相似度与对应的分子对接亲和力之间存在正相关关系。换句话说，LLMs针对特定靶点预测的药物解释相似性越高，那么这些预测的药物与该靶点有更强的结合亲和力。此外，在所有LLMs中，计算的p值均显著小于0.05，表明预测药物解释的平均余弦相似度与对应的平均分子对接分数的之间的负相关性具有统计学意义。

进一步地，筛选并分析了与对应靶点平均对接亲和力及解释平均余弦相似度均在前20%与后20%的预测药物（简记为高性能预测药物和低性能预测药物），来探索导致这种负相关出现的原因。注意到在图1中的d模块，LLMs根据靶点的summary信息和空间交互信息输出了分析报告。推测，详细的分析报告可能是决定药物预测结果的关键因素。分别计算高性能预测药物和低性能预测药物的解释与对应分析报告内容的余弦相似度，如图2.c所示。对于三种LLMs，观察到高性能预测药物的解释与其分析报告的内容表现出更高的余弦相似度。这些发现揭示了预测药物的解释与根据靶点的概要和空间交互提示得到的分析报告的内容紧密相关。此外，LLMs根据分析报告输出预测药物，那么其分析报告的内容与分子对接亲和力之间有明确的相关性。因此，可以下结论：预测药物的解释的平均余弦相似度与对应的平均分子对接分数之间具有相关性。与此同时，也证明了提供的提示信息很大程度上决定了最终的预测结果。那么，引入靶点更多的已知数据作为prompt信息，有望对药物重定位的性能和预测结果的可解释性产生积极影响。

预测药物的倾向

为了评估提出框架中三种LLMs在药物重定位任务中的倾向。图3.a展示了三种模型预测药物集合的交集规模。New Bing预测的药物数量达到了1003+419+131+713=2266种，超越了其他LLMs，表明其在药物数据库中具有更广泛的覆盖范围。还可以观测到仅由New Bing模型预测的药物达到了1003种，意味着其能提供更多的其它模型未能覆盖的可选择药物。GPT3.5模型预测的药物数量仅有1424种，明显小于其他LLMs。并且，其预测的特异的药物仅有499种。推测这是因为各个LLMs之间训练数据源的体量差异导致的。因此，采用LLMs来执行药物重定位任务时，需要考量其训练数据的广度及更新频率。从而为特定的研究靶点提供更多的潜力药物，有助于拓宽现有治疗方案及开发新的治疗方案。

采用Lipinski五项规则（分子量（MW）、脂溶性（LogP）、氢键供体数（HBD）、氢键受体数（HBA）以及可旋转键数（RotB））分析和评估了分子量小于500的预测的小分子药物。从图3.d中观察到，相较于GPT4和New Bing模型，GPT3.5模型显示出对分子量较小药物的明显偏好。此外，也分析和评估了提出框架预测的分子量大于500的大分子药物。在研究中，NewBing和GPT-4模型分别预测了385和354种大分子药物，而GPT3.5仅预测了256种。这进一步强调了GPT3.5模型对小分子药物的偏好。

GPT3.5模型的偏好还涉及到选择药物的化学属性。在图3.d中，GPT3.5模型更频繁地输出了LogP和RotB值相对较低，HBD的数量通常略高的小分子药物。更多的HBD能增强分子的亲水性，此时脂溶性较低，刚性较高，这与实验结果一致。这些发现反映了GPT3.5模型倾向于选择分子量较小，亲水性较强，脂溶性较低，刚性较高的药物。增强的亲水性有助于药物的溶解与吸收，分子结构的刚性则有助于药物与靶点的精确结合，这些都是药物开发中需要关注的关键因素。

图3.LLMs药物推荐集合关系与Lipinski规则分布。a.在全量数据集下不同LLMs的药物推荐集合关系。b.在数据子集下不同LLMs的药物推荐集合关系。c. 在去除空间交互信息的数据子集下不同LLMs的药物推荐集合关系。d. 在全量数据集下不同LLMs的药物Lipinski规则属性分布。

结论

药物重定位在药物研发领域始终发挥着关键作用，因其低耗时间和财力。首这项研究探究了GPT3.5、GPT4和New Bing模型在药物重定位任务上的的应用成效。借助于大规模靶点-小分子的对接实验，验证了GPT3.5、GPT4和New Bing模型在药物重定位任务上的高效性能。研究结果进一步表明，LLMs提供的预测药物的解释与对应靶点的分析报告之间的语义相似性与预测药物-靶点对接分数呈现正相关关系。从而可以得出这样的结论，即如果设置更加准确且充分的约束，那么LLMs输出的分析报告更加准确，及据此预测的药物也更加合理。这不仅提升了提出框架在药物重定位任务上的精确性与解释性，同时促进了对药物作用机制，药物与目标靶点之间复杂相互作用的深入理解。通过消融研究，分析和验证了药物-靶点空间交互信息对于提高LLMs在药物重定位任务中表现的重要性，强调了多源Prompt设计的关键作用。未来的研究可以进一步探索LLMs在其他生物医药领域的应用，以及如何提高预测结果的解释性和可靠性。通过这样的探索，有望为药物发现和药物开发带来革命性的变化。从而加速预测药物从实验室到临床的转化过程，并开发出更有效、更安全的治疗方法。

原文

Wei, J., Zhuo, L., Fu, X., Zeng, X., Wang, L., Zou, Q., & Cao, D. (2024). DrugReAlign: a multisource prompt framework for drug repurposing based on large language models. BMC biology, 22(1), 226.

数据和代码

https://github.com/kkkayle/DrugReAlign

本文作者：尉金行

责任编辑：许燕红

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507388&idx=2&sn=f04d6422773062967cb60d64b0eb8722

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉