MRNDR: 基于多头注意力的药物重定位推荐网络

文摘   2024-05-15 06:02   美国  


  榴莲忘返 2014  


导读

MRNDR 模型能有效预测药物与疾病的关系,促进药物重定位。

药物开发过程非常昂贵,药物重定位是一种提高新药开发效率的有前景的方法。虽然该方法可以避免昂贵的药物毒性和安全性实验,但仍需大量时间进行特定疾病的精确疗效实验,从而消耗大量资源。因此,若能对选定药物的潜在其他适应症进行预筛选,将能节省大量成本。

为此,本研究提出了一种名为 MRNDR(基于多头注意力的药物重定位推荐网络)的药物重定位推荐模型。该模型作为药物-疾病关系的预测工具,利用了多头自注意机制,展现了强大的泛化能力。这些能力不仅源自大规模的训练数据集 BioRE(生物推荐实体数据),还得益于提出的 WRDS(加权表示距离分数)算法。

MRNDR 模型在 GP-KG 公共数据集上取得了新的 SOTA 结果,MRR(平均倒数排名)得分为 0.308,Hits@10 得分为 0.628,相较于当前表现最佳的模型分别提升了 4.7%(MRR)和 18.1%(Hits@10)。此外,为进一步验证模型的实际效用,研究者检查了 MRNDR 推荐的未出现在训练数据集中的结果。这些推荐中的一些已在 ClinicalTrials.gov 和中国临床试验中心进行了临床试验,间接证实了 MRNDR 的适用性。

研究中使用的主要符号解释

BioRE 数据集

BioRE 数据集从多个医学和生物学网站收集,包括 DrugCentral、Bio-GRID、KEGG、Reactome 和 Pubtator 等【27-31】。该数据集涵盖了常见的生物医学实体,如药物、疾病、靶点、通路及其相互关系。这些关系包括药物与疾病、药物与靶点、疾病与靶点、靶点与通路之间的关联。由于数据来源多样,存在大量重复和语义相同的实体,因此严格的数据预处理至关重要。

数据处理步骤

  1. 去重:移除重复实体,确保每个实体在数据集中仅出现一次。
  2. 格式化:进一步精炼格式不正确的实体,包括去除特殊字符、标点符号、空格和不必要的字符。
  3. 语义整合:使用实体词 ID 和一些手动干预来合并语义相似的实体,解决不同数据源中同一概念的表达不一致问题。

通过这些处理步骤,研究者成功开发了高质量的 BioRE 数据集。该数据集包括广泛的实体,如药物、疾病、靶点和通路,具体见表 2。

数据集比较

研究者使用 GP-KG 公共数据集(包含约 35 万个基因关系)进行比较。GP-KG 由公开的表型级数据库、基因组级数据库和文本挖掘知识库组成,广泛用于药物重定位研究【32-34】。BioRE 数据集不仅覆盖基因关系,还提供了总计 160 万个关系条目,其中 108,345 个条目专门用于药物-疾病关系。

MRNDR 模型总体结构

MRNDR 模型的主要目标是通过利用现有数据连接来预测药物与疾病数据之间的隐藏关系。模型结构主要分为三个部分:

  1. 嵌入层:用于编码药物和疾病。
  2. 多头自注意力机制:自动对两种表示进行加权。
  3. 评分计算层(WRDS):最终计算关系得分。
MRNDR 的整体结构

嵌入层

嵌入层的目的是将药物和疾病数据表示为向量。研究者通过一个映射字典给每个疾病和药物分配唯一的索引,然后通过嵌入层将离散的索引表示转换为连续的表示向量。

多头自注意力机制

多头自注意力机制通常用于处理序列输入数据的任务,如自然语言处理(NLP)任务。该机制允许序列中的不同标记相互作用,并动态改变标记之间的权重比例,从而在不同场景中结合适当的权重。研究者在药物-疾病关系预测中引入了多头自注意力机制,这种机制能够有效增强预测准确性。

加权表示距离评分(WRDS)

WRDS 是一种用于测量药物和疾病之间关系的评分方法,公式如下:

其中, 和()是超参数,()和()分别代表药物和疾病的向量,()表示向量之间的空间距离,()表示向量之间的空间角度。通过结合这两个分量,研究者得出一个综合评估药物-疾病关系的评分函数。实验结果表明,结合这两个分量的评分函数能够实现更高的预测准确性。

模型参数选择与验证

模型参数选择对模型准确性和有效性至关重要。

优化隐藏层维度:实验表明,当隐藏层维度在 128 以下时,增加多头数量显著提升模型性能;但超过 128 后,性能提升趋于平缓。因此,选择 128 作为隐藏层最佳维度。

平衡模型层数:在固定模型层数的情况下进行分析,结果显示增加隐藏层维度可逐步提升模型性能,多头数量较高的模型表现更佳。然而,多头数量的增加也会提升计算复杂度,因此选择 8 头以平衡性能和效率。

选择多头数量:在固定头数的情况下进行分析,发现少于 32 头和高隐藏层维度的模型表现更好。最佳配置为 4 层、128 隐藏层维度和 8 头,既优化预测性能又维持高计算效率。

模型对比

MRNDR 模型在 MRR 和 Hits@N 指标上分别优于最先进模型 4.7%(MRR)、4.8%(Hits@3)和 18.1%(Hits@10),在 Hits@1 指标上超越 ConvE 模型 4.5%。

BioRE 数据集上的关系遮蔽与恢复验证

通过遮蔽高置信度药物-疾病对关系并进行预测,结果表明当已知关系覆盖率降低时,模型预测效果更佳,最高召回率达 100%。

消融研究

关闭多头注意力机制后,模型在所有评估指标上性能下降 8.1%。WRDS 算法两部分分别进行消融实验,结果表明 α 和 β 参数均有效,完全禁用多头注意力机制进一步恶化预测性能。

在 PubMed 和临床试验网站上验证模型推荐的药物-疾病关联,结果显示推荐药物在相关文献和临床试验中均有支持,验证了模型的有效性。

VPDRR 软件系统分为四个主要模块,分别负责表格展示、数据检索、快速文献定位和知识图谱可视化,帮助研究人员快速获取支持文献,提高药物重定位研究效率。

图 1: 不同文章数量中的药物-疾病对分布

图 3: 嵌入层将药物-疾病数据转换为向量

图 12: VPDRR 软件系统

表 3: 数据关联的总体预测性能

表 4: 文献验证示例

表 5: 罕见推荐示例

表 6: 临床试验的临床验证示例

表 7: 中国临床试验注册中心的临床验证示例

MRNDR 模型在药物重定位中的应用与改进

MRNDR 模型在药物重定位领域取得了重要进展,具有独特的创新方法和潜在应用。其主要特点包括:

创新方法与数据利用增强

MRNDR 模型通过多头自注意力机制实现药物-疾病关系预测前的预加权策略,自动学习药物-疾病对中的贡献比率,使用户可以根据特定兴趣选择结果,从而增强模型的实用性。数据整合策略的扩展,通过结合来自 Drug-Central、BioGRID、KEGG、Reactome 和 Pubtator 等多个来源的数据,并采用自动和手动数据清洗技术,使药物-疾病相互作用的理解更加鲁棒和细致。

高级分析能力与新的评分函数

在 BioRE 数据集上的训练使 MRNDR 模型的泛化能力显著提升,并集成到 VPDRR 软件中,不仅提供药物重定位建议,还提供相关文献支持,提升了用户体验和搜索效率。新开发的 WRDS(加权表示距离评分)函数通过结合两种基本向量距离计算方法,为药物-疾病关系的评估提供了精细和微妙的衡量标准,使模型成为研究者的有力工具。

实际应用与用户可访问性

MRNDR 模型适中的参数量使其能够集成到离线软件应用中,结合高效的计算性能,适用于快速和大规模的药物重定位建议。VPDRR 软件用户友好的界面进一步提升了其可访问性,适合具有不同计算专业水平的用户。

研究局限性

尽管 MRNDR 在药物重定位中取得了较为先进的成果,仍面临若干显著问题。首先,现有的从头初始化和训练疾病或药物表示向量的方法可能导致模型因数据限制而产生潜在的认知偏差。此外,MRNDR 编码的信息相对有限,药物-疾病对关系预测往往与具体实验值相关,未来研究需补充这些方面。多头自注意力机制的预预测加权平衡中,多头之间缺乏互动,往往捕捉到相似特征,导致参数冗余。最后,尽管 MRNDR 能够有效推荐药物的相关疾病并通过 VPDRR 快速提供相关文献,仍需用户进一步阅读和分析建议文献以指导未来实验方向。如何快速从文献中提取最相关的内容仍是 MRNDR 在下一阶段需解决的关键挑战。

未来工作

针对上述局限,未来研究将重点优化 MRNDR 的嵌入层和药物-疾病对加权模块。具体而言,在嵌入层方面,MRNDR 将整合更广泛的多模态数据,如 ADMET、药代动力学参数等实验数据,并利用 NLP 技术编码和整合来自文献、专利或新闻的文本描述。计划利用图神经网络(GNNs)在分子层面对药物化学结构进行详细建模,捕捉原子间相互作用及分子整体结构信息,并在药物-疾病预测层面提升分子级别表示,利用 GNNs 建模药物和疾病之间的相互作用和连接。

在加权模块方面,计划探索头剪枝技术,通过移除冗余或不重要的头,或采用类似 talking-heads 机制增强头之间的互动。此外,拟增强 MRNDR 的可解释性,通过精准定位相关文献或专利中的具体句子,快速指引到相关描述信息。拟更新的 VPDRR 软件不仅提供相关研究文献,还将识别这些文献中的具体参考,大大助力研究者。

总结

  • 本文提出了一种基于多头自注意力机制的药物重新定位推荐模型 MRNDR,对于药物开发具有重要意义。
  • MRNDR 模型通过利用大规模的生物数据集 BioRE 和新提出的 WRDS 算法,显著提高了药物-疾病关系预测的准确性。
  • 实验结果表明,MRNDR 在 GP-KG 公共数据集上的表现超过了现有的最佳模型,显示出其在药物重新定位领域的潜力和创新性。
  • 模型的实际应用验证,包括部分推荐结果已进入临床试验,进一步证明了 MRNDR 模型的实用性。

参考资料:
  • Data and code: https://github.com/Lindamansen/BioRE_dataset

  • Feng, X., Ma, Z., Yu, C., & Xin, R. (2024). MRNDR: Multihead Attention-Based Recommendation Network for Drug Repurposing. Journal of Chemical Information and Modeling, 64(7), 2654–2669. https://doi.org/10.1021/acs.jcim.3c01726IF: 5.6 Q1 B2

— 完 —

对相关内容感兴趣的读者,可以添加小编微信加入读者实名交流互助群添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向

点击这里 👉 关注我,记得标星哦~


榴莲忘返 2014
科研如榴莲,又臭又甜!
 最新文章