Nat. Med. | 治疗罕见疾病,哈佛医学院提出TxGNN用于药物再利用

学术   2024-10-28 00:01   韩国  

DRUGAI

今天为大家介绍的是来自哈佛医学院的Marinka Zitnik团队的一篇论文。药物再利用,即为已批准的药物寻找新的治疗用途,通常是一项偶然且机会主义的努力,旨在扩展药物在新疾病中的应用。药物再利用人工智能模型的临床效用仍然有限,因为这些模型过于集中于已有药物的疾病。在此,作者提出了TxGNN,一种用于零样本药物再利用的图基础模型,它能够识别出针对治疗选择有限或无现有药物的疾病的治疗候选药物。TxGNN基于医学知识图进行训练,利用图神经网络和度量学习模块,对17,080种疾病的潜在适应症和禁忌症药物进行排名。在与8种方法的基准测试中,TxGNN在严格的零样本评估下,将适应症的预测准确性提高了49.2%,禁忌症的准确性提高了35.1%。为了便于模型解释,TxGNN的解释器模块提供了透明的多跳医学知识路径,作为TxGNN预测依据的解释。对TxGNN解释器的人工评估显示,TxGNN的预测和解释在多种表现维度上,尤其在准确性之外的维度上,表现令人鼓舞。许多TxGNN的新预测与医生在大型医疗系统中此前做出的适应症外用处方高度一致。TxGNN的药物再利用预测准确、一致,并且可以通过多跳可解释的推理路径供人类专家进行研究。

目前,全球超过7,000种罕见疾病中,只有5-7%拥有FDA批准的药物。通过药物再利用,即通过发现新适应症扩大现有药物的使用范围,可以减轻全球疾病负担。药物再利用利用了已批准药物的安全性和有效性数据,能够加快临床应用,并减少开发成本。约30%的FDA批准药物获得了至少一个新的适应症,部分药物甚至累积了十多个适应症。然而,大多数药物再利用是偶然发现的,例如通过医生的适应症外处方或患者体验。


预测所有药物对所有疾病的疗效,可以帮助选择副作用更少的药物,设计更有效的多靶点治疗,并系统性地再利用现有药物。技术进步使得我们能够通过分析医学知识图谱,前瞻性地将药物匹配到新适应症。机器学习已用于分析分子互作网络,揭示疾病中受扰动的基因结构,并设计相应的治疗方法。


尽管计算方法为复杂疾病发现了有前景的再利用候选药物,但存在两大挑战:一是大多数疾病尚无已批准药物,特别是罕见疾病;二是再利用药物的适应症可能与其最初开发的用途无关。为了解决这些问题,本文提出了TxGNN模型,该图基础模型专为多疾病零样本药物再利用设计,覆盖了17,080种疾病,包括无治疗方案的疾病。TxGNN基于医学知识图谱训练,利用图神经网络将药物和疾病嵌入到一个优化后的表示空间中,从而进行零样本预测。TxGNN还包含解释器模块,提供透明的多跳路径以解释预测依据,其预测结果与临床适应症外处方高度一致。


模型预测及解释链接:

http://txgnn.org


模型部分

如图1b所示,零样本药物再利用指的是为没有或仅有少量治疗选择的疾病预测治疗候选药物。在数学上,模型输入药物-疾病对,输出药物对该疾病起作用的可能性。评估模型的金标准标签来自之前整理的医学知识图谱(KG),该图谱包含9,388个适应症和30,675个禁忌症,涵盖17,080种疾病,其中92%缺乏FDA批准的药物,主要涉及罕见和复杂疾病。KG还包括7,957种潜在的药物再利用候选药物,范围包括FDA批准的药物到正在临床试验中的实验性药物。

图 1


TxGNN模型的核心理念是,药物要么直接靶向疾病扰动的网络,要么通过疾病相关的网络间接传播治疗效果。在图1c中,TxGNN模型由两个模块组成:预测模块和解释模块。预测模块利用图神经网络,通过自监督预训练,在医学KG上生成有意义的表示。随后,通过微调,该模型能够处理不同的治疗任务,预测药物在多种疾病上的适应症和禁忌症,尤其是在没有或仅有少量治疗选择的疾病上做出零样本预测。解释模块使用GraphMask方法,生成一个稀疏但足够的子图,提取药物和疾病之间的多跳路径,帮助专家理解模型预测的依据。


为了实现零样本预测,TxGNN使用度量学习组件,通过利用疾病之间共享的遗传和基因组网络信息,将有标注疾病的知识转移到无标注的疾病上。模型通过生成每个疾病的签名向量并基于相似度来整合相关疾病的信息,从而生成一个预测结果。在此过程中,TxGNN能够有效总结相似疾病的知识,并将其应用于目标疾病的预测中。该模型不仅为疾病生成预测评分,还通过解释模块提供可解释的多跳路径,这些路径解释了药物与疾病之间的关联逻辑。


治疗匹配与零样本药物再利用

作者将TxGNN与八种方法进行了对比,这些方法包括网络医学的统计技术,如Kullback–Leibler(KL)和Jensen–Shannon(JS)散度,图论网络邻近性方法,扩散状态距离(DSD),以及最先进的图神经网络方法,如关系图卷积网络(RGCNs)、异构图转换器(HGT)和异构注意力网络(HANs),还有自然语言处理模型BioBERT。


首先,作者使用了评估药物再利用AI模型的标准基准策略,随机打乱药物-疾病治疗对,并将其中一部分作为保留集(图2c)。在这种策略下,保留集中的疾病在训练数据集中有一些药物适应症和禁忌症。因此,模型的推广目标是为已有部分药物的疾病识别治疗候选药物。

图 2


作者使用精确召回曲线下面积(AUPRC)作为评估指标,因为它衡量了模型在不同阈值下的召回率和精确度之间的权衡。在此设置下的实验结果显示,现有的八种方法中有三种方法的AUPRC超过0.80,HAN表现最佳,AUPRC为0.873。TxGNN的表现也与这些已有方法相似。在适应症预测中,TxGNN的AUPRC为0.913,比HAN提高了4.3%。


考虑到标准的评估策略不适合用于评估那些没有FDA批准药物的疾病,作者评估了模型在零样本药物再利用中的表现。作者首先随机保留了一组疾病,然后将其所有相关药物移至保留集(图2d)。在没有任何药物相似性数据的情况下,TxGNN表现明显优于所有现有方法。在适应症预测中,TxGNN比表现次优的方法在AUPRC上提高了19.0%,在禁忌症预测中提高了23.9%。TxGNN是唯一在所有场景中都能保持一致性能的方法。


零样本药物再利用在不同疾病领域的评估

为了评估药物再利用模型在这些具有挑战性的疾病上的表现,作者策划了一个严格的保留数据集,其中包含一组生物相关的疾病,称为“疾病领域”。对于每个疾病领域,作者从训练数据集中移除了所有药物适应症和禁忌症,以及一部分药物与其他医学概念之间的关系。该数据集评估了模型在分子数据有限且无现有药物的疾病中的表现(图3a)。

图 3


作者在严格的保留数据集上对TxGNN进行了基准测试(图3b–f),发现其在所有疾病领域的表现都优于现有方法。在九个疾病领域中,TxGNN在适应症预测上的相对AUPRC增益为0.5-59.3%(平均增益25.72%),在禁忌症预测上的增益为11.8-35.6%(平均增益18.67%)。


TxGNN药物候选以人为本的评估

为了评估TxGNN多跳可解释路径对专家评估的实用性,作者进行了一个试点研究,参与者包括临床医生和科学家。参与者包括五名临床医生、五名临床研究人员和两名药剂师(图4c)。在评估药物-疾病适应症预测时,要求参与者对TxGNN的16个预测进行评估,其中12个是准确的。作者记录了参与者对每个预测的评估准确性、思考时间和信心评分,共192次试验。用户研究平均耗时约65分钟,包括评估TxGNN的药物-疾病预测、填写可用性问卷和进行半结构化访谈。

图 4


在任务后的问卷和访谈中,参与者表示使用TxGNN解释器时的满意度更高(图4e),12人中有11人(91.6%)同意或强烈同意TxGNN提供的预测和解释有价值。相比之下,没有解释时,12人中有8人(75.0%)表示不同意或强烈不同意仅依赖TxGNN的预测。当包含TxGNN解释器时,参与者对正确预测的信心显著提高。一些参与者指出,多跳可解释的解释在检查TxGNN解释器识别的分子靶点交互时非常有帮助,并能指导潜在不良药物事件的评估。


TxGNN预测依据与医学证据的一致性

作者研究了TxGNN预测的药物及其多跳解释是否符合医学推理,针对三种罕见疾病进行了评估。该评估流程分为三个阶段(图5a)。首先,专家通过查询TxGNN预测器,识别可能用于某一特定疾病再利用的药物。TxGNN预测器提供了候选药物,并标明了预测的信心度及其相对于其他候选药物的排名。接着,使用TxGNN解释器来解释为什么选择该药物进行再利用,模型通过多跳的可解释路径展示了药物和疾病之间的关联。最后,收集并分析独立的医学证据,验证模型的预测及其解释。

图 5


首先,作者检查了TxGNN对克莱夫斯特拉综合征的预测。这是一种由EHMT1基因突变引起的罕见疾病,导致言语发育迟缓、自闭症谱系障碍和儿童肌张力低下,通常伴随发育不良的大脑和不活跃的神经通路。在查询TxGNN预测器时,唑吡坦被推荐为最有前景的药物再利用候选药物(图5b)。TxGNN解释器指出,唑吡坦对GABRG2的作用可能会降低自闭症易感性并改善前额叶皮层功能。


接着,作者研究了TxGNN对埃勒斯–当洛斯综合征的预测,这是一种罕见的结缔组织疾病,影响每10万人中1-9人。该疾病由编码胶原蛋白的基因(COL1A1和COL1A2)突变引起,表现为伤口愈合能力差和异常的疤痕。TxGNN预测器将维甲酸列为首选的药物再利用候选药物。维甲酸通过白蛋白(ALB)运输并靶向ALDH1A2,有助于缓解胶原蛋白的流失和炎症(图5c)。


最后,作者分析了TxGNN对一种罕见病——肾性抗利尿不当综合征(NSIAD)的预测。该疾病特征为水和钠平衡失调,由AVPR2基因突变引起。与充血性心力衰竭患者类似,NSIAD患者面临水潴留问题,并且该病症与AVPR2和NPR1基因密切相关。TxGNN预测器将亚硝酸戊酯列为前五的药物之一(图5d)。TxGNN解释器提示NSIAD与亚硝酸戊酯之间的关联通过AVPR2、充血性心力衰竭和NPR1基因连接。


使用电子病历评估TxGNN

TxGNN的强大性能表明,其新颖的预测,即尚未获得某种疾病临床批准但排名靠前的药物,可能具有潜在的临床价值。由于这些疗法尚未被批准用于治疗,因此没有现成的金标准来验证它们。鉴于临床上长期存在的适应症外药物处方实践,作者将疾病-药物对在健康系统电子病历(EMRs)中的共现富集作为潜在适应症的代理指标。


作者从Mount Sinai健康系统的医疗记录中整理出了一组包含1,272,085名成年人的队列,每名患者至少有一次药物处方和一次诊断(图6a-d)。在该队列中,40.1%为男性,平均年龄为48.6岁。作者选择至少有一位患者被诊断出的疾病,以及至少开给十位患者的药物,最终形成了包含478种疾病和1,290种药物的数据集。

图 6


在这些医疗记录中,作者通过测量特定药物用于某一疾病的几率与其用于其他疾病的几率之比,计算了疾病-药物对的共现富集,得出619,200个对数几率比(log(OR))值,并进行了必要的统计校正。作者发现,FDA批准的疾病-药物对的log(OR)值显著高于其他对(图6e)。


对于478种基于EMR表型的疾病,TxGNN生成了治疗候选药物的排序列表。作者排除了已经与该疾病相关的药物,将剩下的新候选药物分为:排名第1、前5、前5%和后50%,并计算了它们各自的平均log(OR)值(图6f)。作者进一步分析了TxGNN对威尔逊病的预测,这是一种罕见病,会导致儿童肝脏铜积累并引发肝硬化(图6g)。作者观察到,TxGNN对大多数药物的适应症可能性预测接近于零,只有少数药物显示出较高的适应症可能性。


讨论

药物再利用作为药物发现的一种方法,旨在解决开发新药的高成本、长周期和风险问题。传统的“单疾病-单预测模型”策略虽然提高了成功率,但大多数成功案例源自意外发现。作者提出通过多疾病预测策略来实现全面的药物再利用,特别是针对缺乏已知治疗方案的复杂、被忽视或罕见疾病。为此,作者开发了TxGNN图基础模型,专门用于解决数据和治疗选择有限的疾病。TxGNN能够进行零样本推断,预测从未见过的疾病的治疗候选药物,并生成可解释的多跳路径,帮助专家分析药物的潜在生物学反应。尽管表现出色,TxGNN的能力仍取决于医学知识图谱的质量,未来需解决数据偏差和更新问题。

编译|于洲

审稿|王梓旭

参考资料

Huang K, Chandak P, Wang Q, et al. A foundation model for clinician-centered drug repurposing[J]. Nature Medicine, 2024: 1-13.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章