Nat. Commun. | 药物发现中自动生成生物证据链

学术   2024-08-12 00:01   韩国  

DRUGAI

今天为大家介绍的是来自Saatviga Sudhahar团队的一篇论文。用生物知识图谱解释药物重新定位的预测是一个具有挑战性的问题。使用符号推理的图谱补全方法预测药物治疗和相关规则,以生成代表药物治疗基础的证据。然而,生成的大量生物学上无关或在疾病生物学背景下没有机制意义的路径会限制其实用性。作者采用了一种基于强化学习的知识图谱补全模型,结合自动过滤方法,生成最相关的规则和生物学路径,解释预测药物与疾病的治疗关联。在这项工作中,作者验证了该方法在脆性X综合症的临床前实验数据中,展示了自动提取路径与实验得出的药物Sulindac和Ibudilast对选定基因和通路的转录变化之间的强相关性。此外,作者还展示了在两个案例研究中,该方法减少了生成路径的数量,对于囊性纤维化减少了85%,对于帕金森病减少了95%。

发现安全有效的罕见病治疗方法是一个巨大的挑战,首先需要收集、规范化和整合大量分散和多样化的数据源,这些数据源为药物发现提供信息。涉及到7000多种罕见病和遗传性疾病,重要信息通常分散在各种数据库中,包括临床症状、受影响的通路、动物模型和潜在治疗方法。为了解决这个问题,可以利用人工智能驱动的计算工具和知识来互连这些多样化的数据,从而预测创新的药物候选物。通常,现有的计算方法会生成大量治疗假设,需要专门疾病领域的专家进行劳动密集型的手动筛选。这一过程需要大量时间来确定药物和疾病之间的治疗关联,因为确定作用机制对于建立临床可行性至关重要。


知识图谱(KG)在解决生命科学中的复杂问题(包括罕见病的药物发现)方面被广泛使用。知识图谱是由头实体-关系-尾实体(h, r, t)三元组构成,其中实体对应节点,关系对应连接实体的链接。生物知识图谱由生物节点(如药物、疾病、基因、通路、表型、蛋白质等)及其之间的链接构成。知识库补全(KBC)是指在给定头实体h和关系r的情况下预测尾实体t,或者在给定尾实体t和关系r的情况下预测头实体h,也可以用于预测头尾实体之间未见过的关系。过去已经提出了多种KBC方法,这些方法学习实体和关系的连续向量空间表示。


现实世界的限制包括成本、试验可用性和能力,这意味着每种疾病只能在临床前实验中测试有限数量的药物预测。这种限制需要药物发现科学家设计方法来过滤药物预测,优先考虑那些在临床前实验中更有可能显示出效力和安全性的药物。有多种策略可以提高成功率,但归根结底在于生物学层面理解拟议治疗对患者的治疗益处。最简单的层面上,这归结为建立疾病生物学机制与药物靶向生物学之间的重叠。作者称这一过程为建立“治疗性合理性”,即提供一个全面的合理性,展示药物如何可能对患者有用的全貌。这考虑到当前对疾病生物学的完整理解,包括已知的致病基因和受扰的生物通路,并通过结合多种技术来建立,这是一组在知识图谱中解释疾病与目标药物之间关系的路径,通过生物实体连接。


由模型做出的预测的可解释性是通过相对较少的方法来解决的,通常基于逻辑和路径的方法,这些方法能够为用户提供明确的解释路径,可能作为实验测试预测的依据。逻辑规则推理在诸如马尔可夫逻辑网络(MLN)等领域得到了应用,但这些技术通常无法很好地扩展到现代大规模知识图谱。最近,符号模型通过强化的基于路径采样的知识图谱推理方法,将其视为神经驱动的多跳问题来进行预测。在学习阶段学习的规则会以概率注释,表示使用该规则预测正确事实的概率。以下是一个规则的示例,解释了化合物X如何治疗疾病Y。

化合物X与基因A结合,基因A被化合物B激活,化合物B在疾病Y的试验中。


该规则可以简化如下:


图1:由Healx KG生成的示例规则和相应的证据链


给定一种对囊性纤维化的化合物预测Lumacaftor以及支持该预测的上述规则,作者从Healx知识图谱中生成了一条路径或证据链,如图1a所示。图1b显示了从图中生成的其他规则及相应路径的几个示例,它们都展示了药物与疾病连接的治疗基础。这种方法的一个局限性是单一药物预测可以生成大量证据链,人工专家在合理时间内无法审阅。然而,在疾病的生物学背景下,许多与预测相关的规则是无关的、冗余的或对建立疗效或安全性的分子理解没有帮助(以下简称无信息)。这种类别的证据链无法提供治疗作用、效力或安全性的相关信息,也无法在药物发现计划中辅助决策,可以放心丢弃。例如,如图1c所示,为药物Tobramycin生成的证据包含两个与囊性纤维化相关的祖先关系,其中一个是“罕见遗传病”,另一个是与非常常见的疾病“白内障”的“治疗”关系,这使得在尝试理解潜在的囊性纤维化治疗时,该链是无信息的。


证据链生成工作流程

图2:证据链生成工作流程


图2展示了整个方法的完整工作流程图。它从预测开始,经过治疗假设生成、收集生物学相关性,最后生成证据链。图中提供了有无自动过滤的结果对比,展示了此过滤过程对证据链的影响。


预测和规则生成

作者从Healx KG的数据输入开始,如图2a所示。AnyBURL和一组其他药物预测模型在这些数据上进行训练,并生成预测。AnyBURL为每个预测生成一组规则。从预测模型中选择前n个预测,或者从前n个中选择特定的感兴趣预测用于假设生成。在选择用于治疗假设生成的预测后,作者获取AnyBURL为这些预测生成的相关规则。随后,可以启动自动过滤过程。


无过滤的假设生成

一旦从前一步中建立了一部分预测及其对应规则,作者通过查询图中所有可能的路径,按照建议预测的规则生成证据链,如图2b所示。作者展示了如果不应用过滤器,路径如何生成,即只搜索规则中提到的节点类型的路径。在图2b的黑框中,作者称之为“无任何过滤器应用的证据链”。


过滤后的假设生成

这里,自动过滤模型应用于一部分预测及其对应规则,如图2d所示。模型首先应用基于规则的过滤器,如前所述,无信息的规则不会提供有用的生物学相关治疗依据,这将自动消除由较不相关规则建议的药物预测。只有结果预测和规则才能进入显著路径过滤、演绎路径构建和基因/通路过滤阶段。


生物学相关性收集

如图2c所示,作者对给定的疾病进行了广泛的概况研究,识别了基因-疾病关联(GDA)和特定于感兴趣疾病的生物通路,涉及囊性纤维化、帕金森病和FXS。GDA和通路的来源包括Genomics England PanelApp、Open Targets、Pharos、Geneshot和Healx KG。得到的基因和通路被输入流程中的基因/通路过滤器,为自动证据链过滤过程提供生物学背景。


实际中的基于规则的过滤

最后,如图2d所述,应用所有过滤器后,作者得到了减少数量的证据链。总结来说,作者通过计算预测与疾病之间的所有可能的2跳路径、AnyBURL为预测生成的所有规则路径,并扣除管道生成的最终路径,来计算自动过滤所实现的减少量


脆性X体综合征病例研究

图3:Ibudilast和Sulindac产生的证据链,并与临床前实验数据进行了验证


作者使用FXS临床前实验数据验证了自动过滤管道的实用性。作者将提取的FXS证据链与可用的临床前实验数据进行比较,以确认管道自动提取的机械意义和有意义的信息具有用于指导临床前决策的潜力。作者分析了Sulindac和Ibudilast处理的FXS小鼠模型的基因表达水平和推断的通路,并检查基因表达水平是否符合证据链的预期。图3a和图3b展示了自动生成的证据链,显示了每种药物的通路和显著基因,并由专家审查并认为重要。


在图3a中,作者观察到cAMP(环腺苷酸)信号传导和cGMP(环鸟苷酸)-蛋白激酶G(PKG)信号传导通路已被作者的路径提取,在连接Ibudilast与FXS的路径中。磷酸二酯酶(PDE)抑制剂Ibudilast已被证明可抑制PDE3A(cAMP)、PDE10(cAMP和cGMP)、PDE11(cGMP)和PDE4(cAMP),对PDE4表现出优先效力,并已显示出在大脑中有多种有益效果。FXS患者的cAMP水平降低,多项临床前和临床研究支持PDE4抑制作为FXS的可行目标。


证据链还预测Ibudilast通过前脑啡肽(PENK)作为可能的FXS治疗。PENK是内源性阿片多肽激素,与神经炎症有关,并被认为是血管性痴呆的早期指标。尽管FXS中的神经炎症仍是一个有争议的话题,FXS小鼠的微胶质和星形胶质细胞在激活时被证明会产生升高的促炎细胞因子反应。作者发现Ibudilast处理显著减少了PENK表达,表明神经炎症通路减少。Ibudilast被报道通过cAMP信号传导、TLR4抑制具有抗炎特性,并被证明可保护免受炎症的常见前体活性氧的损害。


证据链分析还显示Sulindac可能影响MAPK3信号传导通路,该通路与FXS的症状和病理生理有关。特别是Minocycline,在FXS的临床前模型中通过改善脊柱成熟显著改善了社交和认知缺陷。在图3b中,Minocycline和Sulindac共享抑制ERK1(MAPK3)活性及其后续下游信号传导级联的特性,进一步得到已发表研究的支持。


Clonidine,α2肾上腺素能受体激动剂,已被证明能够有效治疗FXS患者的多动症症状。它还被有效用于管理物质戒断。Clonidine部分通过调节MAPK3下游信号传导起作用。此外,MAPK3信号传导还涉及物质戒断的生理过程。如图3b所示,Clonidine与MAPK3通过物质戒断和FXS的联系支持了Sulindac作为FXS可能治疗手段的理由。


帕金森病和囊性纤维化案例研究

图4:将已批准的治疗方法与病例研究疾病联系起来的证据链


图4展示了为囊性纤维化(图4a)和帕金森病(图4b)预测的几种批准治疗方法生成的证据链。囊性纤维化(CF)是一种罕见的遗传性常染色体隐性疾病,由囊性纤维化跨膜传导调节因子(CFTR)基因突变引起。值得注意的是,图4a中也可以观察到CFTR对囊性纤维化的重要性,这清楚地展示了作者的证据链方法识别疾病最相关信息的能力。


图4a显示了一些强有力的证据链,表明乙酰半胱氨酸可能有助于解决囊性纤维化患者常见并发症肺纤维化的症状,暗示它可能是一种潜在的治疗方法。然而,在图4c中,很难确定乙酰半胱氨酸是否是治疗囊性纤维化的可行候选药物,因为图4c中的证据链更为间接。图4c中的第一个证据链表明乙酰半胱氨酸和Tenapanor都在被测试作为终末期肾衰竭的治疗方法。与图4a中展示的证据相比,图4c中展示的证据并不那么强或生物学相关。然而,对于没有图4a中展示的那种强直接证据的化合物和疾病,图4c中展示的较少生物学相关的证据可能仍为进一步实验提供有用的见解。


帕金森病(PD)是一种以炎症和氧化应激为特征的神经退行性疾病,这些因素在其发病机制中起关键作用。查看图4b中的预测和相应的证据链,Cabergoline被建议作为一种潜在的治疗方法,主要是由于其与高催乳素血症和JAK/STAT信号通路的联系。Cabergoline具有强效的D2选择性,目前是治疗高催乳素血症的有效方法。帕金森病的病理生理学与神经炎症增加有关,例如通过JAK/STAT通路的IL6信号传导。Rivastigmine是一种用于治疗阿尔茨海默病的胆碱酯酶抑制剂,根据图4b的证据链分析,它也被预测为治疗帕金森病的方法。


讨论

作者的自动化方法在脆性X综合征、帕金森病和囊性纤维化等药物发现中有效地提取了有用的证据链。该方法通过减少无信息路径而不损失生物信号,使AnyBURL等知识库构建(KBC)模型在药理学上的合理性得到验证。结果显示,证据链与实验衍生的转录变化强相关,且自动提取了最相关的基因和通路。这一方法可以跨多种疾病应用,消除手动策展规则或证据的需要,显著降低实验时间和成本。未来工作将通过添加置信度评分进一步减少路径空间。

编译 | 于洲

审稿 | 曾全晨

参考资料

Sudhahar S, Ozer B, Chang J, et al. An experimentally validated approach to automated biological evidence generation in drug discovery using knowledge graphs[J]. Nature Communications, 2024, 15(1): 5703.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章