近日,中国科学院上海药物研究所郑明月课题组,在Cell Genomics期刊发表题为Identifying compound-protein interactions with knowledge graph embedding of perturbation transcriptomics 的研究论文。该研究提出基于知识图谱的计算模型PertKGE,以数据驱动的形式从微扰转录组数据中解耦出化合物-蛋白质相互作用(CPI)。化合物和蛋白质是药物发现中两个最基本的实体,建模它们之间的相互作用是药物发现的基础。尽管目前仍然没有一种通用的计算方法可以预测和解释所有的化合物-蛋白质相互作用,但是研究人员们可以利用不同的生物数据、从多种研究视角构建化合物-蛋白质相互作图谱。在药物发现领域,微扰转录组学联系起了药物发现中最重要的实体(化合物)和组学数据之间的联系,提供了化合物微扰受试体(单细胞、细胞系、病人)后产生的直观微扰结果,为解耦化合物-蛋白质相互作用(CPI)提供了全新的视角。然而由于生物数据的噪声、细胞稳态以及转录组表达的动态变化等原因,CPI通常不会直接反应在差异表达基因上,这为微扰转录组数据的分析带来了挑战。在该项研究中,研究人员提出了基于知识图谱的PertKGE模型(图1)。PertKGE模型受启发于微扰组学分析中的因果推断模型以及知识图谱在药物发现中的广泛应用,从因果视角来构建新型的生物知识图谱,其中包含三个组成部分:(1)原因部分(Cause):化合物与受试体中的特定靶标发生CPI;(2)过程部分(Process):生物系统中多层级的调控事件(蛋白、RNA、DNA级别调控)对CPI信号进行放大;(3)结果部分(Effect):微扰结果以差异表达基因的形式被观测。在此基础上,结合知识图谱嵌入技术来建模因果链接,从而达到从差异表达基因中解耦CPI的目的。广泛的计算实验表明PertKGE在化合物冷启动和靶标冷启动场景中均取得了最好的CPI预测性能,并且其通过因果策略引入的多级调控事件缓解了CPI数据集中代表性偏差对模型学习的影响,从而大幅提高了预测的可靠性。此外,研究团队将PertKGE整合进基于表型和基于靶标的药物发现流程中,发现了TNKS抑制剂K-756的新靶标ENPP1,为其独特的抗肿瘤免疫效应提供了分子层面的机制解释(图2);以10.8%的高命中率为治疗结直肠癌和胰腺癌的新型靶标ALDH1B1筛选到了5个具有全新骨架的苗头化合物。在这项研究中,研究团队将CPI预测任务对应到药物发现的真实场景中,从计算模拟和实验验证两方面证明了PertKGE在药物发现流程中的作用,为CPI图谱的构建和推理提供了一种全新的策略。中国科学院上海药物研究所硕士倪圣焜、孔祥泰、陈正阳和中国科学技术大学联培博士生张莹莹为本文的共同第一作者。中国科学院上海药物研究所郑明月研究员、张素林副研究员与李叙潼副研究员为论文通讯作者。原文链接: https://doi.org/10.1016/j.xgen.2024.100655
制版人:十一
BioART战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。