魏猛猛,王磊,尤著宏等 | 生物知识图谱融合多源特征的circRNA与miRNA相互作用预测

文摘   科技   2024-08-10 12:00   山东  

研究团队

魏猛猛,王磊,李政伟:中国矿业大学

尤著宏:西北工业大学

赵博伟,苏小芮:中国科学院

李扬:合肥工业大学

魏雨:西京学院

文章下载

Mengmeng WEI, Lei WANG, Yang LI, Zhengwei LI, Bowei ZHAO, Xiaorui SU, Yu WEI & Zhuhong YOUBioKG-CMI: a multi-source feature fusion model based on biological knowledge graph for predicting circRNA-miRNA interactions. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4098-3



研究意义

CircRNA作为miRNA海绵积极参与许多病理过程。越来越多的实验证据表明,circRNA有潜力作为疾病诊断和预后的标志物,尤其是在癌症中。因此,准确预测circRNA-miRNA相互作用对于缩小生物实验范围和疾病治疗至关重要。由于生物实验耗时且成本昂贵,迫切需要开发计算方法来加速研究

本文工作

本文提出一个基于生物知识图谱的预测模型BioKG-CMI,该模型利用多源特征预测circRNA-miRNA相互作用。BioKG-CMI流程图如图1所示。首先,BioKG-CMI利用circRNA和miRNA的序列信息进行亚细胞定位生成负样本。随后,构建包含circRNA和miRNA关系的生物知识图谱,学习实体和关系的特征表示。然后,计算同类节点的空间邻近度,利用自然语言处理算法BERT(Bidirectional Encoder Representations from Transformers)学习序列特征的表示。最后,将这些特征融合,使用AdaBoost分类器预测潜在的相互作用关系。结果表明,通过亚细胞定位生成负样本,采用多特征融合策略,可以有效提升模型的预测性能。
本文的创新点如下:
(1) 提出预测模型BioKG-CMI,通过融合分子多源特征来学习circRNA和miRNA的综合表征。
(2) BioKG-CMI利用亚细胞定位生成更符合生物逻辑的负样本,显著提升了预测性能。
(3) 通过对比实验,证明了BioKG-CMI的可靠性和准确性,可以为生物实验提供高可信度的候选样本。

实验结果

本工作采用5倍交叉验证评估模型,BioKG-CMI在CMI-9905和CMI-9589数据集上5倍交叉验证的结果如表C1和表C2所示。在CMI-9905数据集上,Acc.、Prec.、Spec.、Rec.、F1、MCC、AUC和AUPR分别达到了82.19%、94.81%、68.23%、96.14%、79.23%、67.15%、0.9063和0.9278。在CMI-9589数据集上,Acc.、Prec.、Spec.、Rec.、F1、MCC、AUC和AUPR分别为85.61%、97.29%、73.26%、97.96%、83.58%、73.5%、0.9463和0.9581。BioKG-CMI在CMI-9905和CMI-9589数据集上进行5倍交叉验证的ROC曲线和PR曲线如图C1和图C2所示。

我们在CMI-9905数据集上分别利用亚细胞定位和随机生成的负样本进行5倍交叉验证,具体对比结果如图C3所示。结果表明,BioKG-CMI通过亚细胞定位生成负样本的预测性能优于随机生成负样本。

我们将BioKG-CMI提取的多源特征分为三类:序列特征(SF)、空间邻近度(SP)和知识图谱(KG)特征。轮流删除这三类特征,观察对预测结果的影响。5倍交叉验证下的平均实验结果如表C3所示。结果表明,融合多源特征的模型预测性能达到最优,未引入知识图谱特征的模型性能最差。





中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章