8.5/Q1,伊朗德黑兰大学miRNA组+机器学习释放microRNA的潜力:机器学习识别心肌梗死诊断的关键生物标志物

文摘   2024-07-28 18:50   陕西  

在这项研究中,我们旨在使用集成生物信息学和机器学习分析来识别一组关键的miRNA 生物标志物。我们合并并分析了来自基因表达综合 (GEO) 数据库的三个基因表达数据集,该数据库包含来自心肌梗死 (MI)、稳定冠状动脉疾病 (CAD) 和健康个体的外周血单核细胞 (PBMC) 样本。此外,我们根据它们的受试者工作特征曲线下面积 (AUC-ROC) 选择了一组 miRNA,用于分离 CAD 和 MI 样本。我们设计了一种两层样本分类架构,其中第一层将健康样本与不健康样本隔离开来,第二层对稳定的CAD和MI样本进行分类。我们使用两种生物标志物集训练了不同的机器学习模型,并在测试集上评估了它们的性能。MicroRNA(miRNA)是一类内源性单链非编码小RNA分子,它们能够在细胞中进行转录增殖。在某些病理和生理条件下,miRNA通常会出现异常表达。最近的研究表明,miRNA的表达差异可能使其成为肿瘤检测和筛查的潜在生物标志物,因为在包括NSCLC在内的多种人类肿瘤中,它们的表达水平均存在差异。例如,无论是单独还是与其他miRNA联合检测,miRNA-24在血清等体液中的表达都各不相同,这使得其非常适合作为恶性肿瘤的非侵入性诊断手段。因此,小科非常推荐 大家挖掘miRNA数据,循环miRNA作为生物标志物大有可为,无论是文章发表还是科研转化,都很有临床意义。

文章标题:Unlocking the potential of microRNAs: machine learning identifies key biomarkers for myocardial infarction diagnosis

中文标题:释放microRNA的潜力:机器学习识别心肌梗死诊断的关键生物标志物

发表期刊:Cardiovascular Diabetology

发表时间:2023年9月11日

影响因子:8.5/Q1

研究背景

心血管疾病(CVDs)是人类死亡的主要原因,占全球所有死亡人数的32%。据估计,约85%的CVD死亡是由心肌梗死(myocardial infarction, MI)引起的。心肌梗死是一种急性冠脉综合征,其特征是冠状动脉突然阻塞和狭窄,随后出现心肌缺血,导致广泛的心肌细胞损伤和坏死。许多研究调查了miRNAs作为MI生物标志物的潜力,揭示了有希望的发现。例如,miR-1已被提议作为MI的潜在生物标志物。机器学习(ML)的出现和应用一直是推进科学研究的一个令人兴奋的前景。机器学习为合并和解释不同类型的组学数据提供了创新方法,从而识别出新的生物标志物。这些生物标志物可以帮助精确预测疾病、对患者进行分层和开发新的治疗方法

数据来源

来自(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)。为了在 MI、健康对照和 CAD 样本之间获得稳健的分类性能,每组都需要足够大的样本量。为此,选择了 GSE59867 数据集,因为它包含大量 MI 和 CAD 样本。为了提供同样大的健康对照集,还包括包含健康样本的 GSE56609 和 GSE54475数据集。

结果解析

1. 预处理
样品的PCA图如图所示。1A,B.在主要数据中将健康样品与CAD或MI样品分离,并在进行fRMA后分离。在RLE图中,在执行fRMA之前,所有样本的数据集均值之间存在明显差异。1在进行fRMA后,所有数据集在RLE图中重新排列为大约0。1此外,分位数间距离有明显变化,但值仍大于0.1。

2.差异表达分析

DEGs总表达、上调和下调的DEGs和差异表达的miRNAs。在MI/healthy和CAD/healthy比较的DEGs中,has-miR-186-5p、has-miR-32-3p和has-miR-21-3p被鉴定为差异表达的miRNA。在MI/CAD比较中,唯一差异表达的miRNA是has-miR-186-5p。

3.筛选hubgene

MI与健康样本之间有860度。其中,与健康组相比,心肌梗死组323个上调,537个下调。在CAD和健康组的比较中,我们发现CAD样本中有670个DEGs,其中262个和408个DEGs分别上调和下调。MI组和CAD组的DEGs数量为260个,MI样品中上调和下调基因的数量分别为144个和116个。

4. DEGs的GO和KEGG富集分析
为了探索DEGs的生物学分类,我们对MI/health和CAD/healthy DEGs进行了GO和KEGG通路富集分析。对于MI/healthy,BP类别的GO富集分析表明,DEGs在“免疫应答调节信号通路”、“淋巴细胞分化”、“免疫应答调节细胞表面受体信号通路”和“参与免疫应答的白细胞激活”中富集。

5. 差异表达的miRNA
每层中每个miRNA的ROC曲线如图所示。6.采用logistic回归模型,has-miR-21-3p、has-miR-32-3p和has-miR-186-5p分离健康和不健康样本的AUC-ROC值分别为0.98、0.99和0.90。6在has-miR-21-3p、has-miR-32-3p和has-miR-186-5p的测试集上,每种miRNA将样本分为健康和不健康组的准确度分别为0.92、0.98和0.89。用于分类MI和CAD样品的每种miRNA的ROC曲线如图所示。

6. 第一层用于分离健康和不健康样本

尽管单个miRNA在该层中具有可接受的性能,但将它们作为一个集合使用可以进一步提高其预测价值。SVM 模型的 ROC 曲线,其中 RBF 核用所有三个 miRNA 训练。该模型的分类性能优于单个miRNA,该模型的AUC-ROC为1,在测试集上的准确率也为1。给出了模型的混淆矩阵。

7. 第二层用于分离 MI 和 CAD 样品
使用三种差异表达的miRNA的表达值训练不同的模型。模型的AUC-ROC和测试集的精度如图所示。9. 从AUC-ROC和精度的角度来看,最好的模型是具有线性核的SVM模型。该模型及其预设值的 AUC-ROC 和精度分别为 0.93 和 0.82。该模型针对 C 和 gamma 超参数进行了超调,因此模型表现出更好的性能。超调谐模型的ROC曲线如图所示。7乙。对于该模型,AUC-ROC达到0.95,精度提高到0.85。此外,该模型在测试集上的灵敏度和特异性分别为 0.91 和 0.71。

8. 第一层用于分离健康和不健康样本
使用选定的集合,训练了具有 RBF 内核的 SVM 模型,以分离健康和不健康的样本。该模型的ROC曲线如图所示。模型在测试集上的AUC-ROC和精度均为1。

9. 第二层用于分离 MI 和 CAD 样品
为了找到这组miRNA的最佳模型,使用其预设值训练了不同的模型。测试集的AUC-ROC和精度结果。从AUC-ROC的角度来看,最好的模型是具有线性核的SVM,从精度的角度来看,它是具有RBF核的SVM模型。对于SVM-线性模型,AUC-ROC和精度分别为0.93和0.82;对于SVM-RBF,这两个值分别为0.92和0.84。两种模型都进行了超调优,其最佳性能的 ROC 曲线。SVM-线性模型的AUC-ROC和精度分别修改为0.92和0.88。对于SVM-RBF,这些值分别增加到0.96和0.94。SVM-线性模型和SVM-RBF模型的灵敏度分别为0.91和0.97;其特异度分别为0.79和0.86。

文章小结
通过将 MI 样本与健康样本和 CAD 样本进行比较得出了一组 miRNA 生物标志物。我们发现,SVM模型在第一层和第二层(对MI/CAD样本进行分类)中表现最好,前者分离了健康和不健康的样本,后者对MI/CAD样本进行了分类。根据其AUC-ROC值选择的miRNA组在第二层表现更好。总体而言,我们的两层结构实现了 0.96 的精度。这表明结合生物信息学和机器学习技术的潜力,可以识别新的生物标志物并更深入地了解心肌梗死。

解码生信
解码生物信息分析最前沿文献和思路,提供专业的生信分析服务:思路设计,生信分析,代码复现,欢迎老师们定制分析服务
 最新文章