在这项研究中,我们旨在使用集成生物信息学和机器学习分析来识别一组关键的miRNA 生物标志物。我们合并并分析了来自基因表达综合 (GEO) 数据库的三个基因表达数据集,该数据库包含来自心肌梗死 (MI)、稳定冠状动脉疾病 (CAD) 和健康个体的外周血单核细胞 (PBMC) 样本。此外,我们根据它们的受试者工作特征曲线下面积 (AUC-ROC) 选择了一组 miRNA,用于分离 CAD 和 MI 样本。我们设计了一种两层样本分类架构,其中第一层将健康样本与不健康样本隔离开来,第二层对稳定的CAD和MI样本进行分类。我们使用两种生物标志物集训练了不同的机器学习模型,并在测试集上评估了它们的性能。MicroRNA(miRNA)是一类内源性单链非编码小RNA分子,它们能够在细胞中进行转录增殖。在某些病理和生理条件下,miRNA通常会出现异常表达。最近的研究表明,miRNA的表达差异可能使其成为肿瘤检测和筛查的潜在生物标志物,因为在包括NSCLC在内的多种人类肿瘤中,它们的表达水平均存在差异。例如,无论是单独还是与其他miRNA联合检测,miRNA-24在血清等体液中的表达都各不相同,这使得其非常适合作为恶性肿瘤的非侵入性诊断手段。因此,小科非常推荐 大家挖掘miRNA数据,循环miRNA作为生物标志物大有可为,无论是文章发表还是科研转化,都很有临床意义。
文章标题:Unlocking the potential of microRNAs: machine learning identifies key biomarkers for myocardial infarction diagnosis
中文标题:释放microRNA的潜力:机器学习识别心肌梗死诊断的关键生物标志物
发表期刊:Cardiovascular Diabetology
发表时间:2023年9月11日
影响因子:8.5/Q1
研究背景
心血管疾病(CVDs)是人类死亡的主要原因,占全球所有死亡人数的32%。据估计,约85%的CVD死亡是由心肌梗死(myocardial infarction, MI)引起的。心肌梗死是一种急性冠脉综合征,其特征是冠状动脉突然阻塞和狭窄,随后出现心肌缺血,导致广泛的心肌细胞损伤和坏死。许多研究调查了miRNAs作为MI生物标志物的潜力,揭示了有希望的发现。例如,miR-1已被提议作为MI的潜在生物标志物。机器学习(ML)的出现和应用一直是推进科学研究的一个令人兴奋的前景。机器学习为合并和解释不同类型的组学数据提供了创新方法,从而识别出新的生物标志物。这些生物标志物可以帮助精确预测疾病、对患者进行分层和开发新的治疗方法。
数据来源
来自(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)。为了在 MI、健康对照和 CAD 样本之间获得稳健的分类性能,每组都需要足够大的样本量。为此,选择了 GSE59867 数据集,因为它包含大量 MI 和 CAD 样本。为了提供同样大的健康对照集,还包括包含健康样本的 GSE56609 和 GSE54475数据集。
结果解析
2.差异表达分析
DEGs总表达、上调和下调的DEGs和差异表达的miRNAs。在MI/healthy和CAD/healthy比较的DEGs中,has-miR-186-5p、has-miR-32-3p和has-miR-21-3p被鉴定为差异表达的miRNA。在MI/CAD比较中,唯一差异表达的miRNA是has-miR-186-5p。
3.筛选hubgene
MI与健康样本之间有860度。其中,与健康组相比,心肌梗死组323个上调,537个下调。在CAD和健康组的比较中,我们发现CAD样本中有670个DEGs,其中262个和408个DEGs分别上调和下调。MI组和CAD组的DEGs数量为260个,MI样品中上调和下调基因的数量分别为144个和116个。
6. 第一层用于分离健康和不健康样本