文章标题:Identification of core genes in intervertebral disc degeneration using bioinformatics and machine learning algorithms
中文标题:使用生物信息学和机器学习算法鉴定椎间盘退化中的核心基因
发表期刊:Frontiers in Immunology
发表时间:2024年7月
影响因子:5.7/Q1
研究背景
椎间盘退化(IDD)是导致腰痛的主要原因,也是一个重要的全球健康问题。然而,IDD的具体机制仍不清楚。本研究旨在使用生物信息学和机器学习算法确定与IDD相关的关键基因和通路。
研究方法
从GEO数据库(GSE124272、GSE150408、GSE23130和GSE153761)下载了基因表达谱,包括35名LDH患者和43名健康志愿者的基因表达谱。合并4个微阵列数据集后,筛选出差异表达基因(DEGs)进行GO和KEGG通路富集分析。然后对合并后的数据集进行加权基因共表达网络分析(WGCNA),以确定相关模块并与DEGs相交,从而发现具有诊断价值的候选基因。建立LASSO模型以选择合适的基因,并绘制ROC曲线以阐明遗传标记的诊断价值。构建并可视化蛋白质相互作用(PPI)网络以确定中心基因,然后使用qRT-PCR进行外部验证。
研究结果
1.差异表达基因的预处理和筛选
合并所有数据集并删除批量效应后,对数据进行标准化。结果表明,经过处理后,数据集中基因的平均表达水平是一致的。差异分析显示共有244个差异表达基因(DEGs),包括183个上调和61个下调基因。此外,使用热图进一步表示已鉴定的DEGs的表达模式。
2.基因本体富集分析
基因本体(GO)富集分析揭示了三个主要类别:生物过程(BP)、细胞成分(CC)和分子功能(MF),选择p值小于0.05的GO术语,并根据涉及基因的数量进行排序。KEGG富集分析显示,差异表达基因(DEGs)与补体和凝血级联反应、吞噬体途径和破骨细胞分化途径高度相关。
3.WGCNA分析
通过样本聚类分析,排除了明显的离群样本,高度截止值设定为140。使用“sft$powerEstimate”确定最佳软阈值,选择10作为软阈值(标度独立性达到0.85),以更好地区分IDD和正常组织。软阈值为10,最小模块大小为30,deepSplit参数为3,最终确定了17个基因共表达模块。通过绘制模块间关系图并使用Spearman相关系数分析模块与IDD特征的关联,发现深灰色模块与IDD的相关性最为显著。此外,在深灰色模块中还观察到模块成员(MM)和基因显著性(GS)之间存在明显的相关性。在深灰色模块中,发现了56个对模块功能很重要的基因。通过维恩图分析,确定了差异表达基因(DEGs)与 WGCNA衍生的特征模块基因之间的共表达基因。
4.特征基因的识别和机器学习算法的应用
使用R软件包glmnet,结合生存时间、状态和基因表达数据,通过lasso-cox回归分析确定特征基因。利用5倍交叉验证来确定最佳模型,选择的Lambda值为0.0462682649698763,最终确定了6个基因:ASPH、CDC42EP3、FOSL2、IL1R1、NFKBIZ、TCF7L2。为了直观地显示这些特征基因的表达水平,绘制了方框图,与对照组相比,IDD样本中这6个基因的表达水平呈上升趋势。
5.构建PPI网络以识别核心基因
使用GeneMANIA数据库,分析了由ASPH、CDC42EP3、FOSL2、IL1R1、NFKBIZ、TCF7L2及其相互作用基因六个基因组成的蛋白质-蛋白质相互作用(PPI)网络。通过对PPI网络的综合分析,IL1R1和TCF7L2被鉴定为本研究的最终核心基因。
6.核心基因临床诊断价值评价
对IL1R1和TCF7L2两个核心基因进行受试者工作特征(ROC)曲线分析,以估计其临床诊断价值。两个基因的曲线下面积(AUC)值都接近0.7,表明IL1R1和TCF7L2具有一定的临床诊断价值。
7.核心基因的表达验证
利用qRT-PCR分析,验证了椎间盘变性(IDD)组与正常椎间盘组两个核心基因IL1R1和TCF7L2的表达水平。结果表明,IDD组IL1R1和TCF7L2的表达水平明显高于正常组。
文章小结
本研究表明,IL1R1和TCF7L2是IDD的核心基因,为IDD的发病机制和治疗发展提供了新的见解。如果您对生信分析和公共数据库挖掘感兴趣,但时间和精力有限或者缺乏相关经验,小骨非常乐意为您提供如下服务:免费思路评估、付费方案设计和生信分析等,有意向的老师欢迎联系小骨哦!