文章标题:Identification of immune-related genes in diagnosing atherosclerosis with rheumatoid arthritis through bioinformatics analysis and machine learning
中文标题:基于综合生物信息学分析和机器学习,确定预测系统性红斑狼疮动脉粥样硬化风险的关键基因
发表期刊:Computers in Biology And Medicine
发表时间:2023年1月
影响因子:7.0/Q1
多年来,系统性红斑狼疮 (SLE) 已成为一个主要的公共卫生问题,动脉粥样硬化 (AS) 是 SLE 的主要并发症之一,与该患者群体的严重心血管后果相关。本研究旨在确定 SLE 合并 AS 患者的潜在生物标志物。
研究方法
从 NCBI 基因表达综合数据库下载了五个微阵列数据集 (GSE50772、 GSE81622、 GSE100927、 GSE28829 和 GSE37356)。Limma 包用于鉴定 AS 中的差异表达基因 (DEGs)。加权基因共表达网络分析 (WGCNA) 用于鉴定与 SLE 相关的重要模块基因。应用功能富集分析、蛋白质-蛋白质相互作用 (PPI) 网络构建和机器学习算法来识别枢纽基因。随后,我们生成了列线图和受试者工作特征曲线 (ROC),用于预测 SLE 患者发生 AS 的风险。最后,分析免疫细胞浸润,并根据单样本基因集富集分析 (ssGSEA) 评分进行共识聚类分析。
结果分析
1. 在AS中通过limma识别DEG,通过 WGCNA 鉴定 SLE 中的重要模块基因
AS 组和对照组共鉴定出 470 个 DEGs,其中 357 个上调,113 个下调。生成了一张热图来可视化前 20 个上调和下调的 DEG,通过 WGCNA 识别 SLE 中的关键模块基因。
2. AS中SLE相关DEGs的功能富集分析
DEGs 主要富集在 “破骨细胞分化” 、 “利什曼病” 、 “结核病” 和 “细胞因子-细胞因子受体相互作用” 中。显著富集的 BP GO 术语包括 “immune system process” 、 “immune response” 和 “cell activation”。此外,CC 富集了“囊泡”、“细胞质囊泡”和“细胞内囊泡”,而 DEGs 的 MF 与“信号受体活性”、“分子转导活性”和“含蛋白质复合物结合”高度相关。
3. 利用机器学习算法和ssGSEA进行候选基因鉴定
Lasso 回归结果, 从 24个 DEG 中确定了 12 个二项式偏差最低的 DEG。SVM-RFE 结果显示,前 17 个 DEGs 在选择 AS 候选生物标志物方面具有最高的准确性和最低的误差 。通过 DEGs 的随机森林计算基因重要性。
4. 预测价值评估和列线图构建
列线图的 ROC 分析得出的 AUC 为 1.000,表明对晚期 AS 斑块具有同样高的预测价值。
5. 免疫浸润分析
与对照组相比(相关性分析显示,静息 NK 细胞与中性粒细胞呈最高正相关 (r = 0.57),而 M0 巨噬细胞与 CD4 记忆静息 T 细胞呈最大负相关 (r = −0.72)。此外,我们发现 5 个枢纽 DEGs 与免疫细胞浸润。
6. 共识聚类分析
通过共有聚类分析,根据 DEG 表达谱对 AS 样本进行聚类。亚型的最佳数量为 3 个,由一致矩阵图、CDF 图、CDF 曲线下面积的相对变化和跟踪图 。PCA 显示三种亚型之间存在显著差异 。与亚型 A 和 B 相比,亚型 C 在大多数免疫细胞群中表现出更高的浸润水平 。
文章小结
我们的研究系统地确定了 5 个候选枢纽基因 (SPI1 、 MMP9 、 C1QA 、 CX3CR1 、 MNDA ),并使用各种生物信息学分析和机器学习算法建立了一个可以预测 AS 伴 SLE 风险的列线图。我们的研究结果为未来研究 SLE 患者 AS 的潜在关键基因提供了基础。此外,还确定了 SLE AS 中免疫细胞比例失调和免疫检查点表达。