文章标题:Incorporating knowledge of disease-defining hub genes and regulatory network into a machine learning-based model for predicting treatment response in lupus nephritis after the first renal flare
中文标题:将疾病定义枢纽基因和调控网络的知识整合到基于机器学习的模型中,以预测狼疮性肾炎在第一次肾发作后的治疗反应
发表期刊:Journal of Translational Medicine
发表时间:2023年2月
影响因子:6.1/Q1
在肾发作 (RF) 时,确定对治疗有反应的候选者很重要,因为有效的治疗可以降低进展为终末期肾病的风险。但是,缺乏解决此问题的基于机器学习 (ML) 的模型。
研究方法
我们从GSE32591和GSE112943数据集中提取基于DNA微阵列数据的转录组学谱。进行全面的生物信息学分析以鉴定疾病定义基因(DDG)。计算DDG的单样本基因集富集分析(ssGSEA)评分。K-means 聚类用于获得单独的基因集。使用最小绝对收缩和选择运算符 (LASSO) 算法来识别每个簇中第一个RF后对治疗反应具有高预测价值的基因。具有十重验证的 LASSO模型是在GSE200306中构建的,并通过受试者工作特征(ROC)分析和曲线下面积(AUC)进行评估。
结果分析
1. 转录组学分析揭示 LN 中基因表达的改变
在肾小球 (GSE32591)、肾小管间质 (GSE32591) 和肾组织 (GSE112943) 中分别发现了 4442、4332 和 9886 个 DEGs。发病途径的大部分是共享的,并且与 LN 相关的基因信息可以从两个组织成分中获得,47 个输入 DEGs 的 ORA 表明干扰素信号转导是最丰富的通路。综合得出847 个 DEGs 可用于探索 LN 的疾病机制。
2.用于组织和血液样品中 LN 的 DDG
使用 MCODE 算法确定了上调和下调的 DEGs 的顶部网络,共鉴定出 38 个上调和 7 个下调基因,它们统称为 LN 的 DDG。CytoHubba 中的 5 种算法用于 DDG,发现在上调的基因集中,STAT1、RSAD2、MX1 和 IRF7 大部分时间 (n = 4) 被选择,而 NR4A1、FOSB、EGR1 和 DUSP1 被下调基因集中的所有五种算法选择。
3. DDG 可以区分 LN 与其他慢性肾脏病
LN 和对照组在组织和血液样本中的 ssGSEA 评分存在显着差异,LN 中的 ssGSEA 评分显著更高。DDGs 的 ssGSEA 评分也可以区分 LN 与其他慢性肾脏病,如糖尿病肾病、局灶节段性肾小球肾炎、膜性肾小球肾炎和血管炎。
4. LCK 是 LN 中仅次于 1 次 RF 的治疗反应的顶级调节基因
从 63 个 DDC-6 基因中选择了 33 个基因。在选定的基因中,FYN、RAF1、BCL10、LCK、CCL19、CD3D、CCL15、CXCL12、C7、NT5E、GZMK和CLU是与GSE200306治疗反应相关的DEGs。五种CytoHubba 方法检查得出CCR7 被所有算法选中并排名靠前,除了 DMNC 方法。IL7R 被四种算法选中,并在每种算法中排名靠前。然而,这两个基因在反应者和非反应者之间都没有差异表达。在下一级搜索中,发现 LCK 是 DEG 之一,并且在 MNC、MCC、EPC 和 degree 中排名更高。因此,在我们的研究中,它被认为是调节治疗反应的关键基因。
5. 根据 LCK 的表达估计免疫细胞浸润揭示了不同的聚类结果
大多数类型的 T 细胞呈中度至强正相关,并且它们以分层聚类聚集在一起。根据 LN 患者的数据发现 LCK 可能调节 LN 中的免疫细胞浸润,尤其是 T 细胞。
6.基于 DDC 6 的 LASSO 模型预测性能最佳
在 8 个 DDC 中通过 LASSO 进行特征选择,以识别每个簇中的预测基因,然后进行模型训练。我们发现 DDC-6 (LASSO-DDC-6) 的模型性能最佳。
文章小结
我们应用了综合生物信息学分析,并将 LN 特异性调节活动的知识纳入 ML 模型的训练中。模型性能是可以接受的,并且可解释性有所提高。此外,LCK 可作为 T 细胞浸润的生物标志物和 LN 的治疗靶点。(生信Rhim持续为大家带来最新生信思路,想复现这种思路或者定制更多创新性思路欢迎扫码联系lulu~)