大家发现了吗,现在生信领域的单疾病分析门槛越来越高,想发篇分数高的文章需要做的分析也越来越多,怎么破解呢?小云推荐大家尝试一下双疾病研究!小云最近发现了一个双疾病研究的新思路,文章通过多组学数据分析了克罗恩病(CD)和代谢综合征(Mets)之间的关联。1.首先利用WGCNA和机器学习,研究识别了与CD和Mets共同相关的核心基因,并构建了预测模型。2. 作者还通过孟德尔随机化分析了基因与疾病之间的因果联系,增强结果的可靠性(ps:双疾病分析中加上孟德尔随机化分析会让整篇文章增色不少)。3. 研究利用GEO数据库的单细胞数据验证了关键基因的功能。整个分析流程非常丝滑,99%都是生信,而且不需要测序,性价比极高,感兴趣的抓紧联系小云吧~生信思路定制+分析、高速服务器,欢迎来询~定制生信分析
生信云服务器
(加微信备注99领取试用)
题目:克罗恩病和代谢综合征的综合多组学分析:揭示共病的潜在分子机制关注公众号,后台发送“123”可以直接获取原文PDF,文献编号:241126
虽然医学界已经提出CD和MetS之间的联系,但其潜在的分子机制仍未被探索。本研究的重点是确定CD与Mets之间的潜在关联。对CD相关数据集GSE20881进行差异分析,确定了501个差异表达基因(DEGs)。对于Mets相关数据集GSE98895,确定了280个DEGs。在两个数据集中,共有34个重叠基因。应用WGCNA在两个数据集中探索临床特征和基因表达之间的潜在关系。去除批效应后,进行聚类分析,根据基因表达水平对患者进行自然分组。确定了15个基因模块。然后对这些基因模块和临床特征之间的相关性进行量化,揭示了绿松石模块内CD和Mets之间特别强的关联。 绿松石模块,与CD和Mets显著相关,包含1714个基因。此外,从DEGs中,鉴定出CD和Mets之间共表达的53个基因。将从WGCNA中鉴定的基因与DEGs结合起来,形成了一个包含1767个基因的候选基因集。GO和KEGG通路分析,显示这些基因在免疫相关通路中显著富集。作者还使用STRING数据库构建了蛋白-蛋白相互作用(PPI)网络,鉴定了核心基因,如EP300、RAC3、RAC2和PRKACA。 随机森林和LASSO对潜在共享枢纽基因的鉴定和验证为了识别具有显著诊断效能的核心基因,采用机器学习技术筛选关键特征。通过随机森林算法确定了117个重要基因。进一步分析显示了前30个最具影响力的基因,其中PTPN11和PBX2在MeanDecreaseGini方面最为突出。此外,通过LASSO逻辑回归分析,从差异表达基因中筛选出36个基因。经过比较,最终鉴定出34个共享核心基因。为了验证这些基因的诊断潜力,使用ROC曲线对它们进行评估。结果显示PBX2 (AUC = 0.936)和PIM2 (AUC = 0.924)在诊断预后方面疗效最高。 利用 XGBoost算法,构建了基于34个核心基因的预测模型。在训练集(GSE20881)和单独的验证集(GSE95095)上验证模型。该模型AUC值分别为0.99和0.995。在Mets数据集GSE98895上训练时,该模型在识别Mets患者方面也表现良好,证实了其较高的预测能力。 在先前研究的基础上,选择了关键基因作为分析的起点,并使用TwoSampleMR包识别与它们相关的snp 。最终筛选了64个 snp。这些snp被纳入了一项后续研究,探索它们与CD的关联。IVW方法显示SLC12A2显著增加CD的风险。此外,使用共定位分析来探索多个遗传位点对CD的综合影响。同样,使用TwoSampleMR包,筛选了与关键基因相关的 snp。共定位分析结果显示,几个snp与CD风险之间存在显著关。 使用CIBERSORT工具分析了CD (GSE20881)和Mets (GSE98895)数据集中的免疫细胞组成,重点关注22个不同的免疫细胞亚群。确定了CD患者和健康对照之间巨噬细胞M2和中性粒细胞等亚群的显着差异。此外,对Mets数据集(GSE98895)的CIBERSORT分析显示,患者组中静息CD4+记忆T细胞减少,同时单核细胞和NK细胞增加。此外,进行了Pearson相关分析,以评估这些共享的中心基因与CD中免疫细胞之间的关系。分析显示,PIM2、GNLY、AP3D1和SLC41A1等基因与细胞类型之间存在显著正相关。BANF1、FAM104A、HMGN1和CBX7等基因表现出显著的负相关。这些关系同样在Mets中得到证实。 使用GSVA评估了50个信号通路,确定了9个与代谢过程密切相关。Pearson相关分析揭示了氧化磷酸化、脂肪酸代谢和外源代谢途径与中心基因表达之间强烈而一致的关联。值得注意的是,PIM2和PBX2基因与CD缺氧和血红素代谢通路呈正相关。GSEA分析显示,PIM2的高表达基因主要富集在PYRUVATE_METABOLISM、FATTYACID_METABOLISM、GLYCEROLIPID_METABOLISM等相关通路;PBX2基因主要富集于氧化磷酸化途径和N_GLYCAN_BIOSYNTHESIS途径。 研究还采用了来自数据集GSE215001的scRNA-seq数据,以提供组织免疫微环境的深入分析。鉴定并分类了9个主要细胞群。分析结果显示,在CD患者和健康对照样本之间,B细胞、血管内皮细胞和中性粒细胞的细胞簇组成存在显著差异。由于PIM2和PBX2在关键基因中表现出最显著的诊断性能,因此深入分析了它们在CD中与正常样本相比的细胞表达和分布。分析显示,在GSE20881和GSE95095数据集中,PIM2和PBX2的表达均升高。通过scRNA-seq分析,进一步发现PIM2和PBX2的表达在T细胞和B细胞中尤为重要。还发现缺氧和血红蛋白代谢途径中的表达增加。使用UMAP技术进行数据可视化,观察到 PIM2和PBX2的表达水平显著增加。 在一小部分临床病例队列中,观察到不同疾病状态的受试者代谢和炎症指标存在显著差异。此外,qPCR结果显示各组mRNA表达水平存在显著差异。这项研究确定了CD和MetS之间共享的调控基因。特别是,PIM2和PBX2被发现与缺氧和血红蛋白代谢途径呈正相关,表明它们参与细胞过程的调节。这篇双疾病研究整合了多组学、机器学习以及孟德尔随机化,再加上以及简单的实验验证,创新组合,可复现性很强,感兴趣的小伙伴可以联系小云~