双疾病“新花样”来袭!广州中医药大学:多组学+机器学习+孟德尔+单细胞,无需测序,99%生信2个月拿下7+Top!

学术   2024-11-26 10:02   上海  
大家发现了吗,现在生信领域的单疾病分析门槛越来越高,想发篇分数高的文章需要做的分析也越来越多,怎么破解呢?小云推荐大家尝试一下双疾病研究!
小云最近发现了一个双疾病研究的新思路,文章通过多组学数据分析了克罗恩病(CD)和代谢综合征(Mets)之间的关联。
1.首先利用WGCNA和机器学习,研究识别了与CD和Mets共同相关的核心基因,并构建了预测模型。
2. 作者还通过孟德尔随机化分析了基因与疾病之间的因果联系,增强结果的可靠性(ps:双疾病分析中加上孟德尔随机化分析会让整篇文章增色不少)。
3. 研究利用GEO数据库的单细胞数据验证了关键基因的功能。
4.最后通过PCR实验验证了关键基因的表达。
整个分析流程非常丝滑,99%都是生信,而且不需要测序,性价比极高,感兴趣的抓紧联系小云吧~生信思路定制+分析、高速服务器,欢迎来询~

定制生信分析

生信云服务器

(加微信备注99领取试用)

题目:克罗恩病和代谢综合征的综合多组学分析:揭示共病的潜在分子机制

关注公众号,后台发送“123”可以直接获取原文PDF,文献编号:241126

研究背景
虽然医学界已经提出CD和MetS之间的联系,但其潜在的分子机制仍未被探索。本研究的重点是确定CD与Mets之间的潜在关联。
研究思路
研究结果
CD和Mets差异表达基因的鉴定
对CD相关数据集GSE20881进行差异分析,确定了501个差异表达基因(DEGs)。对于Mets相关数据集GSE98895,确定了280个DEGs。在两个数据集中,共有34个重叠基因。
CD和Mets加权基因共表达网络分析
应用WGCNA在两个数据集中探索临床特征和基因表达之间的潜在关系。去除批效应后,进行聚类分析,根据基因表达水平对患者进行自然分组。确定了15个基因模块。然后对这些基因模块和临床特征之间的相关性进行量化,揭示了绿松石模块内CD和Mets之间特别强的关联。    
富集分析和PPI构建
绿松石模块,与CD和Mets显著相关,包含1714个基因。此外,从DEGs中,鉴定出CD和Mets之间共表达的53个基因。将从WGCNA中鉴定的基因与DEGs结合起来,形成了一个包含1767个基因的候选基因集。GO和KEGG通路分析,显示这些基因在免疫相关通路中显著富集。作者还使用STRING数据库构建了蛋白-蛋白相互作用(PPI)网络,鉴定了核心基因,如EP300、RAC3、RAC2和PRKACA。    
随机森林和LASSO对潜在共享枢纽基因的鉴定和验证
为了识别具有显著诊断效能的核心基因,采用机器学习技术筛选关键特征。通过随机森林算法确定了117个重要基因。进一步分析显示了前30个最具影响力的基因,其中PTPN11和PBX2在MeanDecreaseGini方面最为突出。此外,通过LASSO逻辑回归分析,从差异表达基因中筛选出36个基因。经过比较,最终鉴定出34个共享核心基因。为了验证这些基因的诊断潜力,使用ROC曲线对它们进行评估。结果显示PBX2 (AUC = 0.936)和PIM2 (AUC = 0.924)在诊断预后方面疗效最高。    
基于XGBoost的预测模型构建
利用 XGBoost算法,构建了基于34个核心基因的预测模型。在训练集(GSE20881)和单独的验证集(GSE95095)上验证模型。该模型AUC值分别为0.99和0.995。在Mets数据集GSE98895上训练时,该模型在识别Mets患者方面也表现良好,证实了其较高的预测能力。    
eQTL和孟德尔随机分析
在先前研究的基础上,选择了关键基因作为分析的起点,并使用TwoSampleMR包识别与它们相关的snp 。最终筛选了64个 snp。这些snp被纳入了一项后续研究,探索它们与CD的关联。IVW方法显示SLC12A2显著增加CD的风险。此外,使用共定位分析来探索多个遗传位点对CD的综合影响。同样,使用TwoSampleMR包,筛选了与关键基因相关的 snp。共定位分析结果显示,几个snp与CD风险之间存在显著关。    
免疫细胞浸润与共享中枢基因的关系
使用CIBERSORT工具分析了CD (GSE20881)和Mets (GSE98895)数据集中的免疫细胞组成,重点关注22个不同的免疫细胞亚群。确定了CD患者和健康对照之间巨噬细胞M2和中性粒细胞等亚群的显着差异。此外,对Mets数据集(GSE98895)的CIBERSORT分析显示,患者组中静息CD4+记忆T细胞减少,同时单核细胞和NK细胞增加。
此外,进行了Pearson相关分析,以评估这些共享的中心基因与CD中免疫细胞之间的关系。分析显示,PIM2、GNLY、AP3D1和SLC41A1等基因与细胞类型之间存在显著正相关。BANF1、FAM104A、HMGN1和CBX7等基因表现出显著的负相关。这些关系同样在Mets中得到证实。    
使用GSVA评估了50个信号通路,确定了9个与代谢过程密切相关。Pearson相关分析揭示了氧化磷酸化、脂肪酸代谢和外源代谢途径与中心基因表达之间强烈而一致的关联。值得注意的是,PIM2和PBX2基因与CD缺氧和血红素代谢通路呈正相关。GSEA分析显示,PIM2的高表达基因主要富集在PYRUVATE_METABOLISM、FATTYACID_METABOLISM、GLYCEROLIPID_METABOLISM等相关通路;PBX2基因主要富集于氧化磷酸化途径和N_GLYCAN_BIOSYNTHESIS途径。    
核心基因定位的单细胞分析    
研究还采用了来自数据集GSE215001的scRNA-seq数据,以提供组织免疫微环境的深入分析。鉴定并分类了9个主要细胞群。分析结果显示,在CD患者和健康对照样本之间,B细胞、血管内皮细胞和中性粒细胞的细胞簇组成存在显著差异。由于PIM2和PBX2在关键基因中表现出最显著的诊断性能,因此深入分析了它们在CD中与正常样本相比的细胞表达和分布。分析显示,在GSE20881和GSE95095数据集中,PIM2和PBX2的表达均升高。通过scRNA-seq分析,进一步发现PIM2和PBX2的表达在T细胞和B细胞中尤为重要。还发现缺氧和血红蛋白代谢途径中的表达增加。使用UMAP技术进行数据可视化,观察到 PIM2和PBX2的表达水平显著增加。    
关键基因在临床样本中的表达    
在一小部分临床病例队列中,观察到不同疾病状态的受试者代谢和炎症指标存在显著差异。此外,qPCR结果显示各组mRNA表达水平存在显著差异。
文章小结
这项研究确定了CD和MetS之间共享的调控基因。特别是,PIM2和PBX2被发现与缺氧和血红蛋白代谢途径呈正相关,表明它们参与细胞过程的调节。
这篇双疾病研究整合了多组学、机器学习以及孟德尔随机化,再加上以及简单的实验验证,创新组合,可复现性很强,感兴趣的小伙伴可以联系小云~

定制生信分析


生信云服务器

热点推荐

孟德尔随机化

临床公共数据分析

单细胞测序

肿瘤免疫与微环境

机器学习

单基因分析

生信云服务器

代码合集(点击查看)

培训班系列(点击查看)

云生信学生物信息学
专注生信10余年,原创文章数千篇; 公号资料免费领,寻求服务找小云; 长期学习加关注,生信干货更不停。
 最新文章