这套孟德尔随机化生信“组合拳”打的也太溜了!12种机器学习+转录组+WGCNA,buff叠满!快学起来!

文摘   2024-11-15 19:00   上海  


哈喽各位宝子们!大智文献分享课堂开课啦!要说现在生信文章的发文思路可真是越来越卷了,之前单一生信方法就可以发的文章,如今要多方法联用才能在众多生信文章中脱颖而出。今天大智就来给大家分享一篇让你眼前一亮的宝藏好文,一起往下看看吧!

这是衡阳中心医院研究团队今年11月发表在Gene and Immunity上的文章。以原发性硬化性胆管炎(PSC)为研究疾病,运用孟德尔随机化、转录组、机器学习等多个方法,揭示了PSC中一种新的生物标志物及靶点,对临床应用具有关键作用。

1.多方法首次在PSC上结合应用揭示了调节性T细胞(Tregs)比例失调对PSC的影响,为理解PSC的遗传和免疫学机制提供了新的视角。

2.研究首次构建了关于PSC的Tregs分类器,为其诊断提供了更便捷的工具。

3.研究发现了能够作为PSC诊断的关键基因—AKAP10和KLF13,为未来治疗PSC提供了新的潜在靶点。

(ps:发文章没思路?做实验没时间?那你千万不要错过这篇文章,结合孟德尔随机化、转录组、WGCNA以及12种机器学习方法,思路新颖且没有耗时的实验,容易复现,有兴趣的宝子可以来和大智聊聊,无论是生信分析还是方案设计,跟住大智!科研不迷路!)

题目:原发性硬化性胆管炎中调节性T细胞相关基因:来自孟德尔随机化和转录组数据的证据    

期刊:Gene and Immunity

影响因子:5.0

发表日期:2024.11

公众号回复“888”领取原文PDF,文献编号:20241114


研究背景

原发性硬化性胆管炎(PSC)是一种由免疫、炎症和遗传因素共同导致的慢性性肝病,会造成肝衰竭。其临床表现和症状复杂,目前除了肝移植尚无有效药物治疗。因此,发现新的生物标志物和治疗靶点对PSC的治疗具有重要价值。

研究思路

主要结果

1.免疫学特征和PSC之间的关系

研究利用两个PSC GWAS(ieu-a-1112和finn-b-K11_CHOLANGI_STRICT)的交集对免疫学特征的作用方向进行分析,确定了3种与PSC具有因果关系的免疫表型(图1),结合另一个数据进行Meta分析,结果显示有两种表型显著增加PSC风险,其余一个则效果相反(图2)。   

       图1 韦恩图分析2个队列中免疫表型

         

 

   

图2 3种免疫表型的MR和Meta分析

2.PSC转录组数据中Tregs和B细胞浸润水平分析

研究通过利用CIBERSORT、ssGSEA、xCell和Quantiseq算法分析GSE119600和GSE159676队列中的细胞浸润水平。研究发现除xCell算法外,PSC组在两个数据集中采用其余算法均发现了丰富的Tregs,而只有在CIBERSORT算法分析的GSE159676队列中观察到更丰富的B细胞(图3)。   

图3 四种免疫细胞浸润算法对比Tregs和B细胞相对丰度

3.WGCNA分析

研究者利用两个PSC数据集中进行了WGCNA分析以为识别重要的Treg模块基因。通过对获得的不同模块进行聚类分析,结果发现两个队列中ME青色、ME深灰色、ME深青色和 ME浅青色模块均与Tregs 呈正相关,并且这些模块内的基因显著性(GS)与模块成员资格(MM)之间也存在正相关性(图4)。    

图4 WGCNA筛选功能基因模块

4.Tregs相关基因鉴定及功能富集分析

研究利用NetworkAnalyst分别检测两个队列中的DEGs并进行交叉分析,获得了65个PSC中Tregs相关基因。GO富集和KEGG分析结果显示,前5个簇主要富集在细胞成分,分子功能和生物过程中,主要参与内吞及Fc gamma R介导的吞噬作用(图5A-C)。   

图5 Tregs相关基因鉴定及功能富集分析

5.机器学习识别并构建Tregs分类器

研究利用LASSO和SVM机器学习模型进一步识别两个队列中PSC的中枢Tregs相关基因。数据集的交集分析确定了7个中枢Tregs相关基因(AKAP10、BASP1、DENND3、PLXNC1、KLF13、SCAP和TMCO3)(图5D-I),并构建了Tregs分类器。

6.Tregs 分类的诊断价值和临床用途

ROC曲线揭示了Tregs分类器具有显著的诊断能力,两个队列中AUC结果分别为0.974和0.944。PCA结果表明两个队列中根据上述7个中枢Tregs相关基因的表达可以有效区分PSC患者和健康人。此外,DCA图表结果显示Tregs分类器获得了较高的净收益,超过了两个队列中不对所有患者进行干预或对所有患者进行干预的净收益(图6)。    

图6 Tregs分类器诊断及临床价值

7.中枢Tregs相关基因的表达水平和相关模式

研究发现在两个队列中中枢Tregs相关基因的表达水平存在显著差异,qRT-PCR结果表明PSC组中Akap10、Basp1、Dennd3、Plxnc1和Tmco3的mRNA表达量显著升高,其余两个相反。TMCO3和PLXNC1具有明显的相关性,同时,PLXNC和PLXNC1;AKAP10和DENND3,KLF13和SCAP均表现出正相关性(图7)。   

图7 7个Tregs相关基因的表达水平和相关模式

8.PSC中免疫细胞浸润及其与中枢Tregs相关基因的关系分析

研究通过ESTIMATE和xCell算法分析PSC患病与否的免疫谱组成差异,发现两个队列中PSC组的免疫评分、ESTIMATE评分、基质评分和微环境评分均明显高于健康对照组(图8)。中枢Tregs相关基因的表达水平与免疫、微环境、中性粒细胞和自然杀伤T细胞(NKT)具有正相关性,与M2巨噬细胞、MEP呈负相关(图9)。    

图8 ESITMATE和xCell分析两个队列中的微环境    

图9 中枢Tregs相关基因与免疫细胞浸润的相关性分析

9.PSC发生发展的潜在机制及其与中枢Tregs相关基因的关系的发现

研究通过ssGSEA和GSVA分别检查预定义BP和GO/KEGG/HALLMARK 基因集富集的分数。研究发现PSC组表现出与对照组不同的补体和凝血级联以及 IL6 JAK-STAT3 信号传导,其中高表达的中枢Tregs相关基因与IL6 JAK-STAT3信号、补体和凝血级联之间存在正相关性(图10)。

GO/KEGG/HALLMARK 基因集差异分析分别确定了78、9和14条途径(图11),并且中枢Tregs相关基因表达较高、与PSC中的上调信号通路呈正相关,与下调的信号通路呈负相关(图12)。    

图10 中枢Tregs相关基因分析

图11 基于GSVA的两个队列中基因集比较分析    

图12 两个PSC队列和七个中心Tregs相关基因中共享差异GO/KEGG/HALLMARK生物通路之间的相关性分析

10.XGBoost和SHAP

研究利用SHAP和XGBoost对PSC中的独特基因进行特征重要性排序,结果显示AKAP10和KLF13为PSC诊断的最重要因素。Mantel测试发现AKAP10与细胞凋亡、巨噬细胞集落刺激因子的细胞反应调节、补体、幽门螺杆菌感染中的上皮细胞信号传导、IL6 JAKSTAT3 信号传导、APC 共刺激、Fc-ε受体信号传导途径、炎症呈正相关;KLF13与胆汁酸代谢、DNA修复、不饱和脂肪酸生物合成、类固醇生物合成、胆固醇反应、甾醇反应、线粒体功能相关途径呈正相关(图13)。   

图13 鉴定PSC重要Tregs相关基因并检验其与关键分子通路之间的关系

文章小结

本文利用孟德尔随机化和转录组分析揭示了Tregs和PSC之间的因果关系,并通过12种机器学习算法的107种不同的组合证明了7个Tregs相关基因PSC共识诊断特征,发现了治疗PSC的潜在靶点。这样一篇汇聚了多生信方法的文章有没有惊艳到你呢?只通过数据分析和一点点的实验就拿下了Nature子刊,想尝试的宝子们可以来滴滴大智,方案设计、数据分析,为每个宝子的科研梦提供帮助!

生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
 最新文章