短平快发文套路:公共数据库单细胞+Bulk转录组筛选目的基因

文摘   2024-08-02 09:05   江苏  

今天给大家解读的文章是一篇发表在CANCER IMMUNOLOGY IMMUNOTHERAPY(IF=4.6)的生信文章,这篇文献通过挖掘公共数据库单细胞数据和TCGA常规Bulk转录组数据进行联合分析,揭示了GGT5作为GSH代谢途径中的一个关键基因,可能通过调节肿瘤微环境和维持记忆性CD8+ T细胞的浸润,影响胃癌患者对免疫疗法的响应,为胃癌的免疫治疗提供了新的潜在靶点和治疗策略。

      这篇文章的分析方法总体比较基础,但结合了单细胞+肿瘤代谢+免疫治疗三个新鲜发文热点,内容组成为90%生信分析+10%的临床样本收集和免疫组化实验验证!通过精读本推文,可以学习作者如何筛选目标特征基因、以及筛选到特征基因后如何从多个角度验证特征基因的可靠性,另外如何进一步将筛选到的特征基因与免疫治疗联系起来!其他肿瘤疾病几乎都能借鉴此文研究思路走一遍,适用性较广!大家如果想换个疾病复现该篇分析思路或需要用自测数据亦或想通过挖掘公共数据库复现>10分甚至20分生信文章分析方法的可以扫码下方二维码咨询我们,CNSknowall团队在课题生信方案设计、生信私人定制个性化分析方面走在全国最前沿,助您开启科研天骄之路,不仅价格有惊喜,而且图表最美丽!! 


数据来源和研究路线图

--- ·三个数据集· ---



数据集/队列
数据库
数据类型
样本具体信息
TCGA-GC
TCGA

bulk RNA-seq
包含501个肿瘤样本
GSE15459

GEO
200例原发性胃癌组织样本
GSE167297
scRNA-seq
10个胃癌样本(15729个细胞)
GSH代谢相关基因集
                MsigDB数据库





研究概述

--- ·研究背景、目的、创新与不足· ---


胃癌(Gastric cancer, GC)是最常见的消化道恶性肿瘤之一,具有高度肿瘤异质性,发病率居世界第五位,免疫疗法在改善胃癌患者临床结果方面显示出潜力,但疗效有限且不确定。谷胱甘肽(GSH)代谢显著影响胃癌的发生和发展。因此,靶向谷胱甘肽代谢有望提高免疫检查点抑制剂(ICIs)的疗效。
本文利用 TCGA 的泛癌症数据集研究了来自 MSigDB 数据库的 16 个与 GSH 代谢相关的基因。通过差异表达基因(DEGs)、LASSO回归、单变量和多变量Cox回归分析以及生存分析,确定GGT5是GSH代谢中的中心基因,有促进胃癌的潜力。并结合CIBERSORT算法通过去卷积计算每种免疫细胞在样本中的相对比例,发现GGT5与记忆性CD8+ T细胞有强烈的关联。最后收集了接受免疫疗法的10位胃癌患者的样本,通过mIHC评估了GGT5和记忆性CD8+ T细胞标记的表达水平,发现GGT5表达与记忆性CD8+ T细胞的富集和对免疫疗法的次优反应之间存在正相关。
研究创新:GSH 代谢中的活性基因 GGT5与记忆CD8+T细胞之间的联系鲜有探讨和报道。研究首次提出,GGT5 对胃癌的发生和发展有显著影响,同时还能通过保留记忆性 CD8+ T 细胞来调节免疫环境。GGT5作为GSH代谢中的一个关键基因,可能是抑制胃癌患者对免疫疗法反应的潜在治疗靶点。这些发现为优化胃癌的免疫疗法策略提供了新的见解。
研究不足:(1)在认为其临床有益之前,需要进行涉及多个中心和广泛队列的未来临床研究来验证这一预测特征;(2)要明确 GGT5 对胃癌发生和发展的功能性影响,还必须进行更多的实验,包括GGT5的过表达和基因敲除研究,以及免疫/肿瘤共培养实验以阐明GGT5对胃癌发展和进展的功能影响;(3)未来有关分子结构研究的基础性实验的进展以及对 GGT5 药物潜力的探索,对其在临床治疗中的潜在应用至关重要。
研究结果

--- ·生信+免疫组化验证· ---


1.  谷胱甘肽代谢特征模型的构建
  作者首先搜索了MSigDB数据库 (https:// www. gsea- msigdb.org/ gsea/ msigdb),以全面鉴定GSH代谢的特征基因。通过对KEGG、WK和GOBP数据库中的3个GSH代谢基因集进行取交集,共筛选出16个基因GSH代谢基因。再对TCGA的33种泛癌症数据集中分析这些基因是否存在差异。在排除无匹配正常样本的癌型后,共保留了17种癌型来进一步分析。使用R软件“limma”包在17种癌型与正常组织之间进行GSH代谢基因差异表达分析,然后通过设置阈值FDR<0.05来识别标记基因,发现有6个GSH代谢基因在GC中存在差异表达(p < 0.05)(图2a)【胃癌(GC)是第三大最常见的癌症相关死亡病例,其中胃腺癌(STAD是最常见的病理组织类型】。这些基因包括GGT1, GGT5, GPX1, GPX4, GSS和GSTA1(表1)。使用“glmnet”包进行LASSO回归分析筛选出与GC预后显著相关的基因(图2b,c),发现这6个基因都与预后显著相关,最终被鉴定为GSH代谢的特征基因。
FigS1a: 在17种癌症类型和正常组织之间进行16种GSH代谢基因的差异表达基因分析

 图2 TCGA泛癌谷胱甘肽代谢相关基因表达模式图及GO、KEGG富集情况

2.  关键基因GO和KEGG富集分析
为了更深入地了解特征基因和GC之间的相关性,作者使用了“clusterProfiler”包来进行GO和KEGG分析,使用“GOplot”包绘制圆图。结果如(图2d-f)所示。对于BP、MF和KEGG,所选的关键基因中有6个与谷胱甘肽代谢密切相关,验证了上述筛选过程的有效性KEGG分析展示了P<0.05的通路,主要富集在在花生四烯酸代谢(arachidonic acid metabo-lism),牛磺酸和次牛磺酸代谢(taurine and hypotaurine metabolism),和铁死亡(ferroptosis)(图2d)GO分析发现生物过程(bp,biological process)富集的最靠前的2个通路分别是细胞修饰氨基代谢过程(cellular modified amino metabolic process process)和硫化合物代谢过程(sulfur compound metabolic process)(图2e);GO分析发现分子功能(MF,molecular function)富集的最靠前的2个通路分别是过氧化物酶活性(peroxidase activity)和氧化还原酶活性(oxidoreductase activit),它们作为受体作用于过氧化物(图2f)

表1 6个谷胱甘肽代谢关键基因信息


3.  GC中GSH代谢关键基因的鉴定
  为探讨GC关键基因的潜在作用机制,作者使用 “limma ”软件包分析了GC与配对的相邻正常组织之间的差异表达水平。通过TCGA收集胃癌的临床资料,包括肿瘤分期、组织学分级、T分期、N分期、M分期。根据这些临床特征,将患者分为不同的风险组。在各组中测量GGT5的表达水平,用“ggplot ”软件包绘制成小提琴图(图3a)结果发现,GC 中 GGT5、GPX1 和 GSS 的表达量明显高于正常组织(p < 0.05),而 GGT1、GPX4 和 GSTA1 的表达在 GC 和正常组织之间没有统计学意义。此外,还进行了单变量和多变量Cox 回归分析以确定预后效应(表 2)将年龄、性别、组织学分级、肿瘤分期、T期、N期、M期、六个关键基因、LASSO分析计算的风险评分、放射治疗、反流史、抗反流治疗、巴雷特食管、家族病史、新发肿瘤事件、淋巴结数量、淋巴结阳性、标志环细胞癌等因素纳入研究范围,以确定GC的风险因素。结果发现,GGT5 是 GC 中 GSH 代谢的枢纽基因。它不仅在肿瘤组织和正常样本中差异表达,而且还是一个独立的预后基因。

图3 谷胱甘肽代谢关键基因表达谱及生存分析

表2 6个谷胱甘肽代谢关键基因与胃癌临床特征的单因素和多因素Cox回归分析


4.  癌中GGT5相关的临床特点及预后
  为了评估GGT5的预后价值,使用“survminer”R包中的“surv_cutpoint”函数来确定的GGT5的最佳临界值,然后根据该临界值将GC患者分为GGT5高、低表达组,使用“survival”和“survminer”R包构建Kaplan-Meier (KM)生存曲线和对数秩检验(log-rank test)检验。使用“survival”包计算HR值结果显示,GGT5高表达组患者的总生存期(OS)低于低表达组(p=0.00029, HR (95% CI) 0.55(0.39-0.78))。同样,无进展间期(Progression-free interval,PFI)(p=0.0041,HR(95%CI) 0.60(0.40-0.91)、无病间期(disease-free interval,DFI) (p=0.0033, HR (95% CI) 0.20(0.10-0.41))、疾病特异性生存期(diseasespecific survival,DSS) (p=0.023, HR (95% CI) 0.49(0.30-0.80))均呈现生存趋势(图3b)表明GGT5的高表达与GC患者的不良临床结局密切相关为了在TCGA队列中验证结果,作者从GSE15459中收集了200例GC患者,分析这200例胃癌患者的RNA-seq数据及其GSE15459附属的生存数据进行外部验证。结果显示,GGT5高表达组的OS明显低于GGT5低表达组(p=0.00035,HR(95%CI)0.49(0.32-0.76))(Fig.S3a)
  此外,作者还通过“ggDCA”R包进行决策曲线分析(DCA)将GGT5模型与另外4个已发表的模型进行了比较。发现GGT5比其他GC特征具有更好的临床应用价值(Fig.S3b)。并分析了GGT5与临床病理特征(包括组织学分级、肿瘤分期、T分期、N分期、M分期,来自TCGA数据库)的相关性,基于这些临床特征数据将患者分为不同风险组并分析每组中的 GGT5 表达水平,使用“ggplot2”包绘制小提琴图。根据T分期和组织学分级,GGT 5在T3 + T4分期中的表达水平高于T1 + T2分期(p=0.006),在G3分期中的表达水平高于G1 +G2分期(p=0.00014),表明GGT 5的值随着临床分期的升高而升高(图5a)。而GGT5与肿瘤分期、N分期、M分期的结果无统计学意义。综上所述,这些发现表明GGT5高表达的患者临床预后较差

Fig.S3a:GGT5的预后模型及免疫细胞浸润情况

5.  GGT5与免疫浸润的关系
        采用CIBERSORT 算法,通过线性支持向量回归对 22 种免疫细胞的表达矩阵进行去卷积,从而得出肿瘤浸润免疫亚群的比例。根据GGT5的最佳临界值将GC样本分为高、低组,然后分析两组之间的肿瘤异质性。如(图4a)所示,在GGT5高表达组中,幼稚B细胞(p = 0.041)、调节性T细胞(Tregs) (p = 0.046)、单核细胞(p < 0.001)和静止肥大细胞(p < 0.001)的表达水平较高,而在GGT5低表达组中,静止CD4记忆T细胞(p = 0.019)、活化CD4记忆T细胞(p = 0.021)、滤泡辅助T细胞(p = 0.001)和M0巨噬细胞(p = 0.002)的表达水平较高。通过基于“IOBR”R包的EPIC、MCP-counter、xCell和ESTIMATE三种探索肿瘤微环境免疫浸润模式的算法验证上述结果,都显示出一致的趋势; CD 8 + T细胞在GGT 5高表达组中具有显著更高的表达水平(图S3 c-d)
 为了进一步验证,作者计算了 GGT5 与各种免疫细胞的相关性数值,如图4b所示。分析结果表明,GGT5 与调节性 T 细胞(Tregs)(R=0.17,p=0.00062)、CD8 T 细胞(R=0.11,p=0.024)、幼稚B细胞(R=0.17,p=0.00052)、单核细胞(R=0.25,p=3.7e-07)呈正相关。相反,GGT5与静止CD4记忆T细胞呈负相关(R=-0.2,p=5e-05)。然而,GGT5 与活化的 CD4 记忆 T 细胞、滤泡辅助 T 细胞和 M0 巨噬细胞等免疫细胞之间的相关性在统计学上并不显著(Fig. S2a)这些发现表明,GGT5 可能会影响不同类型的免疫细胞,尤其是 T 细胞,从而调节 GC 的 TME。

图4  GGT5与胃癌免疫细胞的关系

图S2  GGT5与免疫细胞及临床病理特征的相关性分析


6.  GGT5与免疫相关基因和免疫治疗间的关系
    为了更深入地了解GGT5与免疫浸润之间的密切关系,使用“corrplot”包生成的气泡图将GGT5与免疫相关基因(如免疫激活基因、免疫抑制基因、趋化因子和趋化因子受体)之间的相关性可视化。利用TIDE评分预测免疫治疗对GGT5的疗效。TIDE评分越高,表明免疫逃逸倾向越大,对免疫检查点抑制剂(ICIs)的反应越差。结果如(图5b)所示,GGT5表达越高的患者TIDE评分越高(p < 2.2e−16),表明GGT5过表达可能导致免疫治疗的不良反应。为了进一步研究GGT5在GC TME中的作用,作者对GGT5与免疫基因进行了相关性分析(图5c)结果表明,GGT5与免疫活性基因、免疫抑制基因、趋化因子和趋化因子受体,尤其是免疫活性基因和趋化因子受体之间呈正相关,GGT5在GC TME中的调节作用也可能与这些免疫相关基因有关。
图5 GGT5与临床病理特征及免疫特征的关系

7. 胃癌中GGT5相关免疫细胞浸润的鉴定
      在这项研究中,作者分析了来自 GSE167297 的 10 个胃癌样本。在对批次差异进行调整后,对样本进行了整合,并根据平均值和离散度确定了前 2000 个高变异基因(HVGs)。然后,进行了主成分分析(PCA)降维,保留了细胞的前 20 个维度。又使用 t-SNE 聚类对来自胃癌组织的 15729 个细胞进行了可视化聚类,这些细胞被归入 14 个聚类(图 6a)。使用“SingleR ”软件包和标记基因确定了8种细胞类型,包括T细胞、B细胞、树突状细胞、内皮细胞、上皮细胞、单核细胞、NK 细胞和平滑肌细胞(图 6b),值得注意的是,T细胞有多个亚群且数量较多,这表明它们在胃癌中的潜在重要性(图 6c)
  使用“ggplot2”软件包比较每种细胞类型的组成比和细胞数,并以柱状图显示。提取T细胞进行进一步分析,作者筛选了每个细胞亚群的前10个Hvgs(图6d),这些Hvgs被确认为每种细胞类型的标记基因。然后,使用小提琴图描绘了GGT5在每种浸润细胞类型中的表达水平(图6e)发现GGT5在T细胞中的表达特别高,所以作者选择T细胞进行进一步的研究和细分。

 图6 a,胃癌样本、14个细胞簇和标记基因鉴定的不同细胞类型的t-SNE图。b,各细胞类型的表达模式图。c,每个簇中的细胞比例表明该 T 细胞拥有最多的多个亚群。d,热图显示了细胞群的前 10 个标记基因,代表了每种细胞类型的特征。e,GGT5在各细胞类型中的表达水平。

    再次对选定的T细胞进行PCA降维,仅保留前10个维度,鉴定出11个簇(图7a)。根据CellMarker数据库和相关文章,使用在每个簇中高表达而在其他簇中低表达的标记基因对其重新注释。接下来,作者使用KEGG、GO和WikiPathways数据库检测GSH代谢活性(图7g),发现它在胃癌T细胞中是活跃的。为了进一步了解GGT5在T细胞中的作用,作者测定了GGT5在每个可用亚群中的表达值(图7b)发现它在C0-CD8-IL7R, C5-CD8-CCR7和C8-CD8-TK1亚群中表达量最高,这表明GGT5与CD8T细胞之间密切相关。为了评估不同T细胞的分化状态,使用“Monocle 2”包描绘T细胞耗竭的连续轨迹,筛选参数设为:平均表达量≥0.1,表达细胞数≥10,不同基因的q值小于0.05。然后,将T细胞、CD8+T细胞和CD4+T细胞的轨迹可视化为t-SNE图(图7c)。此外,作者还分离了CD8CD4T细胞簇来阐明GGT5和CD8+T细胞之间的关联。结果表明,在整个T细胞耗竭系统和CD8+ T细胞的分化轨迹的早期和中期主要观察到簇0和簇5(图7d)。GGT5在CD8+T细胞中的表达水平明显高于CD4+T细胞(图7e),主要集中在T细胞轨迹的早期和中期(图7f)。这表明GGT5表达升高可能导致T细胞衰竭。
  为了进一步研究 GGT5和CD8+T细胞之间的关系,作者获得了28种免疫细胞的标记物,使用TISIDB 数据库进行了 ssGSEA 分析,以探索这些免疫细胞、GGT5 和胃癌肿瘤分期之间的相互作用(图8a)。分析表明,较高的 GGT5表达和晚期肿瘤分期与记忆CD8+T细胞的富集增加有关。此外,相关性分析表明,GGT5表达与中枢记忆CD8+T(TCM)细胞以及效应记忆 CD8+ T(TEM)细胞之间存在显著的正相关关系(图 8b)

  图7 a,t-SNE图:显示了11个簇和不同的 T 细胞亚群。b,GGT5在T细胞各亚群中的表达值。cd,c, d T 细胞、CD8+ T 细胞和 CD4+ T 细胞的不同轨迹,以及用 monocle 计算的伪时间和簇的阴影和颜色。e,GGT5在CD8+T细胞和CD4+T细胞中的表达水平。f,GGT5 ± T 细胞的伪时间分析。g,基于 AUC 值的 MSigDB 数据库中 3 个谷胱甘肽代谢基因组的活性程度表明,谷胱甘肽代谢在 T 细胞中高表达。
8.   GC组织标本多重免疫组化(mIHC)分析
  为了探讨GGT5表达与记忆性CD8+T细胞及免疫治疗应答之间的关系,本研究收集了10例在北京朝阳医院接受免疫治疗的胃癌患者样本,对10例GC患者样本进行多重免疫组化(Multiplex immunohistochemistry, mIHC)分析,进一步探讨GGT5表达与记忆性CD8+T细胞和免疫治疗之间的关系。10例患者对免疫治疗的反应记录在表S2GGT5、CD8、CD45RO、CCR7最具代表性的mIHC染色图像如(图7)所示。另外4例患者的多重荧光染色切片由于每个maker的表达明显较低且荧光强度减弱而未展示。根据RECIST将1组患者(patient1、9、10)归为部分缓解(partial response,PR)组,将2组患者(patient2、3、7)归为非PR组。显然,GGT5的表达与记忆性CD8+T细胞呈正相关。对免疫治疗反应较差的患者(2组)表现出更高水平的GGT5表达和更高浓度的记忆性CD8+T细胞。mIHC结果不仅证实了GGT5与记忆性CD8+T细胞富集之间的显著相关性,而且还揭示了GGT5表达升高的患者对免疫治疗的反应减弱。

图8  a: GGT5高/低表达及不同分期胃癌患者28种免疫细胞ssGSEA分析;b: GGT 5与效应记忆T细胞(Effector memory T Cell,TEM)和中枢记忆T细胞(Central memory T Cell,TCM)呈现正相关性;c:mIHC分析显示接受免疫治疗的GC患者中的CD45RO、CD8、CCR7、GGT 5的表达水平。


  

 
 长按二维码关注我们,用最短的时间和最高的效率学习更多数据分析方法!

扫描上方二维码或登录平台官网后添加CNSknowall客服微信咨询!官网地址:

https://cnsknowall.com/#/HomePage 

CNSknowall:全球最大规模科研数据(0代码生信)分析平台,400款CNS级别图表皆可一秒内一键出图,登录即秒变数据分析大神,体验前所未有的便捷数据分析之旅!


Biomamba 生信基地
本人为在读博士研究生,此公众号旨在分享生信知识及科研经验与体会,欢迎各位同学、老师与专家的批评指正,也欢迎各界人士的合作与交流。
 最新文章