这是一篇在2024年10月8日发表在JTM(Journal of Translational Medicine) [IF: 6.1]杂志上的文章《Comprehensive multi-omics integration uncovers mitochondrial gene signatures for prognosis and personalized therapy in lung adenocarcinoma》(DOI: 10.1186/s12967-024-05754-y)。
全文链接:Comprehensive multi-omics integration uncovers mitochondrial gene signatures for prognosis and personalized therapy in lung adenocarcinoma - PMC
摘要:本研究通过多组学整合方法探索了肺腺癌(LUAD)中线粒体相关基因的预后意义,以开发个性化治疗策略。研究利用转录组和单细胞RNA测序(scRNA-seq)数据结合临床信息,对LUAD的成纤维细胞、上皮细胞和T细胞进行了亚分类分析。通过TCGA-LUAD数据识别出关键的线粒体相关预后基因,并使用一致性聚类将LUAD分为不同分子亚型,深入分析了基因表达和临床特征。借助机器学习集成算法,研究开发了人工智能衍生预后特征(AIDPS)模型,并在多数据集上验证了其对患者预后的预测准确性,揭示了风险组在免疫治疗、化疗反应和生存结果上的显著差异。综合的肿瘤突变负荷(TMB)、免疫微环境和GWAS数据分析进一步揭示了线粒体基因在LUAD发病机制中的作用,为个性化治疗提供了新方法和依据。
Fig1:展示了本研究的工作流程,涵盖数据收集、处理和分析的步骤。研究从TCGA和GEO数据库获取了肺腺癌(LUAD)转录组数据和单细胞RNA测序数据,并采用降维和聚类技术对数据进行处理,聚焦于成纤维细胞、上皮细胞和T细胞的分析。此外,研究通过机器学习算法构建了基于线粒体相关基因的预后模型(AIDPS),并在多个数据集上验证其预测性能,以评估其在免疫治疗和化疗中的预后作用
Fig2:展示了LUAD单细胞数据的聚类结果,包括不同细胞类型(如成纤维细胞、上皮细胞和T细胞)的分类和来源(肿瘤或正常样本),并通过气泡图和箱线图说明了各细胞类型的标记基因表达和组成差异 。
Fig3:展示了LUAD中上皮细胞的亚分类和特征分析,包括t-SNE聚类、细胞组成、转录因子活性、和拷贝数变异(CNV)分析。此图还包含细胞轨迹分析,以揭示不同细胞状态之间的转化关系,以及基因集富集分析(GSEA),探讨上皮细胞在不同亚群中的分子特征
Fig4:展示了单细胞分析的结果,包括T细胞和成纤维细胞在肿瘤和正常样本中的聚类与注释分析,转录因子活性热图,以及各类T细胞(如驻留型、细胞毒性、衰竭型和共刺激型)的评分差异。同时,图4还显示了成纤维细胞的标记基因表达分布与CAF细胞的转录因子活性
Fig5:展示了一致性聚类分析及线粒体相关预后基因集的获取结果。具体包括220个预后基因的HR森林图、一致性聚类热图、主成分分析(PCA)结果、不同分子亚型的生存分析,以及TCGA数据中这些基因的表达热图。图中还提供了亚型结果和临床指标(T/N/M分期、年龄、生存状态等)的统计柱状图和基因集富集分析(GSEA)结果,显示出不同分子亚型间的生物学差异.
Fig6 :展示了机器学习整合方法构建的风险模型的结果,包括对101个模型在11个验证数据集中的C-index评估、TCGA训练数据及11个验证集的生存分析结果,以及合并数据集的生存分析。此模型在多个数据集中表现出良好的预测能力和稳定性,有助于识别LUAD患者的高低风险群体 。(11个数据集真的是大力出奇迹)
Fig7:展示了AIDPS模型在不同时间点(1年、3年、5年)的AUC值柱状图、各数据集的C-index误差柱状图,以及AIDPS模型与其他临床指标在TCGA训练集和11个验证数据集中的C-index误差对比,全面评估了该模型的预测性能和稳定性
Fig8:对比了AIDPS模型与其他基于文献的52个预后模型的表现,展示了在12个数据集中的预后相关性热图以及每个模型在TCGA训练集和11个验证数据集的C-index误差图。结果显示,AIDPS模型在预后相关性和C-index值上优于其他模型,表现出更高的稳定性和可靠性
Fig9: 展示了高低风险组的突变特征和免疫微环境差异,高风险组显示出更高的肿瘤突变负荷(TMB)、突变等位基因肿瘤异质性(MATH)和同源重组缺陷(HRD)。此外,免疫浸润分析显示低风险组富含B记忆细胞、单核细胞等,而高风险组则富含活化的T细胞和M1型巨噬细胞
Fig10 SNV突变和免疫微环境差异的分析结果。两个样品组中SNV突变的瀑布图。两组间TMB、MATH和HRD值差异的箱形图。箱形图显示了两组之间通过CIBERSORT算法获得的22种免疫细胞类型含量的差异。小提琴图显示了两组之间通过ESTIMATE算法计算的3个指数的差异
Fig11: 展示了LUAD基因组关联研究(GWAS)和孟德尔随机化(MR)分析的结果。具体内容包括GWAS数据的曼哈顿图和两个预后基因(CDKN3和MYO1E)的共定位分析,以及与肺癌相关的显著SNP位点的散点图和漏斗图,揭示了基因与疾病风险的潜在关联 .
本文亮点: 这篇文章的特色在于其综合应用多组学数据、机器学习方法和孟德尔随机化(MR)分析,提出了一种新的基于线粒体相关基因的预后模型(AIDPS),用于预测肺腺癌(LUAD)患者的预后。研究结合了转录组、单细胞RNA测序数据、GWAS分析和MR分析,从细胞类型、免疫微环境、基因突变、预后相关基因及潜在遗传风险等多个角度深入分析LUAD的分子特征。通过MR分析,识别出LUAD相关的关键基因位点,探索了遗传因素在疾病中的作用。此外,模型在11个独立数据集上的验证提高了其预测的稳健性和广泛适用性,为个性化治疗提供了新的思路。这种多层次整合、遗传风险分析与多数据集验证的方式在LUAD研究中尚属少见,展示了该模型在临床应用中的潜力。
小编思考:不知道大家有没有发现这篇文章是有亮点的,11个数据集的堆叠确实做到了让人眼前一亮的效果,但是既然做的是线粒体相关基因的预后模型,第一部分的单细胞和最后结尾的MR让我思考良久,因为并未涉及线粒体............,那转变一下思路,单细胞部分和MR部分与线粒体相关基因加强联系是不是更有说服力~
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟