摘要
肿瘤异质性对癌症的个性化诊断和治疗提出了挑战。癌症特异性生物标志物的鉴定方法对于癌症类型的诊断和治疗具有重要应用。在这项研究中,作者分析了来自 TCGA 和 GEO 的泛癌 DNA 甲基化数据,并提出了一种基于 G 蛋白偶联受体相关基因(GPCRs-related genes)的 DNA 甲基化水平来量化特异性程度的计算方法。并鉴定泛癌中的特定 GPCR
DNA 甲基化生物标志物 (GRSDMs)。然后,使用基于岭回归的方法通过预测癌症样本的药物敏感性来发现潜在的药物。
介绍
癌症的精准诊断可以降低癌症死亡率,目前癌症的诊断方法已经开发了多种生物标志物。然而,癌症之间存在广泛的异质性,因此,开发泛癌之间的生物标志物可以减少一定的检测步骤和成本,也可以更容易地指导临床诊断和预后。
G 蛋白偶联受体 (GPCRs) 涉及控制肿瘤的起始和进展。 GPCRs是最大的细胞膜受体家族,临床医学中近一半的分子药物靶向GPCRs信号治疗中枢神经系统、心血管系统和代谢系统的各种疾病。尽管对癌症中GPCRs的药物靶点和预后生物标志物的研究逐渐深入,但GPCRSs与恶性表型的生物学相关性意味着GPCRs在癌症中并没有被安全探索。 GPCRs 相关基因作为癌症特异性特征的应用将是有希望的。
表观遗传机制有助于癌症的发生和发展,DNA甲基化具有组织特异性,在组织分化中起决定性作用,被广泛用作癌症诊断和治疗的生物标志物。而且DNA甲基化被证实参与了癌症的早期阶段,与正常发育和生长有关,在肿瘤中经常伴随失调。另外启动子区域DNA甲基化与肿瘤发生密切相关,研究证明启动子甲基化影响诊断和治疗。因此,GPCRs相关基因的DNA甲基化水平将揭示泛癌的特定生物学差异,并成为早期可靠的生物标志物。
在本研究中,基于GPCRs相关基因的DNA甲基化水平,开发了一种计算方法来量化特异性程度,并在泛癌中识别GRSDMs,为泛癌的诊断和治疗提供了前景。
材料和方法
(1)数据来源:本研究从TCGA数据库下载了33种癌症类型的DNA甲基化数据,以及相应样本的生存数据,以及GEO数据库中总共11种癌症和正常DNA甲基化数据;利用MSigDB数据库中GPCRs通路基因集作为GPCRs相关基因。
(2)识别差异甲基化位点和基因:将TCGA中每种癌症类型的DNA甲基化病例与GEO中相应的癌症类型数据进行分批,使β值符合均匀分布。将每种类型的癌症样本随机分为7:3,作为训练集和测试集。应用t检验在每个癌症类型中筛选差异甲基化位点,然后根据平台注释信息将差异甲基化位点映射到基因。
(3)差异甲基化基因的功能注释:通过“ClusterProfiler”R包进行GO和KEGG注释。
(4)差异DNA甲基化位点的特征选择:使用“Boruta”算法对差异DNA甲基化位点进行选择,以获得癌症类型的特征DNA甲基化位点。使用不同特征DNA甲基化位点集构建决策树分类器,分别区分不同癌症类型和正常样本。曲线下面积(AUC)用于评估模型的性能。
(5)泛癌特异性GPCR相关DNA甲基化基因(GRSDMs)的鉴定:是每种癌症中特征DNA甲基化基因的平均值,是将每个特征DNA甲基化基因输入QDMR后获得的熵值,是相关基因i在癌症N之间的甲基化概率,S是代表每种癌症的样本数量。
为了消除癌症内部样本之间的异质性,本研究还计算了每个癌症中所有基因的平均值和每种癌症类型的基因变异系数。癌症基因特异值为
本研究构建了癌症基因特异性值的解离公式,定性测量癌症的特异性和特异性DNA甲基化基因,使每个特异性DNA甲基化基因只对应一种癌症类型。对应于所有癌症的每个基因的特定值的平均值为,Ti,N(max)和Ti,N(min)分别是对应于所有癌症的每个基因的特定值中的最大值和最小值。被用作识别癌症的特定DNA甲基化基因标记GRSDMs的指标,与所有癌症对应的每个基因的计算最大值表示癌症的特定DNA甲基化基因标记。
(6)生存分析:基于无进展生存期(PFS)的泛癌特异性DNA甲基化基因进行生存分析,p值<0.05被用作分析预后基因的阈值。
(7)与药物靶点的相关性分析:本研究从GDSC数据库下载了198种药物的IC50值,使用“oncoPredict”R包根据mRNA基因表达数据预测TCGA每个样本的IC50。应用Spearman相关性分别计算药物IC50值与经验证的GRSDMs DNA甲基化水平的相关性,以寻找治疗GRSDMs的潜在有效药物。
结果
1)泛癌中与GPCR相关的DNA甲基化基因景观
本研究分析了所有GPCRs相关基因的DNA甲基化水平,进行了Kruskal-Wallis检验,以检查泛癌中GPCR相关基因的DNA甲基化水平差异。在泛癌层面上,GPCRs相关基因的DNA甲基化水平存在显著差异(p< 0.05)。
2)泛癌特征DNA甲基化基因的获得
为了获得泛癌中的GRSDM,本研究首先在训练集中分析了每种类型癌症的差异DNA甲基化位点,并获得了总共26个差异DNA甲基化位点和基因集(图2A)。这些差异DNA甲基化基因进行了功能富集,并在cAMP信号通路和Rap1通路等中显著富集(图2B)。采用“Boruta”方法筛选特征性差异DNA甲基化位点/基因,最终获得26个泛癌特征性DNA甲基化位点/基因,结果如图2C所示。将训练集上的3283个特征DNA甲基化基因和1382个GPCRs相关基因相交,获得169个泛癌中GPCR相关的特征DNA甲基化基因(图2D),然后用于构建决策树分类器,以测试特征DNA甲基化位点的分类性能,在测试集上,多达25种癌症类型(如ACC)的分类模型AUC达到1.0(图2E)。
3)识别泛癌特异性GPCR相关DNA甲基化基因(GRSDMs)
接下来本研究计算了每种癌症类型中的特异基因。结果表明,有三种癌症只有一个特异的DNA甲基化基因,如乳腺癌(BRCA)、宫颈鳞癌和宫颈腺癌(CESC)、胃腺癌(STAD)。四种癌症有超过10种特异的DNA甲基化基因,如结肠癌(COAD)、THCA、胸腺瘤(THYM)和UVM(图3A)。为了更好地分类癌症类型,本研究使用169个GRSDMs构建了一个随机森林来诊断癌症,模型的AUC在测试集上可以达到0.88,在GEO数据集上可以达到0.829(图3B,C)。
4)特异性DNA甲基化基因的预后分析
为了筛选与预后相关的特异性DNA甲基化基因,本研究使用每种癌症169个特异性DNA甲基化基因的平均β值作为高风险组和低风险组的阈值。最后,本研究获得了22个特定的DNA甲基化基因,使高风险组和低风险组的生存曲线显著分离(p<0.05)(图4)。
5)GEO中特异性DNA甲基化基因的验证
为了验证可靠的GRSDM,在11组GEO数据上验证了训练集中获得的22个与预后相关的特异性DNA甲基化基因,并在泛癌中验证了8个特异性DNA甲基化基因。如图5所示,8个GRSDMs在三个数据集中均显示出一致性。
6)基于泛癌特异性DNA甲基化基因的潜在药物选择
由于GRSDMs可以解释泛癌的异质性,因此基于特定DNA甲基化基因分析与药物敏感性的关系,以选择不同癌症类型的潜在药物并改善预后。本研究共筛选出4个与12种相关药物显著相关的GRSDM,结果如图6所示。
讨论
本研究获得并验证了八种特异的GPCRs相关DNA甲基化基因来诊断四种癌症类型。研究表明,识别癌症特异性生物标记物对癌症诊断很重要,并可以为癌症治疗与药物选择提供新的方向。
参考文献:
DNA Methylation-Specific Analysis of G Protein-Coupled Receptor-Related Genes in Pan-Cancer. Genes. 7 July 2022. https://doi.org/10.3390/genes13071213.
Mengyan Zhang, Jiyun Zhao, Huili Dong, Wenhui Xue, Jie Xing, Ting Liu, Xiuwen Yu, Yue Gu, Baoqing Sun, Haibo Lu and Yan Zhang.
计算表观遗传学
计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享
往期「精彩内容」,点击回顾
DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位
BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析
乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图
KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵
精彩会议及课程,点击回顾
编辑:sm
通讯邮箱:ad.cepi@edbc.org
投稿邮箱:scw.cepi@edbc.org
CEPI感谢您的支持!
(IOS系统用户专用通道)