找好选题角度,公开数据也能发高分!

学术   2025-01-07 07:04   北京  
癌细胞中的基因改变会引发致癌转化,这一过程主要由激酶和转录因子(TF)活性失调介导。虽然成千上万肿瘤的突变特征已被广泛描述,但蛋白质活性的测量在技术上还很有限。今天分享一篇2023年1月发表在Molecular systems biology(IF:9.9)的文章,通过激酶和TF活性的调控关系剖析癌症信号变化的遗传驱动因素。研究团队主要来自英国、葡萄牙、德国、和瑞士等国家。该文总结了 1,110 个肿瘤和 77 个细胞系的匹配基因组学和(磷酸)蛋白质组学测量的公开数据,用于估算 218 个激酶和 292 个转录因子的活性变化。研究结果为了解癌症中蛋白质活性失调及其对疾病严重程度的影响提供了广泛的视角。
一、研究背景
癌症是一种高度异质性疾病,通常由体细胞基因组改变引起,包括单核苷酸变异(SNV)、基因拷贝数变异(CNV)和大的染色体重排。癌症基因组图谱(TCGA)对33种癌症类型的1万多个肿瘤的基因组改变进行了深入分析。然而,关键驱动基因的突变只是最终导致肿瘤形成和癌症的一系列事件的第一步。这些突变产生了遗传多样性,促进了多种癌症特征的获得,包括慢性增殖、抗细胞死亡、组织侵袭和转移。了解癌症发展的分子机制对于研究癌症生物学和开发治疗方法至关重要。
癌症的关键驱动基因组变化会导致细胞信号的改变,包括蛋白激酶和转录因子的失调。例如,约 40% 的黑色素瘤含有 BRAF 激酶的 V600E 激活突变,这与通过 Raf 到丝裂原活化蛋白激酶(MAPK)途径的信号传导和细胞增殖增加有关。同样,转录因子(TFs)活动异常也是癌细胞的一个主要特征。转录因子通常因其序列或上游信号调控蛋白的基因组改变而失调。由于激酶具有信号效应器的作用,异常的激酶信号可能会导致 TFs 的活性失调并改变其靶基因的表达。因此,激酶和 TFs 往往会积累癌症驱动突变,如 TP53和 KRAS,并成为抗癌药物的靶标。由于技术限制,多年来对蛋白质信号活动的研究主要局限于使用抗体研究几个关键信号蛋白,最近通过使用反相蛋白质阵列(RPPA)将研究范围扩大到几百个蛋白。临床肿瘤蛋白质组分析联盟(CPTAC)通过应用基于质谱(MS)的蛋白质组学,彻底改变了癌症蛋白质组(包括蛋白质和各自的翻译后修饰(PTMs))的研究。以质谱为基础的人类癌症蛋白质组分析有可能揭示基因组学和转录组学驱动的癌症研究可能忽略的分子问题。CPTAC能够:(i) 识别更多的癌症分子亚型;(ii) 发现基因组和转录组水平的变化往往在蛋白质组水平得到缓冲;(iii) 通过磷酸化蛋白质组学数据整合发现失调的信号通路。
为了从激酶和TF致癌信号中寻找新的治疗机会,了解这些关键信号蛋白的活性在不同肿瘤中是如何变化的至关重要。之前的研究发现,TF突变与癌细胞系和原发性肿瘤中的转录失调相关,TF活性可作为抗癌药物敏感性的预测因子。关于致癌突变对激酶信号的影响,也发现了类似的结果。然而,这些研究主要针对少数激酶和癌症类型,但仍缺乏对肿瘤中激酶和TF活性调控的系统性泛癌分析。在这项研究中,作者汇编了1110个肿瘤和77个细胞系的多组学数据集,以研究不同肿瘤类型中激酶和TFs的调控。根据基因表达水平及其靶标的磷酸化变化估算了TF和激酶的活性,得出了292个TF和218个激酶的活性曲线。作者利用这些激酶和 TF 的活性来研究这些信号蛋白受突变、丰度变化或磷酸化调控的原理。文章展示了它们的活性共调模式如何反映潜在的信号关系,并确定了在每种肿瘤类型中表现出高度调控的信号分子。最后,文章展示了这些TF/激酶活性如何能够预测不同患者的生存情况。
二、主要结果
  • 标准化多组学泛癌症数据集
为了研究癌细胞蛋白质活性的调控,作者汇总并标准化了 CPTAC 联盟提供的多组学数据集(图 1A)。这些数据集由癌症患者样本组成,其中包括九种组织的匹配体细胞突变、基因拷贝数变异(CNV)、mRNA 表达、蛋白质丰度、磷酸化和临床数据:乳腺癌、脑癌、结直肠癌、卵巢、肝、肾、子宫、肺和胃。此外,作者还收集了乳腺癌和结直肠癌细胞系的数据(图 1A)。总之,收集的数据包括 1110 个肿瘤样本和 77 个细胞系,其中 1008 个样本(932 个肿瘤和 76 个细胞系)拥有本研究使用的所有数据类型的可用数据。在每项分析中,作者都使用了具有所需组学类型数据的所有样本。作者首先计算了在多达1008个样本中,每个蛋白质和对应的同一蛋白质的磷酸位点之间的相关性。在蛋白磷酸酯对之间,相关系数为0.49,在计算每个肿瘤类型时相似,并且与之前的研究一致。这一结果表明,磷酸化的变化在一定程度上与相应的蛋白质丰度的变化相混杂。为了关注不是由蛋白质丰度差异驱动的磷酸化变化,作者从磷酸化数据中回归出匹配的蛋白质丰度。
  • 癌症中蛋白质活性的概况
迄今为止,肿瘤样本的基因组学特征描述主要侧重于根据样本的突变特征或特定生物大分子(如转录本、蛋白质或磷酸化状态)丰度的变化对样本进行分层。研究已经证明,磷酸化和基因表达水平的变化可用于推断蛋白激酶和 TF 的激活状态。基于这些方法,作者定义这些肿瘤样本中激酶/TF的活性模式。激酶活性是通过z检验(图1B)从蛋白质丰度校正磷酸化数据中估算出来的。简而言之,通过比较其底物磷酸化的变化与所有其他磷酸位点的变化,来估算样本中特定激酶的活性。同样,利用 DoRothEA 调节子结合 VIPER 算法(图 1B),从已知转录靶基因表达的变化推断 TF 的激活状态。作者总共估算了1,187个癌症样本(1,110个原发性肿瘤和77个细胞系;数据集EV1)中292个TFs的活性。为了估算激酶活性,作者评估了不同的激酶底物列表,这些列表来自资源库:磷蛋白数据库、文本挖掘、激酶抑制剂实验或细胞提取物磷酸化。作者推断出了 980 个样本(930 个肿瘤和 50 个细胞系)中 218 个激酶的活性。
对于某些激酶,已知激酶本身存在激活或抑制它的磷酸位点。作为验证,作者将估计的活性评分与激活磷酸位点的定量进行了相关性分析,结果发现与没有注释的磷酸位点相比,两者之间存在更高相关性(图 1C)。如果在重新估计活性之前排除激酶自动调节磷酸位点,也能观察到类似的趋势。最后,作者利用 TCGA 中的反相蛋白质阵列(RPPA)数据对激酶活性评分进行了基准测试。首先评估了基于 MS 和基于 RPPA 的磷酸盐定量之间的一致性,发现对应于相同磷酸盐的磷酸盐对比起随机磷酸盐对显示出更高的相关性。然后发现 RPPA 磷酸化位点与带有该磷酸化位点的激酶活性的相关性明显优于与其他激酶活性的相关性(图 1D)。
通过大量样本中激酶和 TF 的活性图谱,可以探究这些活性本身是如何被调控的。作者首先选择了在至少 5%的样本中受到强调控(即活性 > 96.7 百分位数)的 99 个激酶和 120 个 TF。然后,将各样本中预测的活性与测得的基因拷贝数(CNV)、mRNA、蛋白质和相应蛋白质磷酸化水平的变化相关联(数据集 EV2)。结果观察到,55% 的激酶活性与其磷酸化状态相关,27% 的激酶活性与其蛋白质丰度变化相关,只有极少数激酶活性与其 mRNA 变化相关(图 1E)。CNV 水平是激酶和 TF 活性变化的总体不良指标。总之,这些结果表明,激酶活性估计值有可能捕捉到不同肿瘤类型中的激酶调控事件,因此本研究的多组学图集对研究癌症中的激酶信号非常有用。
图1.蛋白质活性的多组学图谱和推断

遗传变异对蛋白质丰度和活性的影响
本研究中的大量癌症样本为测量基因改变(即体细胞突变和 CNVs)对蛋白质丰度和活性的影响提供了资源。作者首先评估了 CNV 对 mRNA 和蛋白质丰度的影响。如前所述,CNVs 与 mRNA 的相关性强于与蛋白质水平的相关性,凸显了蛋白质水平的转录后调控。然后,作者对突变的影响进行了全面评估。结果发现,携带功能缺失(LoF)改变的蛋白质,包括移帧、无义、剪接位点和终止密码子缺失,都会导致蛋白质丰度显著下降。而框架内突变和错义突变则不会出现这种情况。为了验证 LoF 突变导致的蛋白质丰度下降,作者在 NCI60 和 CRC65 小组的 125 个癌症细胞系(CCL)蛋白质组数据集进行了验证。这些观察结果证实,MS数据所捕捉到的基因改变往往能在蛋白质水平上重现。接下来,作者研究了基因改变对 TF 和激酶活性估计值的影响。在所有样本中,作者研究了TF或激酶携带突变的所有情况,并按上述突变类型(如错义、框移和无义)进行了分离。结果没有观察到肿瘤样本中携带不同类型突变的蛋白质的预测活性降低。
为了进一步说明这一结果,作者重点研究了高突变癌症基因。例如,作者研究了突变基因 BRAFV600E、KRASG12D 和 KRASG12C 对 MAPK/ERK 信号转导通路蛋白质预测活性的影响。在所有样本中,BRAFV600E 和 KRASG12D 突变与关键通路元件活性的变化无明显关联。对于 BRAFV600E,作者发现 CDK1 和 CDK7 在携带突变的样本中反而更活跃。这些结果表明,携带 KRASG12D 或 BRAFV600E 突变的样本通常具有适应突变状态的激酶活性水平,而不会激活更高水平的通路。为了对 BRAFV600E 激活突变样本中缺乏通路激活的情况提出假设,作者选择了 19 个具有该突变的样本,并将 BRAF 活性增加的样本(6 个样本)与预测活性降低的样本(8 个样本)进行了比较。磷酸酶水平可能是活化突变情况下通路活性下调的一个潜在机制。因此,作者测量了这两组样本中磷酸酶 mRNA 水平的折叠变化。在检测的 237 种磷酸酶中,74% 的磷酸酶在 BRAF 活性较低的样本中表达水平较高。然后,作者系统地将激酶和转录因子的活性与至少五个肿瘤样本中任何特定基因突变的复发突变状态联系起来。结果没有观察到激酶本身的复发性突变与通过其底物磷酸化衡量的激酶活性的显著变化相关联。这表明突变后细胞的信号状态发生了显著的适应性变化。作者发现 193 个其他基因的突变与激酶活性水平的变化显著相关(FDR < 5%)(图 2A;数据集 EV3)。例如,STK11(丝氨酸/苏氨酸激酶 11)发生突变的样本并没有显示出 STK11 底物活性的明显变化,但 STK11 的已知活化剂 PRKACA 激酶的活性却下降了(图 2C)。与激酶不同的是,有几例 TF 的突变与其自身活性的变化有关,如 TP53、GATA6、SREBF2 和 EBF1 的突变(图 2B,数据集 EV3)。此外,作者还发现 11128 个基因突变与 TF 活性改变之间存在显著关联(图 2B;数据集 EV3),包括 E2F4 和 TFDP1 活性增加与 TP53 突变之间的关联(图 2D)。
泛癌症分析可能会因批次效应或组织间的分子差异而产生虚假关联。作者将组织类型作为协变量纳入模型,以考虑这些影响。这样,由肿瘤类型引起的关联就会被抑制。作为进一步验证,作者在肿瘤类型水平上重复了遗传变异与激酶/TF活性之间的关联。发现这些关联的效应大小和意义往往与泛癌症关联高度相关。作者预测了关联富集于 STRING 数据库中注释的激酶和 TF 的蛋白质-蛋白质功能关联(图 2E 和 F-顶部)。还使用 STRING 网络按照调整后 P 值的多个截断值进行了富集分析。随着关联临界值的增加,富集检验的 -log10 转换 P 值也在增加(图 2E 和图 F 下面),验证了显著关联的普遍性。总体而言,所发现的遗传关联富集了以前已知的功能关联,其中包含潜在的新型调控关系,可供未来的实验探索。
图2.与蛋白质活性相关的遗传关联

  • 癌症中激酶和TF调节的图谱
通过对来自不同组织的大量肿瘤样本的激酶和TF活性的估计,可以初步了解数百种调节因子的肿瘤信号状态空间。作者使用UMAP方法将活性曲线投影到低维空间。对于激酶和TF活性,观察到癌症样本并没有按实验研究进行聚类(图3A)。结果表明,归一化程序有助于减轻研究之间的技术偏差,这些偏差很可能是由生物变异叠加造成的。为了选择高度可变的激酶,作者首先从具有许多共享底物的冗余激酶(如 AKT1 和 AKT2)组中选择了一种激酶。在这些激酶中,发现了 30 个在所有样本中预测激酶活性变化量最大的激酶(SD > 中位数 SD)。这些激酶与低维 UMAP 预测高度相关(图 3B)。这组高度可变的激酶包含已知的癌症驱动因子和在临床上用作癌症治疗抑制剂的激酶,如 BRAF、AKT、MAP2K1、SRC 等。用二维表示法检查肿瘤样本表明,MAPK 信号通路中高度共调的激酶往往在相同样本中被激活或抑制(图 3C)。已知 CDK1 可使酪蛋白激酶 2(CSNK2A1)磷酸化。这些激酶共同显示出与 UMAP 预测相反的相关性,因此在不同样本中显示出不同的调控状态(图 3B 和 C)。接下来,作者获得了保存在 OmniPath 数据库中的成对激酶调控关系,并将它们的活性关联起来。结果发现,已知相互调控的激酶更有可能在不同样本中具有相关的活性模式(图 3D)。研究人员预计同一通路中的激酶和 TF 在不同样本中也会有相似的激活模式。为了研究这一点,使用线性回归法将 TF 活性模拟为激酶活性的函数,在 FDR < 5% 的情况下发现了 5,712 种显著关联(图 3E;数据集 EV4)。这些结果证实了样本间活性的变化在一定程度上是由潜在的调控关系决定的。
研究人员从磷酸化蛋白质组学实验中估算了在多种不同条件下(如不同的激酶抑制剂、细胞周期阶段和DNA损伤)受到扰乱的人体细胞系中的激酶活性。计算了每种激酶表现出强调控的肿瘤样本和扰动的百分比。这就确定了在肿瘤样本和其他非癌症相关情况中经常受到调控的激酶。作者观察到激酶在癌症和非癌症情况下受到调控的样本百分比之间存在明显的相关性,其中 AKT1 和细胞周期激酶 CDK1/2 和 AURKB 在两组情况下都受到高度调控(图 3F)。偏离回归线的激酶可归类为在肿瘤或非癌症相关条件下受到优先调控的激酶。与其他非癌症情况相比,癌症中有更多激酶(如 PRKACA、CSNK2A1 和 MAPK1)发生特异性失调(图 3F)。与肿瘤中的调控程度相比,MAPKAPK2、RPS6KB1 和 RPS6KA3 等激酶在非癌症中的调控程度更高(图 3F)。
图3.肿瘤和人类扰动中蛋白质活动的调节

  • 差异蛋白活性与患者的生存变化相关
多组学数据集的生存分析主要基于患者组间的突变、基因或蛋白质表达差异。然而,激酶和TF活性也能捕捉到癌症样本的信号状态,并与患者的总体生存率(OS)相关联。为了探讨这个问题,作者首先进行了对数秩检验,比较了TF和激酶活性分为非活性、中性和活性的患者的KM生存曲线。结果发现在不同肿瘤类型中,有几种TF和激酶与OS显著相关(图4A和B;数据集EV5)。例如,MYC活性程度与脑癌和肝癌的OS相关(图4C和D),MYC活性高的患者的OS低于MYC中性和失活的患者(图4C和D)。为了考虑可能存在的混杂协变量的影响,作者使用蛋白活性评分作为预测因子,同时控制常规临床协变量和复发性突变基因的基因型,进行了多变量 Cox 回归分析。对数秩检验结果在很大程度上与 Cox 模型相吻合。作者还发现,FOXA1的高活性是肝癌的良好预后因素,而FOXM1是肝癌的不良预后因素。众所周知,这两种蛋白在肝癌发生中的作用截然相反。一方面,FOXM1的表达升高会促进肿瘤细胞的增殖,另一方面,FOXA1会通过抑制PIK3R1的表达来抑制肿瘤的进展。
在激酶方面,作者发现 MAP3K8 和 PRKCA 活性的升高与肾癌生存概率的降低有关(图 4E 和 F)。与这些结果一致的是,蛋白激酶 C 和丝裂原活化蛋白激酶 8 的过表达与肾脏肿瘤的侵袭性较高有关。作者利用 RPPA 磷酸化测量方法,在 TCGA 的另一个癌症患者队列中复制了 PRKCA 的生存曲线。总之,这些结果表明,激酶和TF活性的推断可以成为癌症研究中的相关预后工具。
图4.使用激酶和TF活性进行生存分析
三、总结
本文通过探究激酶和TF活性的协同调节发现功能缺失突变并不经常与下游靶点的失调相关,这表明了频繁的代偿机制。文章利用1110个肿瘤和77个细胞系的多组学数据集确定了在癌症亚型中调节差异最大的活性,并展示了这些活动如何与患者生存差异相关。总之,这篇文章利用CPTAC和TCGA的公开蛋白质组数据,刻画了蛋白质活性的泛癌谱。
参考文献
Sousa A, Dugourd A, Memon D, Petursson B, Petsalaki E, Saez-Rodriguez J, Beltrao P. Pan-Cancer landscape of protein activities identifies drivers of signalling dysregulation and patient survival. Mol Syst Biol. 2023 Mar 9;19(3):e10631. doi: 10.15252/msb.202110631 . Epub 2023 Jan 23.

往期热点 (点击标题跳转)

01

线粒体质量控制

02

孟德尔随机化

03

成纤维细胞(CAFs)

04

单细胞空间转录组

05

肿瘤相关巨噬细胞(TAM)

06

细胞死亡

07

耐药



课题设计 | 组学测序 |生信分析

培训工具 | 热点互动 | 资源互换


图文排版|CY

文章转载请联系 | 15510012760(微信)

广告商务合作 | 18501253903(微信)

     

 

   


生信人
共同学习生物信息学知识,共同探究生物奥秘。
 最新文章