巧妙利用蛋白质数据发表Cell文章

学术   2024-12-26 16:01   北京  

癌症驱动事件是指驱动肿瘤发生的关键基因畸变,其确切分子机制仍不完全清楚。蛋白质基因组的致癌突变对于癌症进展来说至关重要。今天介绍一篇美国华盛顿大学于2023年8月发表在Cell(IF:64.5)上的文章。该文通过在RNA、蛋白质和磷蛋白水平确定其显著的顺式效应和远端反式效应,揭示了癌症驱动因素的影响。这项工作证明了全面的蛋白质基因组学在理解致癌驱动基因的功能状态及其与癌症发展的联系方面的价值,超越了研究单个癌症类型的局限性。感兴趣的小伙伴们一起来看看吧!



一、研究背景

癌症主要是由肿瘤抑制基因(TSG)和原癌基因中的基因驱动突变引发的。界定一个基因是否为癌症驱动基因需要考虑多种指标,包括基因中的突变复发、蛋白质功能域、致癌突变的单个氨基酸热点、损伤性突变的富集、或蛋白质结构中体细胞突变的三维聚类。将这些标准应用于大量癌症基因组学数据时,近年来癌症基因及其预测驱动突变的研究不断增加。


临床蛋白质组学肿瘤分析联盟(CPTAC)通过整合整个蛋白质组学领域的数据:全外显子组和全基因组测序、DNA 甲基化、RNA-seq 以及综合蛋白质组学和磷酸化蛋白质组学,加速了对癌症基本分子机制的理解。迄今为止,已为十种癌症类型的 1,000 多个病例生成了大量数据:子宫内膜癌 (UCEC)、肺腺癌 (LUAD)、胰腺导管腺癌 (PDAC)、胶质母细胞瘤 (GBM)、和乳腺癌 (BRCA)。通过对各种组学层面变化的检测,体细胞驱动突变的影响可追踪到生物结构和功能的单位:蛋白质。


泛癌症研究的重点是确定不同癌症的分子特征。在此,作者扩展了之前以基因组学为中心的泛癌症研究,纳入了蛋白质组层,以阐明癌症驱动因素的六个关键方面:(1)泛癌症基因组和表观基因组驱动因子的频率、排他性和共存性;(2)驱动因子改变对RNA、蛋白质和翻译后修饰(PTM)的影响;(3)驱动因子改变对蛋白质复合物的影响;(4) 致癌通路中重要的蛋白质和磷酸化水平变化;(5) 可操作的驱动基因改变与肿瘤微环境(TME)的关联;以及 (6) 从癌症特征的角度看体细胞驱动基因对蛋白质丰度的综合影响。研究结果表明了综合蛋白质基因组分析在解码致癌驱动因素方面的潜力及其潜在的临床用途,尤其是在缺乏明确基因组靶点的情况下。


二、主要结果

1.驱动改变和相关多组学集群的泛癌症蛋白质基因组学概况

作为 CPTAC 的一部分,作者对前瞻性收集的10种癌症类型的 1064 个病例的蛋白质组学数据进行了统一处理和分析,包括基因改变、DNA 甲基化、转录组、全局蛋白质组学和磷酸蛋白质组学(图 1A)。一个重要的进步是纳入了基于质谱分析的蛋白质组和磷酸化蛋白质组数据,使量化特征的数量成倍增加,达到 15,699 个蛋白质和 110,274 个磷酸化位点(图 1B),而在癌症基因组图谱(TCGA)基于 RPPA 的检测中分别评估了 128 个和 53 个特征。为了揭示肿瘤在转录组、蛋白质组和磷酸化蛋白质组中的变异情况,作者采用贝叶斯非负矩阵因式分解法对肿瘤样本进行聚类,然后进行分层聚类。结果发现了四个主要的多基因组聚类(聚类 A-D)(图 1C)。此外,作者识别了差异表达蛋白(DEPs)和磷酸位点(DEPPs)。从功能上看,群集 A 相关的 DEPs 在雌激素依赖性基因表达中富集,DEPPs 在 DNA 修复中富集。集群 B 中的 DEPs 和 DEPPs 在 DNA 复制、先天性免疫系统和细胞周期中富集,这与CDKN2A的大量改变一致。集群 C 中的相关 DEPs 和 DEPPs 与细胞外基质(ECM)组织和 VEGFA-VEGFR2 的信号转导有关。最后,D 组富含酪氨酸代谢和 MAPK1/MAPK3 信号转导(图 1C)。接下来,作者利用基于蛋白质的单样本基因组富集分析(ssGSEA)量化了每个多组学簇中富集的代表性通路如何因癌症类型而异(图 1D)。在上皮-间质转化(EMT)通路方面,GBM的得分高于其他癌症类型,尤其是在D组(图1D)。这部分结果主要揭示了驱动基因的改变对其 RNA 和蛋白质产物的影响。


图1:泛癌症畸变的景观特征的四个多组群


2.蛋白质基因组分析揭示了癌症突变的顺式效应的异质性

虽然基因变异会对蛋白质组产生广泛影响,但最直接的影响是突变基因本身的转录、翻译和翻译后产物。为了探索这种顺式效应,作者通过线性回归模型评估了推测的癌症驱动基因突变与其 RNA、蛋白质或磷蛋白水平变化的相关性(图 2A)。在59个癌症基因中发现了 265 个泛癌症水平的重要顺式事件(图 2B)。对每种肿瘤类型进行单独分析后,在59个癌症基因中发现了349个顺式效应。其中大部分与泛癌症分析中的顺式效应重叠。将这一分析扩展到成对的癌旁组织(normal-adjacent tissues , NATs),可以进一步了解基因子集的动态变化。虽然以肿瘤为重点的分析表明 ARID1A 的体细胞突变与 ARID1A 蛋白丰度较低有关,但 NAT特征显示,缺乏 ARID1A突变的肿瘤的ARID1A蛋白丰度竟然高于NAT(图 2C)。野生型(WT)STK11肿瘤表现出较高的STK11蛋白丰度,但其蛋白丰度低于配对的NATs(图2D),这表明STK11的下调对于缺乏STK11体细胞突变的肺部肿瘤也至关重要。纳入 NAT 样本可以了解顺式效应如何改变 WT 肿瘤的蛋白水平以及相应正常组织的蛋白丰度。


虽然某些类型的变异预计会对蛋白质水平产生特定的顺式影响,但其他变异(如错义突变)的后果却可能千差万别。为了评估错义突变是否会影响癌症基因中蛋白质的稳定性,作者首先对蛋白质丰度进行了归一化处理。在对推定的致癌错义突变重复顺式效应分析后,发现了 11个泛癌症和15个队列特异性显著事件(图 2E)。正如预期的那样,TP53 错义突变与较高的蛋白质丰度相关,而框移嵌合突变和无义突变与较低的蛋白质丰度相关(图 2F)。在所有其他具有顺式效应的TSGs中,致癌错义突变与较低的蛋白丰度相关,这些错义突变优先发生在蛋白质结构中的氨基酸处(图 2G)。例如,PTEN对氨基酸的推测驱动错义突变表现出很大的偏倚(图 2H),尤其是计算预测为致癌的错义突变(图 2I)。这些计算预测的致癌突变与OncoKB中已知的致癌突变一样,显示出较低的PTEN磷酸酶活性。通过独特的蛋白质组学方法,这些结果突显了致癌错义突变在降低某些肿瘤抑制因子蛋白丰度方面未被重视的作用。


图2:在CPTAC队列中SNV在癌症基因中的顺式效应


3.通过蛋白质共变异分析推断改变的蛋白质-蛋白质相互作用

体细胞突变可能会改变蛋白质-蛋白质相互作用(PPIs)。虽然 CPTAC 中没有直接测量 PPIs,但已知的蛋白质相互作用对显示了较高的蛋白质共表达(图 3A)。在较多 PPI 数据库中显示的蛋白质对的相关值较高(图 3B),作者将蛋白质水平之间的显著相关性作为PPIs的间接证据。首先,计算了 CPTAC 队列中至少涉及一个癌症基因的已确立 PPI 蛋白对之间的相关性(图 3C)。这揭示了一组保守的核心PPI,如 MSH2/MSH6、CTNNA1/CTNNB1和 RAD21/STAG1。在 GBM 中,mTOR蛋白丰度与RPTOR相关,但与RICTOR无关(图 3D)。这些结果突显了不同癌症类型中PPIs的可塑性,以及在测量RNA的同时测量蛋白质水平的重要性。接下来,作者将蛋白质共表达作为蛋白质相互作用指标的概念扩展到拷贝数改变(CNA)的驱动基因。结果发现驱动基因的32个已知相互作用因子相对于驱动基因的CNA状态有显著差异表达(图3E)。作者评估了基于 CNA 的反式效应是否确实是通过驱动基因的蛋白丰度而非CNA中的无关基因中介的(图3F)。发现大多数PPI反式效应(66%)与驱动基因的蛋白质丰度有关。例如,在泛癌症水平上,RICTOR的拷贝数扩增与MAPKAP1(图3G)和mTOR的蛋白丰度增加有关,这可以分解为对RICTOR蛋白水平的顺式效应(图 3H)和RICTOR 与MAPKAP1/mTOR蛋白水平之间的反式效应(图3I),与 CNA 状态无关。


体细胞突变可以通过改变蛋白质之间的相互作用界面来改变蛋白质之间的相互作用。在控制癌症类型和肿瘤纯度的泛癌症分析中,作者发现了51个重要事件(图3J)影响蛋白质相互作用。例如,SMAD4中的几个致癌点突变与SMAD2的相关性降低相关(图3K),提示可能失去蛋白相互作用。SMAD4蛋白与SMAD2交界面处的错义突变的定位进一步支持了这一假设(图3L)。最后,磷酸酶2A全酶的支架蛋白PPP2R1A的致癌突变消除了与控制磷酸酶特异性的调控亚基子集的相关性,包括PPP2R2A、PPP2R5E和PPP2R5B(图3M)。致癌错义突变同样位于PPP2R1A和调控亚基的界面(图3N)。总之,分析 CNA、单核苷酸变异(SNV)和磷酸化对蛋白质共变的影响是了解癌症中相互作用网络重新布线的潜在有力方法。


图3:通过蛋白质共变分析推断蛋白质相互作用的改变


4.CPTAC队列中癌症基因体细胞突变的反式效应

体细胞突变的影响可以超越其自身蛋白质产物的顺式效应或直接相互作用。这些更遥远的反效应阐明了驱动基因改变可能产生的深远的分子扰动。一个癌症基因的所有反式效应的聚集可以被认为是它的“分子指纹”。假设这些分子指纹可以评估不同突变癌症基因对之间的相似性并推断功能关系(图4A)。为了识别这些基因对,作者计算了每个驱动基因的蛋白质组学和磷蛋白质组学反式效应特征之间的相关性(图4B)。突变反效应最相似的两个癌基因是KEAP1和NFE2L2。KEAP1结合并随后标记转录因子NFE2L2进行降解归因于这些蛋白质的所有反式效应之间的高度全局相关性(图4C)表明,这两个基因突变的整体细胞效应是相同的:NFE2L2的蛋白质稳定性增强,随之而来的是其转录靶点的过表达。这与这些基因的突变是互斥的事实是一致的(图4D)。这两个基因最强的反式效应是上调NFE2L2靶点,如AKR1C2和AKR1C3(图4E)。虽然大多数癌症基因显示出正相关,表明类似的反式效应,但也观察到TP53/PTEN、TP53/CDH1、EGFR/KRAS和EGFR/STK11之间存在负相关,其中最后一个例子具有最强的负相关(图4F)。EGFR/STK1对具有几种相反的反式效应,这取决于癌细胞是否具有EGFR或STK11突变,包括几个磷酸化位点,如TP53BP2 S704和IRS2 S1100(在STK11突变的样本中增加,在EGFR突变的样本中减少)或WIPF S155和PTPN11 Y62(在EGFR突变中增加,反之亦然,图4G)。值得注意的是,大多数这些影响与EGFR内突变的特定位置无关(图4H)。这些结果表明,EGFR和STK11突变可以将正常细胞推向相反的致癌状态。接下来,作者在泛癌水平上研究了突变对细胞磷酸化状态的反式影响。作者比较了所有癌症类型的突变和WT样本之间预测的激酶活性(图4I)。例如,ACVR2A和TP53突变均表现出细胞周期和剪接激酶的激活。此外,作者利用激酶库确定了表皮生长因子受体突变和 STK11突变 LUAD 样本中不同激酶的活性状态。在表皮生长因子受体突变的样本中,大多数被激活的激酶来自 CAMK和AGC家族,而大多数被抑制的激酶来自CMGC家族(图 4J)。来自不同家族的多种激酶在表皮生长因子受体突变样本和STK11/KRAS突变样本之间显示出相反的活性(图 4K)。这些数据表明,表皮生长因子受体突变和STK11/KRAS突变会导致癌细胞中不同的磷酸化读数。利用磷酸化位点周围的底物基团进行的激酶富集分析可以捕捉到癌症中驱动基因突变的潜在机制,为基因检测之外的治疗策略提供信息。对于临床试验设计和个性化肿瘤药物再利用具有重要意义。


图4:体细胞突变在CPTAC队列中癌症基因的反式效应


5.肿瘤和正常邻近组织的比较分析确定了致癌通路的关键蛋白变化

与其他大规模肿瘤特征研究不同的是,10个CPTAC队列中有8个包含配对(相似细胞系)或非配对(非相似细胞系)NATs(n = 556),GBM 研究包含 10 个基因型-组织表达(GTEx)项目正常样本(图5A)。用来研究肿瘤和配对NAT之间的不同表达模式。与同源 NATs(如 ccRCC)相比,肿瘤呈现出不同的蛋白质组和磷酸化蛋白质组特征(图 5B),并在泛癌症队列中发现了6517个在肿瘤中升高的DEPs和7030个在NATs中升高的DEPs。在这6517个DEPs中,3070个在≥2种癌症类型中差异表达,其余的在单一癌症类型中差异表达。在常见的DEPs中,作者发现 PLOD2、UBE2C和MARCKSL 在所有癌症类型中都有表达(图 5C)。值得注意的是,作者观察到在ccRCC、LUAD和PDAC中,高PLOD2蛋白丰度与较差的总生存率显著相关,在GBM、HNSCC和LSCC患者中也有类似的趋势(图5D)。这表明PLOD2作为泛癌症预后生物标志物的潜在价值。为了进一步研究TME中哪些细胞类型可能表达这些蛋白,作者使用了单核RNA-seq (snRNA-seq)数据,并基于与xCell和ESTIMATE特征的相关性分析,将这些蛋白分为四类:肿瘤(T)、免疫(I)、基质(S)和混合(M)(图5C)。在8种癌症类型中,有7种肿瘤中基于蛋白的细胞周期ssGSEA评分相对于NATs显著升高(图5E)。在细胞周期通路蛋白中,多种癌症类型中发现27个DEPs上调(图5E)。同样,作者在肿瘤中检测到与不同癌症类型的NATs相比,TP53的转录调控途径始终富集。最后,作者利用激酶库从磷酸蛋白组学数据中推断不同癌症的激酶活性模式(图5F)。首先应用基于蛋白质和 RNA 的通路富集分析来确定不同组织中共享或不同的通路。有趣的是,细胞周期和其他复制相关通路在大多数肿瘤类型中都有富集,主要是在蛋白质水平(图5G)。激酶库显示,除ccRCC和PDAC外,大多数肿瘤类型都存在多种CDKs的广泛激活(图5H)。在不同组织的蛋白质水平也主要观察到剪接通路(图5G),这与相应组织中激活的剪接激酶一致(图5H)。此外,作者还发现不同组织中的激酶活性与其在蛋白质水平上的相关富集通路一致,如 PI3K-AKT-mTOR通路仅在ccRCC中富集(图5I)。此外,还观察到PDAC中KRAS信号转导的潜在反馈机制,该机制仅在磷酸化水平上明显,其中KRAS信号转导的上调与ERK家族蛋白激酶活性的降低有关。这一发现可能解释了治疗KRAS突变胰腺肿瘤的药物临床疗效降低的原因,并进一步强调了癌症蛋白质组学和磷酸化蛋白质组学特征描述的重要性。


图5:对正常邻近组织的分析确定了致癌途径的关键蛋白质变化


6.体细胞突变对免疫原性新抗原和可药物激酶的影响

鉴于新抗原与免疫疗法的相关性 ,研究人员系统地预测了与患者特异性人类白细胞抗原(HLA)I 类等位基因结合的新抗原。新抗原负荷与肿瘤突变负荷存在预期的正相关性,而具有吸烟和MSI突变特征的肿瘤样本中新抗原负荷更高(图6A)。根据突变负荷归一化预测的新抗原负荷在MSI高的样本中更高,这可能是由于插入和缺失频率较高导致了框移位。在泛癌症水平上,新抗原负荷与推断的T细胞浸润呈正相关。然而,只有基线肿瘤突变负荷较高的癌症类型(COAD、UCEC、LUAD 和 BRCA)本身具有名义上的显著性,这表明免疫原性的新抗原负荷阈值很小。作者研究了在特定驱动突变背景下预测的新抗原负担与T细胞浸润之间的关系,七个驱动基因的致癌改变与新抗原负荷与推断的T细胞浸润之间的相关性变化相关,包括KRAS (图6 B)。为了研究新抗原表达水平与免疫原性之间的潜在相关性,作者观察到在MSI高的肿瘤样本中含有大量预测新抗原(≥20)的基因子集在蛋白质水平上也高度表达(图6C)。与所有蛋白相比,高表达蛋白中的新抗原负荷提高了COAD中推断的T细胞浸润的相关性(图6D),其中MSI很常见。尽管癌基因的拷贝数扩增与WT肿瘤的蛋白质丰度相关,但它们也显示出更高的蛋白质丰度方差。这些发现扩展到可药物靶点(图6E)。使用激酶库,作者分析了可能激活可药物激酶的CNA事件。发现多个CNA事件导致CDKs的激活(图6F),包括CDKN2A的缺失,该缺失作为CDK4/6i治疗的潜在生物标志物得到了先前的实验和临床支持。除CDKN2A缺失外,还发现了与CDK激活相关的核心细胞周期通路内外的其他CNA事件(图6F)。RB1基因发生致癌改变的肿瘤与CDK2在RNA和蛋白水平上的显著上调相关(图6G),可能与RB1的缺失及其在转录抑制中的已知作用有关。因此,来自激酶库的CDK激活信号可能反映了依赖于驱动改变的不同CDK的激活。


为了区分CDK激活代表癌症依赖性的情况,作者通过分析与驱动改变(包括体细胞突变和CNAs)的蛋白质组学特征有关的细胞系药物反应数据,扩展了对潜在治疗脆弱性的分析。研究人员计算了64种驱动改变的蛋白质组学特征和药物反应特征之间的标准化药物连通性评分,这些化合物要么是FDA批准的,要么是正在积极的临床研究中(图6H)。有趣的是,与激酶文库的结果一致(图6F),作者发现与细胞周期途径内外基因相关的泛癌蛋白质组学特征与多种CDK抑制剂(CDKi)的药物连通性相关(图6H,顶部)。这些发现也可以在驱动改变的组织特异性特征中看到(图6H,底部)。在某些情况下,例如RB1缺失,在激酶文库中可以看到强烈的CDK激活,但与CDKi药物反应谱的关联相对较低(图6I)。RB1改变的癌细胞对CDK4/6的依赖性较低,但对CDK2的依赖性较高(图6J)。这些结果表明,CDKi在治疗含有基因组改变(MCL1或ERBB2扩增)的肿瘤方面具有潜在的治疗益处,这些改变不一定与细胞周期途径直接相关。


图6:体细胞改变的免疫原性和药物性分析


7.综合多基因组评分为体细胞改变如何改变癌症特征提供了证据

个体基因改变可以影响顺式、反式和介质设置的蛋白质组学景观。作者建立了一个肿瘤多基因蛋白丰度预测算法,称为C3PO,作为一个理论练习。该工具应用多基因数学来描述蛋白质变异性,而不是疾病状态,如多基因风险评分(PRS)。尽管很难预测单个蛋白质,但在一条通路中许多蛋白质的一致变化可能会揭示有生物学意义的结果。为了说明这一点,作者汇总了癌症标志基因的C3PO评分(图7A, 7B)。C3PO旨在评估肿瘤之间的可变性。因此,几乎所有肿瘤都表现出通路失调的情况,作者通过评估C3PO对每个样本产生的前三个标志评分之间的熵,探索了由基因组变异引起的癌症类型之间的标志可变性(图7C)。从这些预测中,作者发现某些类型的癌症表现出较低的标志变异性(图7D)。UCEC在每个样本中的顶级特征具有更大的异质性(图7E),包括DNA修复和通路。因此目前对基因组学数据的系统理解至少可以捕捉到癌症标志蛋白水平的一些可变性。


除了C3PO产生的标记分数外,作者还使用了ssGSEA直接从蛋白质丰度来鉴定富集(图7A和7F)。在每个样本的顶部标记中观察到更高的通路变异性(图7G)。DNA修复、细胞周期和凋亡、染色质修饰和癌症驱动标志聚集在C3PO和ssGSEA中。经过进一步分析,LUAD(图7H)和UCEC(图7I)都包含具有较高EMT和ECM活动的样本亚组,这是一个通常与已知驱动事件无关的标志。这一结果特异于来自ssGSEA的蛋白质分析,表明肿瘤内的蛋白质变异性可以反映DNA、RNA和蛋白质水平上不同改变的聚集。这些可以产生类似的下游效应,并且独立于体细胞改变,可能是由于细胞外或微环境的相互作用。这些发现补充了基因组学,并强调了蛋白质组学对肿瘤表型表征的贡献。


图7:综合多基因组评分为体细胞改变如何改变癌症特征提供了证据


三、总结

总的来说,这篇文章的多组学泛癌症分析通过确定其在RNA、蛋白质和磷蛋白水平上量化的显著顺式效应和远端反式效应,揭示了对癌症驱动因素影响的见解。突出的观察结果包括点突变和拷贝数改变与蛋白质相互作用网络重新连接的关联,预测的新抗原负担和测量的T细胞浸润之间的相关性表明免疫疗法的潜在脆弱性。


参考文献

Li, Yize et al. “Pan-cancer proteogenomics connects oncogenic drivers to functional states.” Cell vol. 186,18 (2023): 3921-3944.e25. doi:10.1016/j.cell.2023.07.014

往期热点 (点击标题跳转)

01

线粒体质量控制

02

孟德尔随机化

03

成纤维细胞(CAFs)

04

单细胞空间转录组

05

肿瘤相关巨噬细胞(TAM)

06

细胞死亡

07

耐药



课题设计 | 组学测序 |生信分析

培训工具 | 热点互动 | 资源互换


图文排版|CY

文章转载请联系 | 15510012760(微信)

广告商务合作 | 18501253903(微信)


生信人
共同学习生物信息学知识,共同探究生物奥秘。
 最新文章