对35种癌症的10,478名患者基因组进行候选驱动基因识别,英国10万基因组项目

文摘   2024-10-31 07:25   中国香港  

Basic Information

  • 英文标题: Analysis of 10,478 cancer genomes identifies candidate driver genes and opportunities for precision oncology
  • 中文标题:对10,478个癌症基因组的分析识别出候选驱动基因及精准肿瘤治疗的机会
  • 发表日期:18 June 2024
  • 文章类型:Article
  • 所属期刊:Nature Genetics
  • 文章作者:Ben Kinnersley | Richard Houlston
  • 文章链接:https://www.nature.com/articles/s41588-024-01785-9

Abstract

Para_01
  1. 肿瘤基因组分析越来越被视为指导癌症患者治疗的先决条件。
  2. 为了探索全基因组测序(WGS)在扩大可能适用于精准治疗的癌症范围方面的价值,我们分析了来自英国10万基因组项目的10,478名涵盖35种癌症类型的患者的全基因组测序数据。
  3. 我们鉴定了330个候选驱动基因,包括74个在任何癌症中都是新的基因。
  4. 我们估计,大约55%的研究对象患者至少携带一个临床相关突变,预测其对某些治疗或临床试验资格的敏感性或耐药性。
  5. 通过对癌症突变进行计算化学生物信息学分析,我们识别了额外的化合物靶点,这些化合物是未来临床试验的吸引人候选者。
  6. 这项研究是迄今为止在现实世界环境中识别癌症驱动基因并评估其对精准肿瘤学影响的最为全面的工作之一。

Main

Para_01
  1. 精准肿瘤学旨在根据患者癌症的独特生物学特征定制治疗方案,从而优化治疗效果并最小化毒性。
  2. 支撑精准肿瘤学的是体细胞驱动突变作为癌症生物学基础的概念。
Para_02
  1. 治疗性可操作基因数量的增加暴露了单一分析基因组检测在癌症中的局限性。
  2. 将额外的癌症基因添加到基于高通量测序的检测面板中的适度增量成本,使得开发针对分子定义的越来越小的癌症患者子集的药物在财务和物流上变得可行。
  3. 开发对由罕见基因组突变驱动的癌症有效的抑制剂,需要同时开发临床试验设计,例如篮式试验,其中资格基于突变状态而非器官部位、癌症阶段和组织学。
  4. 随着篮式研究的出现,许多肿瘤学家现在认为,肿瘤基因组分析应提供给所有不适合治愈性局部或系统性治疗的癌症患者。
Para_03
  1. 目前,通常使用几种独立的测试或一组测试来捕获肿瘤中的一系列基因组、转录组或表观基因组特征,以指导患者治疗。
  2. 然而,成本的下降使得全基因组测序(WGS)成为一个潜在的有吸引力的选择,作为一种单一的全覆盖测试来识别癌症驱动因素和其他基因组特征,这些特征可能不会被标准测试捕获,但在临床上是可以采取行动的。
  3. 这种方法正在英国通过10万基因组计划(100kGP)进行探索,该计划旨在通过WGS向国民健康服务体系(NHS)的患者提供精准肿瘤学的愿景,作为他们常规护理的一部分。
Para_04
  1. 在这里,我们报告了对10,478名涵盖35种癌症类型的患者进行的全基因组测序(WGS)数据的分析(图1a)。
  2. 在所有癌症类型中,我们识别出330个候选驱动基因,其中包括74个在任何癌症中都是新发现的。
  3. 我们将这些基因与它们的治疗可行性联系起来,既包括目前批准的治疗药物,也通过计算化学生物信息学分析预测其未来临床试验的候选资格。

Fig. 1: Study design and number of samples per tumor type included in the analysis.

  • a, 研究设计。b, 每种肿瘤类型的样本数量。BileDuct-AdenoCA, 胆管腺癌;Bladder-TCC, 膀胱移行细胞癌;Breast-DuctalCA, 乳腺导管癌;Breast-LobularCA, 乳腺小叶癌;CNS-Astro, 星形细胞瘤;CNS-GBM-IDHmut, IDH突变型胶质母细胞瘤;CNS-GBM-IDHwt, IDH野生型胶质母细胞瘤;CNS-Menin, 脑膜瘤;CNS-Oligo, 少突胶质细胞瘤;ColoRect-AdenoCA, 结直肠癌;Connective-Chondro, 软骨肉瘤;Connective-Leiomyo, 平滑肌肉瘤;Connective-Liposarc, 脂肪肉瘤;Connective-Myxofibro, 黏液纤维肉瘤;Connective-Osteosarc, 骨肉瘤;Connective-SCS, 梭形细胞肉瘤;Connective-SS, 滑膜肉瘤;Eso-AdenoCA, 食管腺癌;HeadNeck-SCC, 头颈部鳞状细胞癌;Kidney-CCRCC, 清细胞肾细胞癌;Kidney-ChRCC, 嗜铬细胞肾细胞癌;Kidney-PRCC, 乳头状肾细胞癌;Liver-HCC, 肝细胞癌;Lung-AdenoCA, 肺腺癌;Lung-LargeCell, 大细胞肺癌;Lung-SCC, 肺鳞状细胞癌;Lung-SmallCell, 小细胞肺癌;Mes-Mesothelioma, 间皮瘤;Ovary-AdenoCA, 卵巢腺癌;Panc-AdenoCA, 胰腺腺癌;Prost-AdenoCA, 前列腺腺癌;Skin-Melanoma, 皮肤黑色素瘤;Stomach-AdenoCA, 胃腺癌;Testis-GCT, 睾丸生殖细胞瘤;Uterus-AdenoCA, 子宫腺癌。图1a由BioRender.com创建。

Results

Para_01
  1. 我们分析了10,478个癌症基因组,涵盖35种不同类型的癌症(图1b和补充表1和2)。
  2. 虽然总体上反映了英国人口中诊断出的癌症谱和频率,但存在差异,其中结直肠癌和肾癌的比例过高,而前列腺癌和胰腺癌的比例较低(扩展数据图1)。
  3. 此外,对于主要癌症类型,参与100kGP项目的患者往往比英国普通人群中的患者更年轻,且肿瘤处于更早期阶段(补充表3)。
Para_02
  1. 突变率在不同癌症类型中有所变化,皮肤黑色素瘤的单核苷酸变异突变数量最高,而脑膜瘤最低(扩展数据图2)。
  2. 共有945个样本,尤其是结直肠癌和子宫癌,表现出高突变率,这可能是由于错配修复缺陷(dMMR)或POLE突变所致。
  3. 乳腺浸润性导管癌在驱动基因检测方面具有最高的效力(对于突变率至少比背景高2%的情况,效力超过90%),而大细胞肺癌的效力最低(图2和补充表4)。
  4. 与最近的泛癌全基因组分析相比,100kGP队列在识别19种癌症的驱动突变方面具有更高的效力,尤其是乳腺癌、结直肠癌、食管癌和子宫癌、肺腺癌和膀胱移行细胞癌,这些癌症的样本量高出十倍以上。

Fig. 2: Power estimates for driver gene identification per tumor type.

  • 为实现90%的基因达到90%的统计效力所需的样本数量(y轴)。灰色垂直线表示全外显子背景突变率(x轴)。黑色圆点表示当前研究中的样本大小和突变率。

Spectrum of cancer driver genes

癌症驱动基因谱

Para_01
  1. 在所有癌症类型中,我们鉴定出770对独特的肿瘤-驱动基因对,对应于330个独特的候选癌症驱动基因(图3,扩展数据图3和补充表5)。
  2. 与最大的泛癌症驱动基因分析相比,在31种癌症类型中有21种可以通过肿瘤组织学进行匹配,我们恢复了由癌症体细胞突变目录(COSMIC)、综合肿瘤基因组学(IntOGen)和癌症基因组图谱(TCGA)项目泛癌症分析报告的61%的癌症驱动基因(补充表5)。
  3. 我们能够检测到结直肠癌、乳腺癌、肺癌和卵巢癌报告的80%的驱动基因,但肝细胞癌和胃癌报告的驱动基因仅检测到不足20%,这可能是由于样本量差异或肿瘤间异质性所致。
  4. 鉴定出的癌症驱动基因数量在不同癌症类型之间有所变化,结直肠癌和子宫癌最多(60个基因),梭形细胞癌最少(4个基因)。
  5. 在35种癌症中,我们发现平均突变负担与每种癌症中的驱动基因数量之间没有相关性(Pearson相关系数r = 0.19,P = 0.27)。
  6. 共识列表还包括326对肿瘤-驱动基因对,这些基因对之前未被癌症基因普查、IntOGen或TCGA的泛癌症分析报告过(补充表5),以及74对之前未与任何特定组织相关联的基因对。
  7. 几乎所有鉴定出的候选驱动基因都不常见,其中88%(74个中的65个)在相应癌症类型中的突变频率低于10%。
  8. 子宫癌(n = 42)、膀胱癌(n = 40)和结直肠癌(n = 37)中发现的新癌症驱动基因数量最多。
  9. 此外,我们在IntOGen和参考文献13未编目的肿瘤类型中鉴定出驱动基因。这些包括乳腺小叶癌、脑膜瘤和黏液纤维肉瘤。
  10. 在新癌症类型中对已知癌症驱动基因的预测包括结直肠癌中的SPTA1、CHD4和ASXL1,乳腺癌中的FOXO3、MUC16和ZFPM1,以及肺腺癌中的CNTNAP2、CTNND2和TRRAP。
  11. 全新的预测包括结直肠癌中的MAP3K21(编码一种混合谱系激酶)、乳腺导管癌中的USP17L22(编码一种去泛素化酶)和肺腺癌中的TPTE(编码一种酪氨酸磷酸酶)(补充表5)。

Fig. 3: Heatmap of candidate cancer driver genes identified in at least two different cancer types.

  • 热图强度与q值成比例。
Para_02
  1. 85个基因被识别为在两种以上肿瘤类型中的驱动基因,其中26个基因在五种以上肿瘤类型中发挥驱动作用(图4a)。
  2. 如预期的那样,TP53被识别为在最多肿瘤类型中的驱动基因,其次是PIK3CA、ARID1A和PTEN,分别作为29、18、16和14种不同肿瘤类型的癌症驱动基因。
  3. 虽然许多基因在几种癌症类型中发挥驱动作用,但有些驱动基因仅在特定肿瘤中以高频率发生突变,例如VHL在透明细胞肾细胞癌中,FGFR3在膀胱癌中(图4a)。
  4. 在几种癌症类型中发挥作用的驱动基因中,最明显的领域特异性驱动突变例子是EGFR,其中蛋白质酪氨酸和丝氨酸/苏氨酸激酶域突变在肺腺癌中占主导地位,而与IDH野生型胶质母细胞瘤中的细胞外弗林样富含半胱氨酸区域域突变形成对比(补充表6和扩展数据图4a)。
  5. PIK3CA也显示出在子宫腺癌中偏好p85结合域突变,与其他癌症类型(如乳腺导管癌)相比,后者在PIK家族域中富集突变(补充表6和扩展数据图4b)。
  6. 基于已识别驱动基因突变的存在及其相应的q值对癌症进行层次聚类,显示了按细胞起源(例如,头颈和肺鳞状细胞癌)和按器官(例如,乳腺导管和叶状癌;扩展数据图5)的癌症类型聚类。
  7. 预测的激活型与肿瘤抑制型驱动基因的比率在不同肿瘤类型中有所变化,其中脑膜瘤和黏液纤维肉瘤分别具有最高和最低的比率(图4b和补充表5)。

Fig. 4: Distribution and predicted function of candidate cancer driver genes across tumor types.

  • a, 驱动基因在不同类型癌症中的分布:y轴,肿瘤类型中的最大突变流行率;x轴,识别出驱动基因的肿瘤类型数量。标记的基因是在至少六种肿瘤类型中为候选驱动基因,或在某种肿瘤类型中的最大突变流行率超过17%。
  • b, 与每种癌症类型相关的癌症驱动基因功能的分布:y轴,肿瘤组;x轴,肿瘤特异性驱动基因的百分比。
Para_03
  1. 在9,070个独特样本中的35种不同肿瘤类型中,我们鉴定出12,606个肿瘤相关癌症驱动基因中的独特致癌突变。
  2. 所有肿瘤中,每个样本在癌症驱动基因中的致癌突变中位数为两个。
  3. 每样本中致癌突变在驱动基因中的最高中位数见于子宫癌(n = 6;扩展数据图6)。
  4. 我们观察到,来自同一器官的不同肿瘤组织学中,癌症驱动基因中的致癌突变频率存在显著差异(Pbinomial < 3.5 × 10−3)。
  5. 例如,乳腺癌中的CDH1、TBX3和TP53,中枢神经系统肿瘤中的ATRX、CIC、IDH1、PTEN和TP53,结缔组织肿瘤中的IDH1和TP53,肾癌中的PBRM1和VHL,以及肺癌中的EGFR、KMT2D、KRAS、NFE2L2、PTEN、STK11和TP53(图5)。

Fig. 5: Comparison of driver gene somatic mutation rates between tumor histologies.

  • 预期每种驱动基因在队列中的突变率及其95%置信区间(队列包括2306例乳腺癌、440例中枢神经系统肿瘤、1045例肾癌、1110例肺癌和607例结缔组织肿瘤,来自100kGP队列),基于在给定肿瘤组织学中驱动基因发生突变的样本数量。展示了二项式P值。虚红线对应于0.01的假发现率。
Para_04
  1. 考虑到所有330个癌症驱动基因,其中217个至少包含一个克隆致癌突变(214个克隆突变,167个早期克隆突变和114个晚期克隆突变(补充表7))。
  2. APC、TP53和PIK3CA拥有最多的克隆致癌突变(图6a和扩展数据图7)。
  3. 在162个至少包含一个亚克隆致癌突变的驱动基因中,ARID1A、TP53和PIK3CA拥有最多(图6b和扩展数据图7)。
  4. 与已发表的研究一致,所有早期克隆驱动突变中有很大比例(55%)仅发生在四个基因中(TP53、APC、KRAS和PIK3CA),而晚期和亚克隆致癌突变的相应百分比出现在19个不同基因中(补充表7)。
  5. 这一发现支持了一种模型,即癌症进化的早期事件倾向于发生在有限的驱动基因集中,而肿瘤进化的晚期则涉及更广泛的驱动基因。
  6. 在具有超过十个致癌突变的肿瘤中,脑膜瘤表现出最高的克隆致癌突变比例(扩展数据图8a)。
  7. 大细胞肺癌、睾丸生殖细胞肿瘤和少突胶质瘤分别携带最高比例的早期克隆、晚期克隆和亚克隆致癌突变(扩展数据图8b-d)。

Fig. 6: Distribution of clonal and subclonal oncogenic mutations in candidate cancer driver genes.

  • a, 所有癌症类型中候选癌症驱动基因中克隆致癌突变的分布:y轴,所有克隆致癌突变占所有致癌突变的百分比;x轴,克隆致癌突变的总数。克隆致癌突变包括在相关染色体复制之前发生的克隆突变(早期)、在复制之后发生的克隆突变(晚期),以及在没有观察到复制时发生的突变。标记的基因是那些具有超过250个克隆致癌突变或克隆致癌突变占所有致癌突变超过95%的基因。
  • b, 所有癌症类型中候选癌症驱动基因中所有亚克隆致癌突变的分布:y轴,所有亚克隆致癌突变占所有致癌突变的百分比;x轴,亚克隆致癌突变的总数。标记的基因是那些具有超过50个亚克隆致癌突变且亚克隆致癌突变占所有致癌突变超过5%的基因。

Sensitivity of WGS mutation detection compared to panels

WGS突变检测与基因 panels 相比的敏感性

Para_01
  1. 我们最初通过比较突变调用与纪念斯隆·凯特琳(MSK)癌症中心在43个已建立驱动基因上的队列,研究了全基因组测序(WGS)检测临床相关突变的表现,并与传统的基于面板的检测方法进行了比较(补充说明1)。
  2. 对于在MSK和100kGP队列中代表性的原发肿瘤,每个驱动基因的突变调用率是相当的(补充图1和2)。
  3. 随后,我们通过提取每个肿瘤在43个驱动基因面板上的覆盖率,估计了100kGP队列中突变检测的敏感性(补充说明1)。
  4. 具体而言,对于88%的癌症驱动基因,100kGP队列中突变检测的预期敏感性大于99%。
  5. 此外,对于90%的癌症驱动基因,超过98%的编码序列具有足够的覆盖率,以至于在考虑肿瘤纯度后,可以使用超过六个读数进行突变检测(补充图3-7)。
  6. 这些发现与英国基因组学进行的100kGP WGS与面板测序的诊断准确性已发表数据一致(变异等位基因频率大于5%且覆盖率大于70×时的敏感性为99%)。

Actionability of driver gene mutations

驱动基因突变的行为能力

Para_01
  1. 我们接下来试图通过参考COSMIC和精准肿瘤学知识库(OncoKB)来评估临床可操作的驱动变异的概况。
  2. 我们观察到,样本比例和变异类型比例在不同组织类型中有所变化。
  3. COSMIC的数据显示,85%的样本(8,880个中的10,478个)至少拥有一个在临床环境中被靶向的潜在可操作变异(见图7a和补充表8),而55%的样本(5,805个中的10,478个)至少拥有一个来自OncoKB的潜在可操作或生物学相关的变异(见图7b和补充表9和10)。
  4. 在所有癌症类型中,15%(1,560个中的10,470个)的患者符合OncoKB定义的当前批准疗法的资格。
  5. 在OncoKB定义的可操作突变中(n = 9,639),5,823个是克隆性的,2,632个是早期克隆性的,229个是晚期克隆性的,852个是亚克隆性的。

Fig. 7: Clinical actionability ascribable to each candidate cancer driver gene.

  • a, 根据COSMIC,每种癌症类型中每个候选癌症驱动基因的临床可操作性。肿瘤由得分最高的基因突变-指示配对进行注释,‘None’表示在肿瘤中未检测到可操作的突变。
  • b, 根据OncoKB,每种癌症类型中每个候选癌症驱动基因的临床可操作性。肿瘤由得分最高的基因突变-指示配对进行注释,‘None’表示在肿瘤中未检测到可操作的突变。
Para_02
  1. 在所有35种癌症类型中最常见的潜在可操作变异是PIK3CA、KRAS和PTEN的突变(补充图8)。
  2. PIK3CA编码p110α蛋白,该蛋白是磷酸肌醇3-激酶(PI3K)的催化亚单位。
  3. PIK3CA中的特定致癌错义突变存在于50%的乳腺小叶癌和38%的乳腺导管癌中,其存在是使用PI3Kα抑制剂alpelisib的指征。
  4. 这些突变存在于多种癌症中,包括结直肠癌(20%)和子宫癌(47%),在这些肿瘤类型中,它们是早期临床研究中使用PI3Kα变构抑制剂的靶点。
  5. 我们发现胰腺癌、结直肠癌和肺腺癌患者中有较高比例具有可操作的KRAS突变(39-64%的所有病例)。
  6. KRAS G12C突变存在于17%的肺腺癌病例中,并且通过突变特异性选择性共价抑制药物adagrasib或sotorasib进行靶向治疗。
  7. 在具有致癌性失活PTEN突变的患者中,PI3Kβ抑制具有显著的生物学意义,因为PI3Kβ被认为在这些肿瘤中驱动细胞增殖。
  8. 失活PTEN突变在黑色素瘤(10%)、肝细胞癌(13%)、肺鳞状细胞癌(15%)、多形性胶质母细胞瘤(29%)和子宫癌(66%)中普遍存在,其存在将使患者有资格参加PI3Kβ抑制的早期研究。

Landscape of clinical actionability

临床可操作性的景观

Para_01
  1. 除了单基因中的可操作突变外,其他类别的分子改变也被认为是药物反应的肿瘤无关生物标志物。
  2. 这些包括由dMMR/POLE突变和同源重组缺陷(HRD)引起的突变谱,分别代表对免疫治疗和PARP抑制的反应的表型标志物。
  3. 共有319个肿瘤(3%)表现出HRD的突变特征,这为PARP抑制治疗和潜在的对铂类化疗的敏感性提供了指示。
  4. 正如我们在伴随论文中所展示的,HRD的病因基础仅在16%的病例中可通过BRCA1、BRCA2、PALB2、BRIP1或RAD51B的双等位基因失活(通过种系和体细胞突变)来识别。
  5. 尽管其他病例可能由启动子甲基化引起,但由于这些数据在100kGP样本中不可用而无法评估,这些发现为扩大可能符合PARP抑制剂条件的患者数量提供了强有力的理由,而不是仅依赖于BRCA检测。
  6. 共有1,309个肿瘤具有高编码肿瘤突变负荷(每兆碱基超过十个突变),144种癌症有dMMR的证据。
  7. 综合考虑这些因素,表明1,312名患者可能符合检查点抑制的条件。
  8. 为了探索在同一患者中使用多种靶向治疗的前景,我们将OncoKB临床可操作性的注释与TMB、dMMR和HRD的临床可操作性注释相结合。
  9. 总计有11,503个独立独特的基因靶点存在于6,151个样本中,其中34%(3,577个中的10,478个)的肿瘤拥有一个,13%(1,361个中的10,478个)拥有两个,12%(1,213个中的10,478个)拥有至少三个临床可操作的驱动突变。

Expanding the druggable cancer genome

扩展可药用癌症基因组

Para_01
  1. 从系统分析癌症基因组中浮现的一个机会是识别新的治疗干预策略。
  2. 在这项研究中识别的330个候选癌症驱动基因中,有261个(79%)目前在COSMIC或OncoKB数据库中未被识别为治疗靶点。
  3. 为了将这些基因作为治疗干预的候选基因进行筛选,我们使用RNAi/CRISPR DepMap数据评估了驱动基因的必要性和选择性,并使用综合癌症知识库canSAR评估了其药物可开发性。
  4. 我们发现,在261个基因中有96个(37%)被预测为普遍必要,其中12个(13%)有可用的化学探针,35个(36%)具有可配体的三维(3D)结构(补充表11)。
Para_02
  1. 受观察到靶向与癌症驱动基因相互作用的蛋白质可以导致成功的精准肿瘤学策略的启发,我们试图扩展癌症中的可用药靶点网络。
  2. 为此,我们使用canSAR来映射和药理学注释每种肿瘤类型中识别出的癌症基因的网络。
  3. 具体来说,我们在每个肿瘤组中用识别出的驱动基因作为种子构建网络,并使用转录和人工注释的蛋白质-蛋白质相互作用来恢复一个精细的癌症特异性蛋白质网络,每个蛋白质都根据多种‘可用药性’评估进行注释,即蛋白质对小分子药物干预的适应性。
  4. 在每个癌症特异性网络中用其相应的驱动基因作为种子后,我们在所有癌症中总共获得了631种不同的蛋白质(补充表12)。
  5. 在所有队列中,每个网络中独特蛋白质的中位数为57,其中结直肠癌拥有最大的网络(n = 231;扩展数据图9),而梭形细胞癌拥有最小的网络(n = 10)。
  6. 如预期的那样,每种癌症类型的网络大小与识别出的驱动基因数量之间存在相关性(Pearson’s r = 0.9, P = 1.23 × 10−9)。
Para_03
  1. 在这631种蛋白质中,58%(n = 369)是通过网络分析单独检索到的,其中大多数(n = 323)在任何癌症类型中都没有被正式确认为候选驱动基因(以下称为癌症网络蛋白)。
  2. 显著的例子包括HDAC1、CDK2和CDK1,它们分别存在于31、29和28个队列中。
  3. 我们观察到这些癌症网络蛋白中有70%(n = 225)可以通过现有的批准或研究中的疗法进行靶向治疗,显著的例子包括BCL2和BTK。
  4. 在剩余的97个基因中,34个是常见的必需基因,11个具有一致的谱系特异性,48个可以通过3D结构进行配体结合,11个已有高质量探针可用(补充表13)。
  5. 总的来说,这些数据为多种癌症的未来治疗提供了潜在的机会。
  6. 例如,CDC5L是Prp19(hPrp19)/Cdc5L前RNA剪接复合物的核心组成部分,是黑色素瘤癌症蛋白网络的一部分。
  7. 该蛋白被预测为具有谱系特异性的常见必需基因,并且具有3D可配体结合结构。

Discussion

Para_01
  1. 临床和实验室观察已经使人们认识到,肿瘤的基因组分析对于癌症患者的管理越来越重要。
  2. 为了探索全基因组测序在精准肿瘤学中的价值,我们分析了参与100kGP研究的10,470名患者的全基因组测序数据。
Para_02
  1. 在所有癌症中,我们鉴定出330个癌症驱动基因,其中74个是任何癌症类型中新的基因。
  2. 候选驱动基因列表通过专注于点突变和小型插入缺失来确定,没有考虑拷贝数变异、基因组融合或甲基化事件。
  3. 尽管如此,我们认为这代表了迄今为止识别癌症驱动基因的最全面努力之一,并作为重要的研究资产。
  4. 起源于同一器官的癌症中驱动突变频率的相似性和差异表明,在致癌过程中既有共享途径也有不同途径。
  5. 值得注意的是,许多驱动突变在几种不同肿瘤类型中是常见的。
  6. 如果将这些观察结果应用于临床,则表明目前55%的患者的肿瘤含有潜在可操作的突变,无论是预测对某些治疗的敏感性还是临床试验资格。
  7. 这与基于当前广泛使用的小型变异检测面板所能达到的22%形成对比。
  8. 尽管我们的假设是基于已批准药物作为有效癌症疗法的代理,但美国食品药品监督管理局(FDA)最近的一项关于癌症药物批准的研究得出结论,新的癌症药物批准降低了死亡和肿瘤进展的风险。
  9. 为了了解潜在的未来治疗机会,我们应用了已建立的化学基因组学技术来绘制并药理学注释通过全基因组测序(WGS)识别的癌症基因的细胞网络。
  10. 通过用必要性和选择性指标注释细胞网络,我们能够突出癌症中额外的潜在治疗靶点。
  11. 利用新兴的高通量报告基因分析来更详细地评估体细胞驱动突变的功能后果,很可能会改善这些努力。
Para_03
  1. 这项研究的优势不仅在于队列规模,还在于对来自英格兰多个治疗中心的样本和数据进行系统性处理。这些优势在最小化中心间测序效应影响的同时,确保捕获具有代表性的癌症队列。
  2. 然而,我们确实承认,尽管我们分析中包含的癌症谱在很大程度上代表了在英国诊断的癌症,但招募到100kGP的患者较为年轻且主要为早期疾病。
  3. 此外,患者祖先和地理特征等因素可能会影响肿瘤的致突变谱,这可能会对我们发现结果在全球范围内的普适性产生影响。
Para_04
  1. 接受这些限制,我们的观察表明,根据癌症类型,大约15%的患者可能符合目前批准的针对致癌驱动因素的疗法。
  2. 然而,我们的发现分析暗示,可能有更多的患者可能适合针对驱动突变或通路的疗法。
  3. 精准肿瘤学的一个长期批评是,其支持者往往夸大单个基因或基因组变异的临床可操作性。
  4. 那些经过临床验证并被FDA认可为药物反应预测生物标志物的突变,通常被归为临床可操作的,这类突变可能被错误地认定为异常优异反应的假定基础。
  5. 为了更好地传达支持单个突变等位基因临床可操作性的证据强度,许多变异知识库根据支持其作为药物反应或耐药性预测生物标志物的临床和/或生物学数据水平,对基因组变异进行分层。
  6. 在这里,我们试图通过利用精心策划的资源来分配驱动突变的可操作性,以解决这些关切。
  7. 具体来说,我们查询了由专家小组定期策划的知识数据库,因此被认为是反映了当前知识状态的数据库。
Para_05
  1. 尽管100kGP项目是基于为NHS癌症患者提供高灵敏度诊断测试,以检测已确立的可操作突变,但有人担心可能会遗漏一些广为人知的临床可操作突变。
  2. 在我们的分析中,所恢复的已确立的癌症特异性致癌驱动因素的频率与MSK-IMPACT和MSK-MET相当。
  3. 此外,100×全基因组测序(WGS)在识别突变方面的灵敏度很高,即使对于低肿瘤纯度的样本也是如此。
Para_06
  1. 精准肿瘤学范式更广泛成功的障碍可能是许多‘不可药物化’的致癌突变,以及靶向下游效应器通常无法展现出直接抑制突变癌蛋白的药物所具有的临床疗效水平。
  2. 蛋白质结构预测的最新进展、新型降解剂、共价抑制和变构蛋白域图谱试图解锁这些‘不可药物化’的蛋白质。
  3. 此外,全基因组测序(WGS)允许分析扩展到单个遗传变异的考虑之外,从而在临床上相较于靶向面板测序分析提供了显著的优势。
  4. 与错配修复缺陷(dMMR)和同源重组缺陷(HRD)相关的突变特征越来越被证明在临床上对于定义对免疫疗法和PARP抑制的反应性具有重要意义。
  5. 此外,越来越多的证据表明,反映癌细胞DNA修复能力的其他特征可以预测对其他药物的反应性。
  6. 关于在100kGP中观察到的所有类别的突变特征的更详细讨论和全面描述在我们的伴随论文中有报道。
  7. 因此,稳健地表征突变特征的能力可能证明是WGS相较于靶向面板测序分析的一个主要的临床显著增量优势。
  8. 此外,鉴于T细胞疗法的重要性日益增加,并且现在使用计算方法从WGS预测免疫原性肿瘤特异性新抗原的存在,提供WGS很可能在患者管理中发挥更大的作用。
Para_07
  1. 尽管全基因组测序(WGS)作为一站式临床检测具有诸多优点,但在选定的学术和商业中心之外,其更广泛的应用仍然有限。
  2. 一个巨大的障碍是,许多患者可用的肿瘤材料在数量、质量或纯度上不足以支持这些更广泛的测序平台。
  3. 事实上,在100kGP项目中,由于无法获取新鲜冷冻样本(以及/或数量足够的样本),许多患者的肿瘤分析被排除在外。
  4. 在设计临床检测时,成本和测序能力的限制要求在测序广度和深度之间进行平衡。
  5. 目前,靶向检测的高覆盖率在检测临床上验证为药物反应生物标志物的基因变异方面优于WGS,尤其是在DNA质量较差或间质污染较高的样本中。
  6. WGS的更广泛应用需要进一步降低测序成本和技术改进,以使得低质量、存档的石蜡包埋肿瘤组织得以使用。
  7. 任何此类发展都必须解决甲醛固定对DNA质量和从WGS数据中可靠地调用变异能力的不利影响,即使使用生物信息学校正也是如此。
  8. 除了这些技术问题外,短读WGS还存在着固有的局限性。
  9. 值得注意的是,结构变异无法被稳健地调用,低一致性是当前实施算法的一个特征。
  10. 很可能只有通过采用长读测序才能解决这一局限性,尽管目前这需要大量的DNA和更高的成本,从而限制了其在诊断环境中的使用。
  11. 测序成本的持续下降和新基因组生物标志物的识别,这些生物标志物能够预测药物反应,推动了多基因 profiling 作为常规癌症护理组成部分的快速应用。
  12. 正如我们的分析所表明的,未来采用WGS或更广泛的panels有可能使对驱动突变景观的更准确评估成为可能,从而预测药物反应。

Methods

The 100kGP cohort

10万基因组队列

Para_01
  1. 分析的患者队列包括来自英格兰13个基因组医学中心的100kGP(v.11版本)招募的原发性癌症患者的肿瘤-正常样本对(补充图9)。
  2. 基因组英格兰已从所有参与者那里获得了书面知情同意。
  3. 我们将分析限制在从10,470名成人(34例胆管癌、305例膀胱癌、2,306例乳腺癌、2,324例结直肠癌、440例中枢神经系统癌、91例食管癌、201例头颈癌、1,045例肾细胞癌、24例肝癌、1,110例肺癌、35例间皮瘤、607例软组织癌、454例卵巢癌、94例胰腺癌、366例前列腺癌、270例黑色素瘤、72例胃癌、51例睾丸癌和649例子宫癌)的PCR-free、快速冷冻原发性实体肿瘤样本中获得的高质量测序数据(补充表1-3)。
  4. 患者的全面临床病理信息在补充表3中提供,样本整理、每种癌症类型的肿瘤纯度(扩展数据图10)、全基因组测序、体细胞变异调用、突变注释和效能计算的完整细节在补充说明1中提供。
  5. 我们使用SigProfilerExtractor结合mSINGS和HRDetect(补充说明1)29,61,62,识别了与dMMR和HRD相关的肿瘤突变特征。

Identification and timing of driver genes

驱动基因的识别与时间定位

Para_01
  1. 每种肿瘤类型的癌症驱动基因是通过IntOGen管道识别的(补充说明1)。
  2. 我们检查了100kGP队列中全基因组测序(WGS)对检测基于样本纯度和基因覆盖率的已确立驱动基因的敏感性,并通过比较MSK癌症中心进行的癌症研究的综合突变分析可操作癌症靶点和转移事件的调用率以及面板测序的调用率(补充说明1)。
  3. 候选驱动突变的相对进化时间是通过MutationTimeR获得的(补充说明1)。

Actionability of driver gene mutations and networks

驱动基因突变和网络的可行动性

Para_01
  1. 我们首先查询了OncoKB和COSMIC突变行动力在精准肿瘤学产品数据库,以评估遗传事件的 therapeutic implications。
  2. 这两个数据库收录了已批准上市且在具有特定驱动基因突变的肿瘤中显示出疗效的药物,基于临床试验和已发表的临床证据。
  3. OncoKB还提供了强有力的生物学证据,支持癌症驱动基因作为对特定药物反应的预测因子。
Para_02
  1. 为了对每种癌症类型进行化学起源分析,我们使用癌症驱动基因的蛋白质产物作为种子,在canSAR互作组33中搜索所有相互作用的蛋白质,该互作组基于来自八个数据库的信息,包括IMeX联盟65、Phosphosite66以及关键出版物。
  2. 我们使用canSAR的癌症蛋白质注释工具,用药物学和可药用性数据对蛋白质进行注释。
  3. 从ShinyDepMap分析服务器(补充说明1)32中确定了必需和选择性基因,包括谱系特异性。

Reporting summary

报告摘要

Para_01
  1. 有关研究设计的更多信息可在与本篇文章链接的《自然》系列报告摘要中找到。

Data availability

Para_01
  1. 每个肿瘤组的汇总统计数据在补充表中提供,这些数据不会导致参与者身份的识别。
  2. 所有来自100,000基因组项目的样本特异性全基因组测序数据和处理文件可以通过加入泛癌基因组英格兰临床解释合作(GeCIP)领域访问,前提是个人数据访问已获得批准(https://www.genomicsengland.co.uk/research/pan-cancer-and-molecular-oncology-community)。
  3. 加入基因组英格兰研究网络并获得访问权限的链接可以在 https://www.genomicsengland.co.uk/research/academic/join-gecip 找到。
  4. 该过程包括在线申请、申请人所在机构的验证、完成简短的信息治理培训课程以及基因组英格兰的批准验证。
  5. 更多信息请访问 https://www.genomicsengland.co.uk/research/academic。
  6. 基因组英格兰数据访问协议可以从 figshare 获取,网址为 https://doi.org/10.6084/m9.figshare.4530893.v7。
  7. 所有对基因组英格兰数据的分析必须在基因组英格兰研究环境(https://www.genomicsengland.co.uk/understanding-genomics/data)中进行。
  8. 100,000基因组项目的出版政策可以在 https://www.genomicsengland.co.uk/about-gecip/publications 获取。
  9. 本研究中使用的样本和结果在基因组英格兰的 /re_gecip/shared_allGeCIPs/pancancer_drivers/results/ 下提供。
  10. 一个详细描述所有100kGP肿瘤分析中编码突变的类似MAF文件可以在 /re_gecip/shared_allGeCIPs/pancancer_drivers/results/ 获取。
  11. COSMIC和OncoKB的临床可操作性数据分别可以从 https://cancer.sanger.ac.uk/actionability 和 https://www.oncokb.org/actionableGenes#sections=Tx 获取。
  12. canSAR化学基因组学数据可以从 https://cansar.ai/ 获取。
  13. NHS癌症基因组测试目录可以从 https://www.england.nhs.uk/publication/national-genomic-test-directories/ 获取。
  14. 之前研究的驱动因素列表从COSMIC(https://cancer.sanger.ac.uk/cmc/home)、IntOGen(https://www.intogen.org/search)和参考13报道的癌症基因组图谱(TCGA)计划泛癌分析中获得。
  15. 体细胞突变被注释到VEP v.101中的GRCh38缓存版本。

Code availability

Para_01
  1. 使用 IntOGen 框架的详细信息和代码可在 https://intogen.readthedocs.io/en/latest/index.html 获取。
  2. 用于执行此分析的具体代码位于 Genomics England 研究环境(https://re-docs.genomicsengland.co.uk/access/)中的 /re_gecip/shared_allGeCIPs/pancancer_drivers/code/。
  3. 成为 Genomics England 研究网络成员并获得访问权限的链接可在 https://www.genomicsengland.co.uk/research/academic/join-gecip 找到。
  4. 用于执行 canSAR 化学生物信息学分析的代码可通过 Zenodo 获取(https://doi.org/10.5281/zenodo.8329054)。


生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
 最新文章