摘要
肿瘤类型指导癌症的临床治疗决策,但基于组织学的诊断仍然具有挑战性。基因组改变对肿瘤类型具有高度诊断性,并且已经探索了根据基因组特征训练的肿瘤类型分类器,但最准确的方法在临床上是不可行的,依赖于来自全基因组测序 (WGS) 的特征,或预测有限的癌症类型。本文作者使用来自使用临床靶向癌症基因面板测序的 39,787 个实体瘤数据集的基因组特征来开发基因组衍生诊断集成 (GDD-ENS):一种使用深度神经网络对肿瘤类型进行分类的超参数集成。GDD-ENS 对 38 种癌症类型的高置信度预测准确率达到 93%,可与基于 WGS 的方法相媲美。GDD-ENS 还可以指导罕见类型和原发性不明癌症的诊断,并结合患者特定的临床信息以改进预测。总体而言,将 GDD-ENS 整合到前瞻性临床测序工作流程中可以提供临床相关的肿瘤类型预测,以实时指导治疗决策。
介绍
在癌症的临床管理中,精确判定患者的肿瘤类型是关键一环,它不仅指引着治疗策略的制定,还决定着患者能否参与特定的临床试验。传统上,组织学和免疫组化分析是诊断肿瘤类型的主要手段,但这些方法在某些复杂情况下,如肿瘤分化差或需区分原发与转移肿瘤时,可能显得力不从心。特别是对于原发不明癌症(CUP)患者,其在美国每年新增的癌症病例中占比达3%至5%,即约6万至10万例,他们往往难以获得明确的肿瘤类型诊断。
随着大规模泛癌基因组研究的深入,科学家们发现许多特定的基因组变异与肿瘤类型之间存在紧密联系,这为肿瘤诊断提供了新的视角。例如,结直肠癌中常发现APC基因的失活突变,而前列腺癌则多见TMPRSS2-ERG基因融合。这些基因组特征在常规诊断手段难以奏效时,能够提供宝贵的诊断线索。
尽管临床基因组分析在识别治疗靶点和指导精准医疗方面已广泛应用,但如何利用这些基因组信息优化肿瘤类型诊断仍是研究热点。当前,基于基因组的肿瘤分类工具虽已存在,但受限于高昂的成本和复杂的操作,其临床普及度不高。特别是那些依赖全基因组或全外显子测序的分类器,尚未成为临床常规。
为解决这一问题,研究团队开发了GDD-ENS深度学习模型,该模型创新性地利用临床常用的癌症基因面板数据(如FDA批准的MSK-IMPACT面板,覆盖500多个癌症相关基因)进行肿瘤类型预测。通过对大量实体肿瘤样本的基因组特征进行学习和优化,GDD-ENS构建了一个高效的集成系统,能够在38种癌症类型中实现高精度的分类,包括常见及罕见癌症类型,甚至对原发不明癌症也提供了有价值的诊断信息。
综上所述,GDD-ENS模型展现了深度学习在癌症诊断领域的巨大应用前景,它利用目标明确的基因组测序数据,有望在临床实践中实现肿瘤类型的准确预测,进而优化癌症患者的治疗决策,改善其预后。
材料和方法
研究团队成功构建了一个基于深度学习的模型——GDD-ENS,旨在通过临床基因组测序数据精确预测肿瘤类型,以增强肿瘤诊断的准确性和临床实用性。他们收集了涵盖500多个癌症相关基因的42,694例实体肿瘤样本数据,包括体细胞和生殖系变异,并通过科学划分训练集与测试集来确保模型的广泛适用性。在数据处理阶段,团队精心筛选了4,487个富含信息的特征,这些特征全面覆盖了基因突变(如SNVs、indels及特定类型的突变)、拷贝数变化(局部及染色体臂水平)、结构重排、基因融合以及额外的突变特征(如突变负荷、MSI评分等)。通过多层感知器(MLP)模型架构,并借助超参数调优技术,团队训练了多个模型版本,每个版本均在独立的数据子集上进行训练和验证,以确保模型性能的稳健性。最终,GDD-ENS模型通过集成10个最优MLP模型的软投票结果,实现了预测结果的高置信度集成。在训练过程中,PyTorch框架、交叉熵损失函数、Adam优化器以及动态学习率调整策略被综合应用,同时结合L2正则化和Dropout技术来防止过拟合。通过全面的性能评估,GDD-ENS模型在预测准确性、宏平均精度及置信度阈值等多个维度上均表现出色,验证了其临床应用的可靠性。进一步地,Shapley值分析揭示了基因突变和拷贝数变化在模型预测中的核心作用,为深入理解肿瘤生物学机制提供了新视角。此外,模型在不同种族、肿瘤纯度及多种基因组面板数据上的广泛验证,确保了其广泛的适用性和扩展性。研究团队还探讨了将患者临床信息纳入模型的可能性,以期进一步提升预测精度和临床实用性。综上所述,GDD-ENS模型的成功开发不仅展示了深度学习在肿瘤类型预测领域的巨大潜力,而且为精准医疗和癌症治疗决策的优化提供了强有力的工具,有望显著改善癌症患者的治疗体验和预后效果。
结果
1)临床队列和集成神经网络模型的开发
为了开发GDD-ENS模型,研究团队整合了自2014年至2020年间,通过MSK-IMPACT平台分析的42,694例高质量实体肿瘤样本数据(图1A),这些样本均具备足够的序列覆盖率和肿瘤含量。此前,团队已基于较小规模的样本集和特征集构建了GDD-RF模型。在此基础上,团队不仅纳入了新收集的样本,还引入了更多新发现的、对肿瘤类型预测至关重要的基因组特征。这一系列的模型、特征及训练集优化,均是在GDD-RF模型的基础上逐步推进的。得益于扩展后的训练集规模,研究团队得以将模型覆盖的癌症类型扩展至38种,相比之前,此举显著降低了因类型不匹配而被排除的患者比例,从原先的15%(针对22种类型)下降至3.1%。这些被排除的样本主要属于45种极为罕见的癌症亚型,其中多数亚型的样本量不足15例。在剔除这些不适合的样本后,研究团队将剩余的样本划分为训练集和测试集,以支持GDD-ENS模型的进一步开发。鉴于不同癌症类型在样本量上存在巨大差异,团队在训练过程中采用了上采样技术,确保每种癌症类型至少包含350个样本,以平衡数据分布。同时,为确保模型的独立验证,训练集中的任何样本均未出现在测试集中。最终,训练集和测试集分别包含了32,816和6,971个样本(图1A和B),为GDD-ENS模型的训练与评估奠定了坚实基础。MSK-IMPACT数据为GDD-ENS模型提供了丰富的基因组特征,这些特征被细致分类为几大类:突变与插入缺失(包括单核苷酸变异和小插入/缺失,进一步细化为任何突变、截断突变及已知癌症热点突变的存在)、局部扩增与删除、广泛拷贝数增减、结构重排与基因融合、突变特征(如单碱基替换计数及预计算突变特征评分)、肿瘤突变负荷、微卫星不稳定性(MSI)得分,以及性别信息(如图1C所示)。这些特征类别被详尽地注释,以支持不同层次的详细分析。为了构建最终的GDD-ENS模型,研究团队从MSK-IMPACT的广泛数据中精选了4,487个信息量大且易于解释的特征,这些特征覆盖了前述的所有广泛类别。模型架构的创新之处在于其超参数集成的设计,由10个独立配置的多层感知器(MLP)神经网络组成(如图1D所示)。这一选择源于个体神经网络在置信度估计上往往存在校准偏差,而集成方法则被广泛认可为能有效改善校准并提高模型整体性能的解决方案。在模型训练阶段,研究团队将训练集细分为10个子集,每个子集作为一次验证集,占完整训练集的10%,而剩余90%的数据则用于训练对应的MLP模型。所有模型从相同的初始参数开始,但由于各自独立的训练和验证过程,最终收敛到不同的最优参数配置。值得注意的是,不同模型间所选的超参数差异显著,这种多样性有助于增强模型的泛化能力和对未知数据的检测能力。最终,对于每个样本,10个MLP模型会输出所有潜在肿瘤类型的softmax概率分布,这些输出随后通过平均化处理,以生成每种肿瘤类型的最终置信度估计。置信度最高的类型即被判定为该样本的预测肿瘤类型。这一过程确保了GDD-ENS模型在复杂多变的基因组数据中能够做出稳健且高置信度的预测。
图1.GDD-ENS模型概述
2)分类准确性
研究团队在保留的测试集上评估了GDD-ENS分类器的整体性能,并详细报告了结果(表1)。在集成前,各个单独的多层感知器(MLP)模型在测试集上的表现显示出一定的差异,准确率介于73.9%至77.0%之间,宏精度则在57.5%至62.9%的范围内。然而,通过集成这10个MLP模型的预测结果,GDD-ENS在测试集上的整体性能显著提升,达到了78.8%的准确率和64.2%的宏精度(表1)。进一步分析显示,当考虑每个样本的第二高(87.0%)和第三高(90.2%)置信度预测时,模型的准确率和宏精度还能分别提升至75.8%和78.1%。GDD-ENS模型为每个预测提供了一个置信度估计值,这有助于区分高置信度(≥0.75)和低置信度(<0.75)的预测结果。在实际临床应用中,高置信度预测被视为更可靠的信息来源,而低置信度预测则可能不足以影响临床决策。研究团队发现,所有GDD-ENS预测的平均置信度高达0.84,且超过70%(5,013/6,971)的测试样本获得了高置信度预测。当仅考虑这些高置信度预测时,模型的准确率飙升至92.7%,宏精度也大幅提升至87.7%(图2A),这一表现与基于全基因组测序(WGS)和全外显子组测序(WES)的分类器相当,尽管GDD-ENS的数据集是基于特定基因组的面板数据。此外,研究团队还对比了GDD-ENS与其他方法在可预测肿瘤类型数量和在分布比例(即每种模型预测的癌症类型在发现队列样本中的占比)上的表现。结果显示,GDD-ENS不仅覆盖了最多的癌症类型,还拥有最高的在分布比例,表明它能够为比现有模型更广泛的癌症患者群体提供有价值的预测信息。综上所述,GDD-ENS模型在提升预测准确性、校准度和在分布比例方面均表现出色,显著优于其前身模型(表1)。
表1.GDD-ENS性能及与WGS/WES分类器的比较
图2. GDD-ENS在癌症类型上的表现
3)特定预测的特征重要性
为了深入剖析GDD-ENS预测背后的关键因素,研究团队采用了Shapley值这一先进工具来量化各特征对预测结果的贡献度。Shapley值,作为非线性系统中特征重要性的有效指标,其解释类似于回归模型中的方差贡献比例,能够精准揭示每个特征如何影响最终输出。通过汇总测试集中各类肿瘤正确预测案例的Shapley值,研究团队不仅验证了该方法的可靠性,还成功识别出每种癌症类型中最具影响力的正关联特征。这一分析不仅再次印证了基因组变异与肿瘤类型之间的已知联系(图2C),还进一步揭示了GDD-ENS在复杂预测任务中的洞察力。
研究团队以KRAS基因为例,展示了GDD-ENS如何结合多个具体水平的驱动突变信息来提高预测性能。KRAS作为多种癌症中的关键驱动基因,其突变模式在不同癌症类型中展现出显著差异。通过Shapley值分析,研究团队发现KRAS的不同突变类型(如G12C、G12D、G12R、G12V)及扩增现象在胰腺癌、非小细胞肺癌、食管胃癌和结直肠癌等癌症中的预测中扮演着不同角色。这一发现不仅凸显了GDD-ENS在区分不同癌症类型中具体驱动突变方面的能力,也解释了其相较于传统基于驱动基因分类器的性能优势。
4)排除样本的性能
在GDD-ENS肿瘤类型分类器的临床实施中,全面考量所有样本数据至关重要,这要求系统不仅准确分类已纳入的38种常见癌症类型,还需妥善处理那些因罕见而未被直接纳入分类范围的样本。研究发现,仅有3.1%的样本(总计1,321例)属于超罕见癌症类型,这些类型在GDD-ENS的预设分类中未被包含。幸运的是,GDD-ENS的设计能够识别这些“分布外”样本,并通常以较低的置信度进行预测,其中仅有35.7%(471例)的样本获得了高置信度预测,从而在实际应用中有效降低了误判风险(图3A)。
对于这471个被高置信度预测但属于排除类型的样本,研究团队进一步分析发现,这些预测往往指向同一器官系统内的更常见癌症类型,这可能是由于同一器官系统的癌症往往共享相似的分子发病机制所致(图3B)。例如,超过半数的小肠和阑尾癌样本被GDD-ENS预测为结直肠癌,体现了分类器在器官系统层面上的识别能力。
为了更系统地评估这些高置信度但类型排除的样本,研究团队将这些样本归类到10个广泛的器官系统之一,并剔除了36个不符合主要器官系统分类的样本,最终保留了435个具有明确器官系统标签的样本进行分析。结果显示,66%(288/435)的样本被GDD-ENS预测为其所属器官系统内的癌症类型,这充分证明了即使在未训练的真实类型上,高置信度的预测仍能有效指导癌症类型和器官系统的判断。此外,研究团队还考察了GDD-ENS在处理因肿瘤含量极低而被训练集排除的样本时的表现。尽管由于肿瘤含量低可能导致突变检测的假阴性增加,从而预期会影响分类性能,但GDD-ENS仍能在40%具有高置信度预测的此类样本上实现 85%的准确率,进一步展示了其在复杂临床场景下的稳健性和实用性。
图3. GDD-ENS在排除的癌症样本上的表现
5)额外的临床数据纳入分类
在癌症诊断过程中,除了基因组信息外,非基因组特征如患者的临床病史、详尽的组织病理学观察以及明确的转移部位等数据也常被纳入考量,它们能够为癌症类型的判定提供额外的宝贵线索。为了充分利用这些非基因组信息,一个有效的方法是构建基于这些特征的新癌症类型先验分布模型。具体而言,研究团队利用标注了活检部位的下一代测序数据,针对19个主要的肿瘤转移部位,细致计算了各自对应的癌症类型分布概率。这一分析深刻揭示了转移部位在预测肿瘤原发类型中的重要作用:例如,在送检基因组测序的皮肤转移样本中,有高达55%的情况其原发肿瘤为乳腺癌;而在胸膜转移样本中,这一比例在NSCLC(非小细胞肺癌)中则达到了57%,充分展示了转移部位信息在癌症类型诊断中的信息价值(图4A)。
图4. 可调整先验分布能够增强预测
为了使GDD-ENS预测系统更加贴近实际应用场景,该设计被赋予了高度灵活性,允许用户轻松整合非基因组特征(如临床病史、组织病理学特征、转移部位等)而无需额外训练非基因组信息的模型。这一创新功能通过引入“可调整先验”模型实现,该模型内置了一个朴素贝叶斯分类器,该分类器能够与GDD-ENS的原始输出无缝对接,并根据提供的非基因组特征进行动态调整。每个非基因组特征均以其对应的癌症类型分布概率为基础进行表征(图4B),从而实现了信息的高效整合。
研究团队特别聚焦于一个典型案例,深刻展示了结合两种可调整先验信息在提升预测准确性中的关键作用。在图4D的案例中,一名头颈部鳞状细胞癌(HNSCC)患者的肺转移样本最初被GDD-ENS错误地预测为膀胱癌,且置信度高达0.85,这构成了一个高置信度的误判。然而,当研究团队将两种先验信息——基于转移活检部位和组织学类别的先验——纳入预测模型后,该样本的预测结果得到了根本性的纠正,并被正确地识别为HNSCC,且新的预测置信度提升至0.96,远远超过了正确类型的高置信度阈值。
6)CUP分析
研究团队探索了GDD-ENS方法在癌症未知原发灶(CUP)样本中的潜在应用,旨在通过精准的基因组预测来揭示这些在组织学上难以明确分类的肿瘤的真实类型。研究团队将分析范围扩大至所有剩余的CUP样本,特别聚焦于高置信度预测,以量化模型在缺乏后续诊断确认情况下的预测能力。结果显示,GDD-ENS在45.6%的CUP样本上给出了高置信度预测,覆盖了38种可能癌症类型中的36种(图5A),进一步证明了其广泛的临床实用性。此外,研究团队还发现了大量极高置信度的预测(>95%置信度,其中255个>99%置信度),这些发现为CUP患者的诊断和治疗决策提供了有力支持。
随后,研究团队通过GDD-ENS预测为这些CUP样本分配了潜在的癌症类型,结果显示,在额外101名具有高置信度肿瘤类型预测的患者中,识别出了Level 1可操作改变,这一数字是原有数量的2.4倍(图5B)。这些高置信度预测中,最常见的可操作改变包括KRAS G12C突变(常见于非小细胞肺癌)、ERBB2扩增(涉及食管胃癌和乳腺癌)以及PIK3CA致癌突变(多见于乳腺癌)。特别值得一提的是,有12个原本被诊断为CUP且携带BRAF V600E突变的肿瘤,经GDD-ENS高置信度预测后被归类为结直肠癌,这一转变直接影响了治疗决策,使得患者能够从达拉非尼加曲美替尼的治疗方案转向encorafenib加西妥昔单抗的FDA批准疗法。
图5. GDD-ENS对CUP患者的预测可以识别可靶向的变异
讨论
研究团队成功开发出GDD-ENS,一种基于靶向DNA测序数据的高度精确肿瘤类型分类模型,该模型能够精准预测38种不同的癌症类型,其高置信度预测性能甚至可与使用全基因组测序(WGS)数据训练的最尖端分类器相媲美或更优。关键发现表明,通过构建足够规模的训练数据集,靶向基因面板同样能支撑起高精度的肿瘤分类任务。GDD-ENS现已整合进MSK-IMPACT的工作流程中,不仅为多数癌症患者提供广泛且深入的诊疗决策支持,更在诊断难题如癌症未知原发灶(CUP)中展现出显著的实际应用价值。在CUP样本测试中,GDD-ENS实现了45.6%的高置信度预测比例,且在验证的26对样本中,准确分类了21例早期CUP样本,对于高置信度预测更是达到了100%的准确率,预示着其能显著提升CUP患者的治疗效果,让更多患者获得基于精确肿瘤类型的个性化治疗方案。
研究团队将聚焦于GDD-ENS的持续优化与拓展应用。一方面,他们计划将RNA表达、DNA甲基化等多源基因组数据纳入模型,以增强其预测能力和覆盖范围,提供更加全面的肿瘤诊疗支持。另一方面,通过探索少样本学习等先进技术,团队旨在开发针对罕见癌症类型的分类器,以增强GDD-ENS的泛化能力与实用性,进一步推动其在临床实践中的广泛应用。综上所述,GDD-ENS作为肿瘤类型分类领域的创新成果,不仅展现了巨大的发展潜力,更有望在未来成为癌症精准医疗的重要工具,为患者带来更加精准、有效的治疗希望。
参考文献:
计算表观遗传学
计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享
往期「精彩内容」,点击回顾
DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位
BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析
乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图
KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵
精彩会议及课程,点击回顾
编辑:sm
通讯邮箱:ad.cepi@edbc.org
投稿邮箱:scw.cepi@edbc.org
CEPI感谢您的支持!
(IOS系统用户专用通道)