Nature Medicine | 利用深度学习从中枢神经系统肿瘤的组织病理学预测基于 DNA 甲基化的肿瘤类型
文献导读
一
摘要
不同中枢神经系统(CNS)肿瘤类型的精确诊断对于最佳治疗至关重要。DNA甲基化图谱捕捉了数千个单个CpG位点的甲基化状态,是最先进的数据驱动手段,可以提高诊断准确性,但也很耗时,而且应用范围不广。在这里,为了解决这些限制,我们开发了来自组织病理学和甲基化的深度学习(DEPLOY),这是一种深度学习模型,可以从组织病理学上将中枢神经系统肿瘤分为十大类。DEPLOY集成了三个不同的组件:第一个直接从幻灯片图像中对中枢神经系统肿瘤进行分类(“直接模型”),第二个最初生成DNA甲基化β值的预测,随后用于肿瘤分类(“间接模型”),第三个直接从常规患者人口统计数据中对肿瘤类型进行分类。首先,我们发现DEPLOY准确地预测了组织病理学图像的β值。其次,使用在1,796例患者的内部数据集上训练的十类模型,我们预测了三个独立的外部测试数据集(包括2,156例患者)的肿瘤类别,在高置信度预测的样本上实现了95%的总体准确率和91%的平衡准确率。这些结果显示了部署在未来的潜在应用,以帮助病理学家在临床相关的短时间内诊断中枢神经系统肿瘤。
二
介绍
中枢神经系统肿瘤的病理诊断对指导临床护理具有重要意义。世界卫生组织(WHO)确认了100多种中枢神经系统肿瘤类型,诊断过程始于苏木精和伊红(H&E)染色玻片检查。使用常规组织病理学和免疫组织化学等技术,中枢神经系统肿瘤的诊断可能会受到观察者之间的差异影响。下一代测序可以作为一种辅助手段,但仅适用于那些具有肿瘤类型定义基因组改变的肿瘤。全基因组DNA甲基化谱已被提出作为一种重要的诊断方式,即使经过神经病理学专家的审查,也发现它可以对一部分中枢神经系统肿瘤进行重新分类。基于DNA甲基化的中枢神经系统肿瘤分类器既反映了细胞的起源,也反映了肿瘤过程中获得的变化,虽然功能强大,但该检测目前仅在少数中心进行,目前在资源不足的地区尚不可行。常用的甲基化平台利用全基因组阵列,提供基因组中约850,000个位点的CpG位点特异性甲基化水平(β值)的数据。
深度学习的进步为在诊断医学中实现准确的表现带来了巨大的希望。深度学习技术如各种研究所证明的那样,具有识别人类观察者可能不容易识别的特征的能力。最近的一项研究在中枢神经系统肿瘤诊断和生物标志物评估的组织学切片研究中检验了深度学习。此外,深度学习方法已经显示出基于H&E图像预测肿瘤基因组特征的潜力,包括基因突变、大量信使RNA测序表达和空间信使RNA测序表达。
在DNA甲基化方面,之前的研究利用形态学特征对胶质瘤中的高甲基化和低甲基化水平进行分类,但尚未有研究利用深度学习模型从组织病理学图像中预测大基因组尺度的DNA甲基化β值,然后利用这些预测的甲基化值对肿瘤类型进行分类。如果深度学习模型可以预测基因组中许多CpG位点的甲基化状态,它可能有助于提高诊断的准确性,而不需要甲基化分析,这涉及成本和基础设施,目前在许多中心都无法获得。临床实验室甲基化检测所需的周转时间(几周)可能会延迟诊断,因此对于可能患有高度侵袭性肿瘤的患者,需要及时的治疗干预。
在本文中,为了应对这些挑战,我们开发了基于组织病理学和甲基化的深度学习(DEPLOY),一个使用组织病理学预测DNA甲基化和分类肿瘤类型的学习框架。具体来说,我们首先训练了一个模型来准确预测H&E图像中的DNA甲基化β值。然后基于DNA甲基化的分类器(“间接”模型)将预测的β值用于对肿瘤类型进行分类。同时,我们开发了一个单独的模型,直接从H&E图像中分类肿瘤类型,而不需要任何中间分子水平的预测(“直接”模型)。在这两个模型的基础上,我们还引入了第三个人口统计学模型,该模型旨在通过利用年龄、性别和活检位置信息对肿瘤进行分类。我们最终的集成模型协调了这些间接、直接和临床数据驱动的方法。我们发现DEPLOY可以准确地预测CpG位点子集上的肿瘤甲基化水平,并使用这些高度预测的甲基化水平将样本准确地分类为十种肿瘤类型之一。该模型在三个大型外部验证集上进一步测试。我们的研究结果强调了使用深度学习来提高H&E染色玻片诊断准确性的潜力,提供了一种快速评估,可以帮助病理学家诊断具有挑战性的病例,并在资源有限的地区推进脑癌治疗。重要的是,本文提出的方法为未来开发其他癌症类型的精确高分辨率H&E肿瘤分类器奠定了计算基础。
三
材料和方法
1. 数据来源
该文章使用的数据集为:NCI数据集包括782名女性和1014名男性,NCI队列由126名女性和160名男性组成(2020-2023)。DBTA组织病理学图像和人口统计学数据仅选取10种CNS肿瘤类型中有诊断标签的患者,共1522例患者。CBTN的甲基化阵列样品仅从10种中枢神经系统肿瘤类型中选择具有诊断标签的肿瘤,共348例甲基化谱和组织病理学相匹配的患者。
2. 探针选择
我们首先过滤掉最初的865,859个探针中的51,052个,因为缺少测量。然后我们选择标准偏差至少为0.2的探针,将探针池减少到130,285个。此外,我们实施了一个平衡标准,以确保在样品中甲基化水平的相对平衡分布的探针选择。具体来说,我们计算了每个探针甲基化β值低于0.5和高于0.5的样品比例。如果两个比例都低于预先设定的不平衡阈值0.7,则认为探针是平衡的,因此适合进一步分析,最终选择了65,591个探针。这种策略选择使我们能够排除样品集中一致低甲基化或高甲基化的探针。
3. 图像处理
通过将整个幻灯片图像分成不重叠的小图像(称为tiles)来开始图像预处理阶段。在所有情况下,每个tile大小都标准化为512 × 512像素。选择20倍的放大倍数进行分析。因此,根据幻灯片的尺寸,每个WSI可以由数千个tile表示。采用颜色归一化技术来减轻不同载玻片间的染色差异。使用预训练的ResNet50模型对tile图像进行处理,提取图像特征。因此,预处理后,每个WSI被表示为大小为(n_tiles, 2,048)的矩阵。
4. 模型构建
间接模型用于甲基化分类。该模型的第一阶段是使用多层感知器(MLP)回归来建立自编码特征与甲基化β值之间的关系。该模型包括三层:512节点的输入层、512节点的隐藏层和2000节点的输出层。采用了一种多任务学习策略,基于相似的中位数β值对甲基化位点进行聚类。为每个集群开发了MLP回归模型,每个模型具有2000个节点的输出层。随后,为了利用推断的甲基化β值进行肿瘤类型分类,我们转向传统的机器学习分类器。我们首先使用sklearn的MinMaxScaler将推断的beta值归一化到0-1的范围。这一步骤确保了所有站点的一致标准。接下来,在相同的训练fold中,我们选择了与肿瘤类别相关的方差F值分析最高的前1000个特征。在分类任务中实现了四种传统的机器学习算法:逻辑回归、支持向量机、k近邻和随机森林。最终的预测分数是各个模型预测分数的平均值。
直接模型:在该模型中,使用MLP分类器将自编码特征与肿瘤类别直接联系起来。该组件与前面描述的MLP回归结构相似,但在输出层存在显著差异。输出层由十个节点组成,与NCI数据集中出现的脑肿瘤类型的数量相匹配。
人口统计模型:以患者的年龄、性别和手术部位(脑半球、后窝、硬脑膜基底、脑室、脊髓和腰椎)为输入,预测肿瘤类型为输出。与间接模型类似,采用了逻辑回归、支持向量机、k近邻和随机森林四种传统的机器学习算法。各个模型的预测分数的平均值表示最终的预测分数。在将数据输入分类器之前,使用MinMaxScaler将患者的年龄归一化。
四
结果
结果一:从H&E玻片预测DNA甲基化
我们利用了整个NCI数据集,以建立一个间接模型来预测WSI的DNA甲基化。模型输入探针是根据其甲基化水平的方差(方法)选择的,产生65,591个探针用于部署甲基化预测。我们采用了五倍交叉验证方法,在80%的数据集上迭代训练我们的模型,并在剩下的20%上评估其性能。通过计算所有样本中每个探针的实际甲基化值和预测甲基化值之间的Pearson相关性来评估模型的预测准确性。中位相关系数为0.45(图2a)。相关性大于0.4的探针共有44711个,相关性超过0.6的探针有5539个(图2b)。在每个队列中计算所有样本的每个探针的实际和预测β值之间的Pearson相关中位数分别为0.44和0.47,CBTN和NCI-Prospective队列(图2a)。重要的是,在这些验证数据集中,良好预测的探针数量相似,在CBTN和NCI-Prospective队列中,分别有40,133和45,755个探针超过了0.4的相关系数。此外,CBTN队列中的8293个探针和NCI-Prospective队列中的8400个探针超过了0.6的相关阈值(图2b)。我们观察到与高预测探针相关的队列之间存在明显的重叠:在任何队列中达到相关性超过0.4的52,962个探针中,84%(44,442)在至少两个队列中超过了这个阈值。
作为最初的生物学动机的“完整性检查”,我们检查了预测的甲基化值是否概括了常见中枢神经系统肿瘤类型中甲基化景观的已知全局关系。我们发现,预测的甲基化数据表明,与NCI队列中IDH野生型胶质母细胞瘤(n = 379)相比,异柠檬酸脱氢酶(IDH)突变型胶质瘤(n = 233)存在预期的高甲基化差异(图2d)。具体来说,基于预测值的分析结果表明,通过实际测量的甲基化阵列确定两种肿瘤类型之间甲基化差异位点的准确率为85%(图2e),突出了该模型准确捕获已建立的DNA甲基化模式的能力。
此外,使用已建立的癌症标志通路进行的途径富集分析显示,预测的β值与从不同癌症类型的测量值推断的途径激活模式高度一致(图2f,g,扩展数据图1a,b和方法),进一步证明了它们之间具有生物学意义的强相关性。这些发现强调了DEPLOY从H&E图像中准确预测关键癌症相关甲基化事件的能力。
结果二:H&E对中枢神经系统肿瘤类型的分类
我们针对中枢神经系统肿瘤类型分层建立了四种分类模型(人口统计学、直接、间接和综合),重点关注十种主要类型。检查NCI队列,通过精确召回曲线下的面积(AUPRC,也称为平均精度)评估的直接模型准确性为0.77,人口统计学模型的AUPRC略低,为0.76。间接模型的表现优于两者,AUPRC为0.82,证明了利用预测的CpG位点甲基化水平对肿瘤诊断和分类的价值。重要的是,将人口统计、直接和间接模型的预测整合在一起,得到了进一步的改进,AUPRC为0.92(扩展数据图2,第一列)。
在准确性方面,间接模型始终优于直接模型和人口统计学模型,三者的整合产生了最好的结果,在所有样本中,无论预测得分如何,前一名的准确率为85%,前两名的准确率为94%(图3a,第一列)。值得注意的是,虽然微平均准确率对每个患者一视同仁,但平衡准确率对每个类别都给予了同等的考虑。重要的是,DEPLOY在平衡精度方面也取得了非常相似的结果,前一项为83%,前两项为92%(图3b,第一列)。
结果三:检测和描述肿瘤诊断类异质性
DEPLOY在tile级别提供预测分数,然后将其聚合以在幻灯片级别进行最终预测。鉴于此,我们探索了DEPLOY的潜力,以揭示肿瘤的空间异质性,并可能识别单张幻灯片中可能存在的多种肿瘤亚型。值得注意的是,基于甲基化的分类器无法实现这一特性,因为甲基化分类器的预测是基于整个样本中大量测量的值。
为了研究这种潜在的能力,我们使用了经过NCI队列训练的DEPLOY模型来预测分子水平上已证实的双基因型寡星形细胞瘤的肿瘤类型。综合模型预测的前一名是IDH突变型星形细胞瘤(a -IDH),得分为0.32,前两名是O-IDH,得分为0.24。虽然前两个预测与真实诊断相匹配,但得分没有达到0.39的阈值,这可能表明该模型无法选择一种肿瘤诊断。然而,在tile水平上,通过与预测的H&E组织切片和与基因变异相关的免疫组织化学染色模式(图5和补充图2)的比较,可以证明,DEPLOY的预测在空间上与组织学和分子的“基本事实”相匹配。
五
讨论
DEPLOY提供了一个高分辨率的中枢神经系统肿瘤分类器,并被定位为补充病理学读者,以确保和确认病理学家的初步诊断,或在发现差异时及时重新评估。未来的工作可能会扩大验证肿瘤类型的数量,包括中枢神经系统内外,以扩大该方法的临床潜力。我们设想,未来世界上的任何病理学家,包括那些在医疗服务不足地区工作的病理学家,都可以将肿瘤切片的扫描图像发送到一个类似DEPLOY的平台,以获得基于人工智能的“第二意见”,供他们考虑,无论他们身在何处。最后,我们注意到,这里提出的建模方法可以很容易地应用于开发其他癌症适应症的类似分类系统,并希望这项工作有助于这一重要且高度受益的未来挑战。