准确的病理诊断对癌症患者的最佳治疗至关重要。对于大约100种已知的中枢神经系统肿瘤类型,诊断过程的标准化极具挑战性——许多肿瘤类型的组织病理学诊断存在很大的观察者间差异。
本文提出了一种基于DNA甲基化的全面诊断方法,用于对所有实体和年龄组的中枢神经系统肿瘤进行分类,并展示了其在常规诊断环境中的应用。与标准方法相比,该方法的可用性可能对诊断准确性产生重大影响,导致多达12%的前瞻性病例诊断发生变化。为了更广泛的可及性,作者还设计了一个免费的在线分类器工具,其使用不需要任何额外的现场数据处理。该结果为基于机器学习的肿瘤分类器在其他癌症实体中的生成提供了蓝图,有可能从根本上改变肿瘤病理学。
在线网址为:http://www.kitz-heidelberg.de/molecular-diagnostics
为建立全面的中枢神经系统肿瘤参考队列,使用illumina 450k DNA甲基化芯片生成了全基因组DNA甲基化图谱,涵盖了几乎所有WHO定义的神经外胚层和鞍区肿瘤,以及间充质肿瘤、黑色素瘤等多种肿瘤类型,共91个类别,2801个样本。
通过无监督聚类分析,确定了82个具有不同DNA甲基化特征的中枢神经系统肿瘤类别,分为5类,各类别与WHO分类的关系不同。
参考队列的t-SNE降维分析表明甲基化类别的分离具有高度稳定性,且未发现明显的批次效应。对参考队列中的星形细胞瘤、少突胶质细胞瘤和胶质母细胞瘤,根据TCGA泛胶质瘤DNA甲基化模型进行额外分类,发现与参考队列中定义的特定类别有很强的关联。
使用随机森林算法开发分类器,整合了来自所有2801个参考样本和91个甲基化类别的全基因组信息通过10,000个决策树对样本进行分类,产生原始分数。
为使分数可用于诊断决策,拟合多项式逻辑回归校准模型将原始分数转换为校准分数,以衡量分类的置信度。
交叉验证结果显示,原始分数和校准分数的错误率较低,区分能力高。定义了八个“甲基化类别家族”,将校准分数相加得到单一分数,降低了临床相关分组的交叉验证错误率。确定了预测匹配类别的阈值,对于甲基化类别家族内的亚类,也定义了相应的阈值。
前瞻性分析1155例诊断性中枢神经系统肿瘤,与标准组织病理学分析并行。
4%的样本因材料不适合开展后续的甲基化分析,对其余1104例进行甲基化分析,88%的样本匹配到既定的DNA甲基化类别,76%的结果与病理诊断一致。
12%的病例通过甲基化分析建立了明确的分子分型的亚群体,改变了初始诊断,其中71%的病例WHO分级发生变化。
五个外部中心队列的结果与本研究相似,12%的病例建立了新诊断。12%的肿瘤无法分配到具体的DNA甲基化类别,可能代表新的分子分类群体。
通过实验室间比较研究随机森林分类器的技术稳健性,结果高度相关。
计算拷贝数图谱在不同实验室间也有稳定的表现。使用该分类器研究新的甲基化芯片(EPIC)和WGBS测序数据,具有很好的相关性,表明该DNA甲基化方法在检测技术上有很强的拓展性和适应性,适用于DNA甲基化芯片以及DNA甲基化测序如WGBS以及RRBS等。
作者还创建免费的在线平台(http://www.kitz-heidelberg.de/molecular-diagnostics ),用于数据上传、自动归一化、随机森林分类和PDF报告生成,提供DNA拷贝数图谱和启动子甲基化状态分析。
自2016年12月推出以来,已有超过15个中心上传了4500多例病例。预期该平台能作为全球合作中枢神经肿瘤研究的枢纽,持续识别和追踪罕见的中枢神经肿瘤类别。
NC:机器学习+DNA甲基化锁定FFPE样本转移癌的原癌部位
Gut:机器学习+DNA甲基化区别胰腺癌和慢性胰腺炎队列研究
联川特色|机器学习特征筛选适配大样本差异分析(内含讲座回放)
扫描下方二维码
点分享
点点赞
点在看