文献导读-基于 DNA 甲基化的表观遗传特征预测神经胶质瘤的体细胞基因组改变

文摘   科学   2023-05-23 08:00   黑龙江  

 




摘要




   分子分类改善了恶性胶质瘤患者的诊断和治疗。然而,分类依赖于既昂贵又缓慢的个体测定,导致治疗经常延迟。在这里,我们建议使用DNA甲基化作为新兴的临床诊断平台,根据主要的基因组改变对胶质瘤进行分类,并提供对亚型特征的见解。结果表明,使用机器学习模型,DNA甲基化特征可以准确地预测体细胞改变,并显示出对现有分类器的改进。我们开发的已建立的统一诊断管道(UniD)对于早期临床阶段的基因组改变和基因表达亚型诊断具有快速且具有成本效益,并且比目前临床使用的单个检测有所改进。遗传改变和表观遗传特征之间的显著关系表明我们的方法对其他恶性肿瘤具有广泛的适用性。



介绍



   表观遗传学在癌症中起着至关重要的作用并通过 DNA 甲基化、组蛋白变异和非编码 RNA 显示出广泛的重编程。DNA甲基化是一个稳定的特征,反映了肿瘤间和肿瘤内的异质性,已被用于对不同类型的肿瘤进行分类。

   浸润性胶质瘤,包括世卫组织II-IV级胶质瘤,是最常见和致命的原发性脑肿瘤。这些肿瘤已经接受了全面的分子分析,特别是癌症基因组图谱(TCGA)。以前的研究已经确定了胶质瘤中的一些关键分子特征,这些特征在胶质瘤的发生、进展、诊断和治疗中起着关键作用。例如,IDH突变和chr1p19q编码是目前WHO胶质瘤诊断标准的一部分。

   然而,突变和chr1p19q状态需要单独测定,且个体测定的成本、时间和组织要求经常导致分子诊断延迟或不完整,导致治疗欠佳和不符合临床试验。因此,对于浸润性胶质瘤患者,迫切需要开发一种快速、经济高效的检测方法。

   作者开发了一种基于DNA甲基化的胶质瘤分类器,可准确确定浸润性胶质瘤的IDH,TERTp和ATRX突变状态,chr1p19q编码状态和基因表达亚型。使用独立的队列对其进行验证。开发的模型可以很容易地应用于所有浸润性胶质瘤,包括低级别胶质瘤和GBM。对基于DNA甲基化的错误分类案例的探索为未来的研究方向提供了有价值的思路,并证明了甲基化方法相对于现有个体测定的潜在优势。



方法




数据处理

来自TCGA-GBM数据集的129个样本和来自TCGA-LGG数据集的516个样本用于训练分类器。

探针选择

对于二元类别内的遗传改变,包括IDH,TERTp和ATRX突变以及chr1p19编码,在Infinium HumanMethylation 450K BeadChip阵列(HM450K,Illumina)上分析的浸润性胶质瘤的原始数据(IDAT文件)进行了样品水平和探针水平质量控制。经过质量控制和探针过滤后,最终数据集包括644个胶质瘤样本和380010个探针。在644份胶质瘤样本中,637份具有IDH和ATRX突变状态,298份样本具有TERTp突变状态注释,641份具有染色体1p/19q共缺失状态。

图1 数据处理和模型构建的工作流程

   最终,在变量选择步骤中分别选择1513、2325、2112和1279个探针进行IDH突变、TERTp突变、ATRX突变和1p/19q共缺失预测。

   对于基因表达亚型,包括来自HM27K或HM450K的DNA甲基化数据的TCGA GBM样品。排除没有基因表达数据的 GBM 样品。合并这两类数据集需要批量矫正,作者使用了三种方法进行比较,R package: ChAMP, lumi和wateRmelon。最终选择了ChAMP的方法。数据整合后,有416个样品和20720个探针可用。探针过滤后,保留9519个探针进行相关性评估。只保留了具有基因表达信息的样本,这导致了1263个探针和356个样品作为最终数据集。其中,对训练集中的212个样本的探针重要性进行了评估,985个探针的重要性为零,然后从分析中排除,剩下278个探针。


模型构建:二元响应变量

以IDH突变为例:样本被随机分配到训练(60%)、发展(20%)和测试(20%)集中,按IDH突变状态分层。使用弹性网络正则化在训练集中应用变量选择和超参数调整。对于训练集,使用R 包:glmnet选择参数 alpha, 设置为 0.1 到 1,使用 0.1 作为步长。对于每个 alpha 值,随机生成 200 个 lambda 值。在 200 个 lambda 值中,根据预测精度挑选出最佳 lambda 值。对于每个alpha值,探针按其选择百分比从高到低进行排名。根据探针排名,例如,选择前 100 个探针、200 个探针、500 个探针等,分别组成一个探针集。对于每个探测集,使用训练集重新调整逻辑回归模型。最终模型是根据发展集中的性能确定的;最终模型用于IDH突变预测、TERTp突变预测、ATRX突变预测和1p/19q共缺失预测使用的探针数量分别为100、1000、500和100。

   为了验证,最终模型应用于测试集和外部验证集(NOA-04)。该试验比较了间变性胶质瘤患者放疗后化疗进展与化疗后放疗进展的有效性和安全性(n = 115)。DNA甲基化HM450K数据可用于所有肿瘤样本。


模型构建:基因表达亚型

对于基因表达亚型预测,根据已发表的算法计算亚型的模型构建参考和每个亚型的概率。随机森林优于其他算法,并被选为最终算法。计算亚型概率公式如下:

 P valuec 是 CL 亚型的经验 p 值,其他亚型的经验 p 值类似。

探针的特征选择是mlr 包中内置的 R 包 Fselector进行运算的。




结果




   作者开发了一种基于DNA甲基化的分类器,可准确确定浸润性胶质瘤的IDH,TERTp和ATRX突变状态,chr1p19q编码状态和基因表达亚型。上述分子特征按其状态可分为两类:二元类,包括IDH、TERTp和ATRX突变或野生型,以及chr1p19q编码或完整型;和基因表达亚型,包括 CL、PN 或 MES。二元基因组改变分类器在来自TCGA的低级别和高级别胶质瘤样本的大型队列上进行训练和验证,而基因表达亚型分类器仅在TCGA胶质母细胞瘤样本上进行训练。所有分类器的性能均通过德国癌症协会德国神经肿瘤学工作组(NOA)进行的多中心III期随机试验的独立队列(NOA-04)进行了验证,该试验包括低级别和高级别胶质瘤。

预测模型

在测试集中,模型对IDH、TERTp和ATRX突变以及chr100p98q编码状态的预测准确率分别为31%、90.48%、99.21%和1.19%,AUC分别为1.0、1.0、0.9952和0.9974。对于基因表达亚型预测,按照方法中所述处理具有HM450K和HM27K数据的GBM样品。最终的随机森林模型使用训练(n = 212)和发展(n = 72)集进行了重新拟合,并在测试集中实现了72.2%(52/72)的预测准确率。

图2 预测模型的性能

预测性特征分析

   通过比较归一化后富集染色体的探针数量,发现IDH突变预测模型中的探针富集在22号染色体(13.08%)和21号染色体(8.8%)中,而ATRX突变预测模型中的探针富集在9号染色体(7.2%)和14号染色体(7.2%)。有趣的是,TERT p突变、染色体1p/19q共缺失和基因表达亚型预测模型中的探针均在18号染色体中富集(TERTp:8.2%;共缺失:16.3%;基因表达亚型:12.6%)。在IDH预测特征的100个探针中,45%(45/100)位于启动子区域(包括TSS200、TS1500和1st外显子),总共绘制了65个基因。对于TERTp预测,大多数探针位于body(29.1%),映射了612个基因。对于ATRX预测特征,大多数探针位于body(13.9%),总共映射到333个基因。对于染色体1p/19q共缺失预测特征,44%的探针映射到启动子区域。对于基因表达亚型预测特征,大多数探针映射到第一外显子(39.95%)和95'UTR区域(25.8%)。


预测结果分析

   被甲基化模型错误分类为ATRX突变的样品都含有IDH突变,而所有被甲基模型错误分类为野生型的样品都是IDH野生型。均为ATRX突变样本的set2、set3和set5在ATRX基因表达方面无显著差异,均为ATRX野生型样本的set1和set4之间无差异。当甲基化结果不一致时,即使测序结果一致,也观察到表达的显著差异。(如图3)

图3 调查ATRX和chr1p19q编码的错误分类样本

对于基因表达亚型预测,测试集中的样品(n = 72)按基于甲基和基于Transc的基因表达亚型进行分类(图4).与具有一致亚型的样品相比,两种方法之间的不一致样品在拷贝数变异和基因表达水平方面表现出显著差异。


图4 研究错误分类的样品,用于测试集中的基因表达亚型预测分析

模型的验证

NOA-04 队列中每个二元基因组改变的预测准确度为:对于 IDH 突变,PCR-seq 为 89.9% (98/109),HM450k DNA 甲基化谱的无监督聚类分析为 99.10% (114/115);对于 TERTp 突变,82.8% (82/99) 通过 PCR-seq;对于 ATRX 突变,通过免疫组织化学 (IHC) 检测为 92.7% (89/96);对于 chr1p19q 状态,MLPA 为 88.89% (88/99),HM450K 衍生的 CNV 配置文件为 95.65% (110/115)(图 5),在TCGA LGG样品中,基于甲基化和基于Transc的算法预测的基因表达亚型在PN亚型的分类结果中显示出很大的差异。

图5 模型验证和预测结果




讨论




   研究表明,基于DNA甲基化微阵列的分类器UniD可以准确预测浸润性胶质瘤中的体细胞基因组改变,并显示出特征性基因组改变的富集性改善。此外,它适用于FFPE样品,可以很容易地应用于当前可用的EPIC阵列,其中包含>850,000个探针。这种快速、低成本的平台优于多种单独检测。

   DNA甲基化特征准确地预测了人类胶质瘤的体细胞基因组改变,强调了癌症表观遗传特征与体细胞基因组改变之间的广泛而显著的关系。此外,作者开发了R包 (available on GitHub)。





参考文献

Yang J, Wang Q, Zhang ZY, Long L, Ezhilarasan R, Karp JM, Tsirigos A, Snuderl M, Wiestler B, Wick W, Miao Y, Huse JT, Sulman EP. DNA methylation-based epigenetic signatures predict somatic genomic alterations in gliomas. Nat Commun. 2022 Jul 29;13(1):4410. doi: 10.1038/s41467-022-31827-x. PMID: 35906213; PMCID: PMC9338285.


END



计算表观遗传学

计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享



往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 |  BS-Seq  | 隐马模型 Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵


精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)


编辑:sm

通讯邮箱:ad.cepi@edbc.org

投稿邮箱:scw.cepi@edbc.org




CEPI感谢您的支持!

(IOS系统用户专用通道)


    赞赏    



计算表观遗传学
“计算表观遗传学(Computational Epigenetics - CEPI)”公众平台致力于表观遗传领域的科学研究,汇集领域内数据分析、算法开发及平台搭建,领航表观前沿,共同探索表观遗传调控机制。
 最新文章