英文标题:Nonlinear DNA methylation trajectories in aging male mice
发表期刊:Science Translational Medicine
影响因子:15.8
发表时间:2019年9月
研究机构:德国柏林洪堡大学
涉及组学:DNA甲基化测序RRBS等
涉及算法:人工神经网络、支持向量机和随机森林等
英文标题:Nonlinear DNA methylation trajectories in aging male mice
发表期刊:Science Translational Medicine
影响因子:15.8
发表时间:2019年9月
研究机构:德国柏林洪堡大学
涉及组学:DNA甲基化测序RRBS等
涉及算法:人工神经网络、支持向量机和随机森林等
摘要————
头颈鳞状细胞癌(HNSC)患者存在肺部转移或发生第二原发性肺鳞状细胞癌(LUSC)的风险。区分肺部转移瘤和原发性肺癌在临床上非常重要,但在大多数情况下,目前的诊断方法无法做到这一点。为了解决这个问题,作者对原发性肿瘤进行了DNA甲基化分析,并训练了三种不同的机器学习方法,以区分转移性HNSC和原发性LUSC。
随后作者开发了一种人工神经网络,在包含279例HNSC和LUSC患者以及正常肺组织对照的验证队列中,正确分类了96.4%的病例,表现优于支持向量机(95.7%)和随机森林(87.8%)。通过对所得概率分数应用阈值并排除低置信度样本,在92.1%(神经网络)、90%(支持向量机)和43%(随机森林)的病例中实现了超过99%的预测准确率。
作为该方法的独立临床验证,作者分析了一系列51例有HNSC病史和第二肺肿瘤的患者,证明了基于临床病理特征的正确分类。
总之,该方法有助于可靠地区分头颈鳞状细胞癌的肺转移瘤和原发性肺鳞状细胞癌,从而指导治疗决策。
1、构建临床队列
研究回顾性分析了作者自己所在中心既有原发性头颈鳞状细胞癌(HNSC)病史,又患有同步或异时性肺鳞状肿瘤的病例,共408例。
经跨学科肿瘤委员会讨论,仅64例(15.7%)就肿瘤起源达成共识,其中38例为HNSC肺转移,26例为第二原发性肺鳞状细胞癌(LUSC),其余344例(84.3%)因信息矛盾无法确定。
对这64例中的54例进行进一步分析,排除3例后得到51例临床队列,HNSC转移患者的疾病特异性生存期显著短于第二原发性LUSC患者。
2、不同机器学习分类器在原发性肿瘤样本上的开发和比较
首先使用原发性HNSC和LUSC样本,结合来自TCGA和GEO数据库的正常肺组织样本构建参考队列(n=1071),以识别各自肿瘤类型的特征性表观遗传特征。
使用TSNE降维分析发现,HNSC和LUSC样本形成两个大致不同的组,具有相当大的重叠且没有明显的分离。在肿瘤纯度较高的情况下,基于基因表达量以及DNA甲基化水平来评估的LUSC与HNSC的分离更为明显。HPV阳性病例聚集在一个不同的亚组中。
HPV亚组的TP53突变发生率也相对较低。在HNSC和LUSC中,没有发现与较短总生存期相关的亚组。HNSC起源位点的注释揭示了三个相对不同的亚组,代表源自口咽、口腔和喉部肿瘤。
虽然正常肺样本与肿瘤样本不同,但HNSC和 LUSC没有明显分离。
为进行下游分析,选择了2,000个最具变异性的CpG位点,GO富集分析显示这些位点在组织分化等相关的类别中显著富集。
基于这2,000个CpG位点,作者随机开发了基于人工神经网络、支持向量机和随机森林三种机器学习分类器,并在参考队列上进行五折交叉验证和调参。
然后将所得模型应用于一个独立的验证队列,该队列由不同GEO数据集以及自己In House数据集中原发性 HNSC 和 LUSC 肿瘤样本,总共279个样本。样本类型包括冰冻组织和FFPE样本,检测方法绝大部分为DNA甲基化芯片。
3、分类准确性
在验证队列(n=279)中,人工神经网络和支持向量机的分类准确率较高,分别为96.4%和95.7%,随机森林准确率为87.8%,相应的AUC也表明前两者性能较好。
通过考虑分类预测的置信度(概率分数),排除低分数样本(视为不可分类),三种算法在部分样本子集上的准确率可提高到99%以上,人工神经网络在高准确率预测的病例数量上表现突出。
分析不同组织类型、研究、材料类型、DNA甲基化芯片阵列和预处理方法等因素对分类器概率分数分布的影响,发现人工神经网络和支持向量机对这些因素较为稳健,而随机森林受影响较大。
4、独立临床队列验证
作者选择了一个由51名合适患者组成的独立临床队列。在包括来自参考队列和临床队列的所有病例的降维TSNE图中,临床验证病例倾向于在参考队列组中累积,这是根据其临床病理学注释所预期的
在由51例患者组成的独立临床队列中,再次验证分类器性能,人工神经网络、支持向量机和随机森林的原始准确率分别为98.0%、96.1%和84.3%,二分类AUCs分别为1.0、1.0和0.976。
应用之前定义的概率分数阈值后,准确性、阳性预测值和AUC均提高到100%,且分类结果与疾病特异性生存相关(随机森林除外)。
将分类器应用于TCGA中4例有HNSC病史的LUSC患者样本,其中2例被三种机器学习方法均分类为HNSC转移,与临床随访数据相符,进一步支持了分类器的有效性。
相关阅读
NC:GWAS+meQTL揭示DNA甲基化在欧洲和东亚人群中大体相同
Nat Genet:迄今最大规模的人类DNA甲基化QTL(meQTL)图谱
诺奖热点NC:骨髓miRNA增强脂肪细胞胰岛素信号并预防肥胖期间高血糖
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究! 扫描下方二维码 点分享
点点赞
点在看