NC:机器学习构建肉瘤DNA甲基化分类器队列研究

企业   2024-11-03 10:01   浙江  


 

英文标题:Causality-enriched epigenetic age uncouples damage and adaptation

发表期刊:Nature Communications

影响因子:14.7

发表时间:2021年1月

研究机构:德国海德堡大学附属医院

涉及组学:illumina 450k DNA甲基化芯片等

涉及算法:孟德尔随机化、meQTL、弹性回归网络


摘要

肉瘤是影响成人、青少年和儿童的恶性软组织和骨肿瘤。它们代表了一类形态学上异质的肿瘤,一些实体缺乏明确的组织病理学特征。因此,肉瘤的诊断存在较高的观察者间变异性和误诊率。

本文作者展示了使用基于DNA甲基化芯片所产生的数据,利用机器学习分类器算法对软组织和骨肿瘤进行分类。该肉瘤分类器是使用来自全面预表征病例的1077个甲基化图谱数据集进行训练的,这些病例包括62个肿瘤甲基化类别,涵盖了整个年龄谱的广泛的软组织和骨肉瘤亚型。其性能在428个肉瘤肿瘤队列中得到验证,其中322例被肉瘤分类器分类。

该结果证明了基于DNA甲基化的肉瘤分类在研究和未来诊断应用中的潜力。





1、 典型肉瘤的DNA甲基化图谱分析

 

使用450k DNA甲基化芯片对最常见的软组织和骨肿瘤、可能模拟间充质分化的非间充质肿瘤(即鳞状细胞癌或黑色素瘤)以及非肿瘤性对照组织的典型病例进行DNA甲基化图谱分析。

经过数据质控后,通过TSNE对甲基化数据进行聚类分析,从而确定共享甲基化模式的肿瘤组(甲基化类别)。

为了尽量减少潜在的聚类所产生的假阳性结果,定义一个甲基化类别至少需要七个病例以上,经验证这足以训练分类器并进行预测。无监督聚类(每组至少七个病例)确定了62个肿瘤甲基化类别,它们共属于54种组织学类型,以及三个非肿瘤性对照甲基化类别。

此外并排除了性别、患者年龄、材料类型、阵列类型和肿瘤纯度等潜在混杂因素。





2、 肉瘤分类器的开发

 

使用随机森林机器学习分类算法开发了一种分类工具——肉瘤分类器。

肉瘤分类器的交叉验证(一种内部性能指标)表明,原始分数的估计错误率为1.95%,通过受试者工作特征曲线下面积分析得到的判别能力为99.9%。

低错误分类率证明了分类器算法的判别能力。交叉验证中遇到的差异主要发生在四个常规软骨肉瘤甲基化类别之间以及三个与BCOR改变相关的肉瘤甲基化类别之间。

与脑肿瘤分类器类似,作者引入了甲基化类别家族分数,通过将这些密切相关的甲基化类别的各自预测分数相加来组合它们。这种修改将交叉验证时原始分数的错误率降低到0.65%。

作者采用了一种校准算法将原始分数转换为校准分数,从而确保类间可比性。这进一步允许将0.9的一般截止分数定义为预测特定甲基化类别的阈值。





3、 在临床队列中验证分类器性能

接下来,肉瘤分类器的性能在另外428例病例中得到验证,这些病例主要代表复发性和难治性软组织和骨肿瘤,参加了MNP2.0、PTT2.0、INFORM或NCTMASTER试验。

 

将肉瘤分类器预测的甲基化类别与机构诊断进行比较(图3)。428例病例中有322例(75%)达到校准分数≥0.9。在428例病例中有263例(61%),相应的甲基化类别或家族与机构诊断相符。

 

在59/428例病例(14%)中遇到分类器预测与校准分类器预测分数≥0.9不一致的情况。在这些病例中,筛选分子数据以寻找亚型特异性改变。在29/59例病例中,初始诊断根据预测的甲基化类别进行了修订。在26/59例病例中,由于缺乏实体特异性突变,组织学诊断与分类器预测之间的差异无法解决。在4/59例病例中,初始诊断与预测的甲基化类别相悖。


 

未达到阈值的病例通过 t-SNE 分析发现其位置特点,推测可能与肿瘤细胞纯度有关,尽管目前受多种因素限制,但该分类器仍有改进和应用潜力






4、 肉瘤的拷贝数图谱分析

 

独立于用于分类的甲基化模式,高密度DNA甲基化芯片可以检测拷贝数变异(CNV),其检测对肉瘤具有重要的诊断意义。

作者在所有肉瘤中生成拷贝数变异(CNV)图谱。经常遇到的改变包括高分化 / 去分化脂肪肉瘤的 MDM2 扩增、辐射诱导的血管肉瘤的 MYC 扩增或横纹肌样肿瘤中包含 SMARCB1 的 22q 染色体片段缺失。

虽然这些改变通常是不同肉瘤实体的特征,但由于它们偶尔也在其他实体中出现,所以通常不是特异性的。

然而,与甲基化图谱相结合,CNV图谱通常有助于诊断决策过程。甲基化类别 / 实体中染色体或亚染色体数值改变的频率可以通过总结 CNV 图谱来描绘。

为每个甲基化类别提供了常见拷贝数改变的系统概述。预测甲基化类别的分子和临床特征在分子分类器报告中提供。






相关阅读

Gut:机器学习+DNA甲基化区别胰腺癌和慢性胰腺炎队列研究
2025国自然热点:关于「中性粒细胞」,你了解多少
转录组和蛋白组联合备战国自然2025,你还差一个翻译组!

本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码


点分享


点点赞


点在看




联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章