基于BEPH的癌症诊断和生存预测基础模型

健康   2024-10-14 15:44   广东  

引言: 组织病理图像分析一直是诊断各种癌症的金标准。传统上,病理学家通过手工检查组织切片,寻找细胞大小和组织结构等形态特征来做出诊断。然而,这个过程耗时费力,且在病理学家经验不足的情况下容易发生误诊。近年来,计算病理学和人工智能(AI)在这一领域引发了变革,提供了更客观高效的诊断工具。特别是深度学习模型在疾病分级、癌症分类和生存预测等任务中表现出了巨大的潜力。然而,现有模型在跨癌种泛化时面临挑战,主要原因是不同癌症类型的组织学差异和标注数据的缺乏。上海交通大学Zhangsheng Yu等提出了BEPH(基于BEiT的组织病理图像预训练模型),这是一个自监督学习模型,旨在解决这些问题,并为更具泛化能力的癌症诊断和生存预测模型提供基础。


主要发现 

1. BEPH模型架构: BEPH模型使用自监督学习对来自癌症基因组图谱(TCGA)的大量组织病理图像数据进行预训练。该数据集包括来自32种不同癌症类型的超过1100万图像块。模型架构基于BEiT框架,这是一种掩蔽图像建模(MIM)技术,通过重建图像的缺失部分来学习有意义的表示。在预训练之后,BEPH可以用于多种下游任务,例如块级癌症识别、全切片图像(WSI)癌症分类和生存预测。

2. 块级分类:BEPH在BreakHis数据集上进行了评估,这是一组包含良性和恶性组织图像的大型数据集。在块级分类任务中,BEPH在患者级别的平均准确率为94.05%,在图像级别的平均准确率为93.65%,超越了多个先进的模型。该模型的泛化能力也在LC25000数据集上得到了测试,取得了99.99%的惊人准确率,显著高于ResNet和DINO等模型。

3. 全切片图像(WSI)分类: 在WSI分类任务中,BEPH测试了三种癌症类型:肾细胞癌(RCC)、非小细胞肺癌(NSCLC)和乳腺癌(BRCA)。通过弱监督学习,BEPH在肾细胞癌、非小细胞肺癌和乳腺癌的AUC分别为0.994、0.970和0.946。这些结果显著优于其他预训练模型,尤其是在BRCA数据集上,BEPH的表现提升了多达8.8%。

4. 生存预测: BEPH还针对生存预测进行了微调,这在肿瘤学中是一个至关重要的任务。该模型在6种癌症类型(乳腺癌、结直肠癌、肾透明细胞癌、乳头状肾细胞癌、肺腺癌和胃腺癌)中表现出显著改善,获得了最高的一致性指数(C-index),例如,在乳头状肾细胞癌中,BEPH的C-index达到了0.7135,比基于ResNet的模型提高了6.44%。

5. 可解释性和可视化: 为确保BEPH的预测具有可解释性,研究人员进行了注意力可视化分析,表明BEPH能够准确地突出WSI中的肿瘤区域,而无需明确告知模型这些区域的存在。这种可解释性对临床应用至关重要,因为它使病理学家能够信任和理解模型的决策。


结论

BEPH模型代表了计算病理学领域的重要进展,为跨多个癌症类型的癌症诊断和生存预测提供了基础。通过在大量未标注的组织病理图像数据上进行自监督学习,BEPH克服了现有模型在数据稀缺和组织学差异方面的限制。它在分类和生存预测任务中的高性能使其成为一个有价值的研究和临床工具。


影响

BEPH的影响远不止于癌症诊断。它在有限标注数据下表现良好的能力减少了对大量专家标注的需求,使其在各种临床和研究环境中具有高度可扩展性。此外,该模型在处理不同任务时的灵活性(从分类到生存预测)为个性化医学开辟了新途径,使患者的预后能够更准确地预测。未来的工作可以扩大预训练数据集,并整合多模态数据,如基因组或临床信息,以进一步增强模型的能力。


参考文献

Zhaochang Yang et al. A foundation model for generalizable cancer diagnosis and survival prediction from histpathological images. BioRxiv. 2024


智预
“智预”谐音“治愈”,代表我们的愿景。深圳智预生命科技有限公司致力于开发基于定量建模方法的个体化癌症画像流程,提供技术咨询和技术服务。
 最新文章