人工智能已经在社会各业中成为潮流,在生物医学领域,人工智能可以应用于医疗机器人、人工智能辅助诊断、人工智能精准医疗、人工智能药物研发和人工智能医学影像识别。今年9月发表于nature的论文利用人工智能构建了用于癌症诊断和预后预测的病理学基础模型。
组织病理学图像评估对于癌症诊断和亚型分类不可或缺。用于组织病理学图像分析的标准人工智能方法侧重于为每项诊断任务优化专用模型。虽然这些方法取得了一些成功,但它们对不同数字化方案生成的图像或从不同人群收集的样本的通用性往往有限。为了应对这一挑战,作者设计了临床组织病理学成像评估基础(CHIEF)模型,这是一个通用的弱监督机器学习框架,用于提取病理学成像特征,进行系统的癌症评估。CHIEF 利用两种互补的预训练方法来提取不同的病理表征:无监督预训练用于tile-level特征识别,弱监督预训练用于whole-slide模式识别。研究团队使用跨越 19 个解剖部位的 60,530 张整张幻灯片图像开发了 CHIEF。通过对 44 TB 高分辨率病理成像数据集进行预训练,CHIEF 提取出了有助于癌细胞检测、肿瘤来源识别、分子特征描述和预后预测的微观表征。使用从全球 24 家医院和队列中收集的 32 个独立切片集的 19,491 张全切片图像成功验证了 CHIEF。总体而言,CHIEF 的表现优于最先进的深度学习方法达 36.1%,这表明它有能力解决在来自不同人群、采用不同切片制备方法处理的样本中观察到的领域偏移问题。CHIEF 为癌症患者的高效数字病理评估提供了可推广的基础。
与常用的自监督特征提取器不同,CHIEF 利用了两种类型的预训练程序:对 1,500 万张未标记的tile图像进行无监督预训练,以及对 60,000 多张 WSI 进行弱监督预训练。tile-level无监督预训练为血红素-伊红染色的组织病理学图像建立了通用特征提取器,这些图像收集自异构的公开数据库,捕捉了显微细胞形态的各种表现形式。随后的 WSI 级弱监督预训练通过描述癌症类型之间的异同,构建了一个通用模型。CHIEF 提取的病理图像表征可用于癌症分类、肿瘤来源预测、基因组特征预测和预后分析。在预训练过程中,将 WSI 裁剪成不重叠的成像tiles,并使用对比语言-图像预训练(CLIP)嵌入法对每个 WSI 的解剖部位信息进行编码,以获得每个解剖部位的特征向量。合并了文本和图像嵌入,以表示训练数据中的异质病理信息。然后利用 CHIEF 提取的病理成像特征直接推断癌症类型。在基因组图谱和预后预测任务中,CHIEF 特征是为每个特定任务微调模型的基础。
从病理图像中检测恶性细胞对于癌症诊断至关重要。最先进的癌细胞检测人工智能方法主要集中于训练特定癌症类型的模型,而没有利用不同癌症恶性细胞形态的共性。由此产生的模型不容易扩展到其他癌症类别。为了弥补这一不足,作者利用 CHIEF 构建了一个弱监督癌症检测平台,并评估了其在不同癌症中的通用性。使用 15 个独立数据集进行了广泛的外部验证,这些数据集共包含 13,661 个 WSI。包括乳腺癌、子宫内膜癌、食道癌、胃癌、宫颈癌、结肠癌、前列腺癌、肾癌、皮肤癌、胰腺癌和肺癌。在 15 个独立测试数据集中,CHIEF 的 AUROCs 高达 0.9943,持续优于三种深度学习方法(即 CLAM、ABMIL 和 DSMIL)。
作者使用整张幻灯片注意力可视化来识别 CHIEF 模型所使用的诊断信号。CHIEF 将大部分注意力投向了癌症区域,尽管只在幻灯片级别的标签上进行了训练,但它在像素级别上与地面实况注释表现出了显著的一致性。值得注意的是,受到 CHIEF 高度关注的tiles包含具有恶性肿瘤典型细胞学和结构模式的组织,这表明该模型有能力使用弱监督方法识别关键诊断特征。
除此之外,作者还验证了CHIEF 模型预测癌症样本分子特征的能力,研究涉及 30 种癌症类型中的 13,432 个 WSI 和每种癌症类型中突变率最高的前五个基因。在系统性泛癌症基因突变分析中,CHIEF 预测了 AUROCs 大于 0.8 的九个基因的突变状态。病理图像包含与 19 种癌症类型的TP53突变相关的强信号,其中低级别胶质瘤、肾上腺癌和 UCEC的 AUROC 较高。CHIEF还发现了GTF2I的突变,43.4%的胸腺上皮肿瘤患者都有这种突变,AUROC为0.9111。此外,CHIEF 预测了葡萄膜黑色素瘤中的BAP1突变(AUROC = 0.817)。进一步使用 CHIEF 预测了与 FDA批准的靶向疗法相关的基因,涉及 15 种癌症类型的 18 个基因。CHIEF 预测了所有 18 个基因的突变状态,AUROC 均大于 0.6。预测性能较高的突变包括弥漫大 B 细胞淋巴瘤中的EZH2、胃腺癌中的NTRK1、前列腺癌中的BRCA2、甲状腺癌中的BRAF、肺鳞癌中的ERBB2和膀胱尿路上皮癌中的FGFR3。
最后作者利用该模型验证了其预测癌症患者预后的效能,重点研究了 7 种在独立队列中具有可靠预后信息的癌症类型(COAD、READ、LUSC、BRCA、GBM、UCEC、LUAD、RCC),为所研究的每种癌症类型建立了分阶段生存预测模型,CHIEF 利用初次诊断时获得的组织病理学图像成功预测了患者的生存预后。在所有癌症类型和所有研究队列中,CHIEF 都能将生存期较长的患者与生存期较短的患者区分开来。相比之下,最先进的深度学习方法(例如,PORPOISE和DSMIL)不能可靠地区分相同情况下不同生存结果的患者。与其他方法相比,CHIEF 得出的 Kaplan-Meier 曲线的 CI 更窄,总体而言CHIEF 在所有癌症类型中的平均一致性指数(c-index)为 0.74,比 PORPOISE 和 DSMIL(分别为 0.62 和 0.67)高出 12% 和 7%。
此外,作者还进行了一项多变量分析,其中纳入了模型得出的风险评分、患者年龄、性别和分期。结果显示,CHIEF 导出的风险评分是一个重要的预后因素,独立于已知的生存结果指标。CHIEF模型的单变量分析表明,风险评分与调查中所有癌症类型患者队列的生存结果在统计学上有显著相关性。在长期存活者和短期存活者中,高关注区域都包含各种癌症类型的恶性组织。与死亡风险较高的患者相比,长期存活者的高关注区有更多的浸润免疫细胞。在较短期存活者的癌症样本中,高凋亡区的核/胞质比率较大,核不典型性更明显,基质纤维化较少,细胞间粘附力弱。
总之,CHIEF 是一个基础模型,可用于多种癌症类型的病理评估任务。作者利用从全球 24 家医院和患者队列中收集的样本,证明了这一基础模型在多个临床应用中的通用性。CHIEF 只需最少的图像注释,就能从 WSIs 中提取详细的定量特征,从而能够对形态模式、分子畸变和重要临床结果之间的关系进行系统分析。CHIEF提供的准确、可靠和快速的病理样本评估将有助于个性化癌症管理的发展。
这篇文献中作者利用机器学习算法开发了一个基于病理图像的多用途预测模型,为癌症的诊断也患者预后提供了一定的指导作用。目前医学正处在向高质量高精度个性化治疗的十字路口。在提供医疗保健方面,人们比以往任何时候都更迫切地需要算法的帮助。然而,在医学领域,人类与人工智能(artificial intelligence,AI)的融合才刚刚开始。
计算表观遗传学
计算表观遗传学微信号:intro4gcer分享到朋友圈丨点右上角···分享
编辑:xj.g
通讯邮箱:ad.cepi@edbc.org
投稿邮箱:scw.cepi@edbc.org
CEPI感谢您的支持!
(IOS系统用户专用通道)
赞赏