导语
激素受体(HR)在分子水平上的状态对于乳腺癌的准确诊断和有效治疗至关重要。同时,乳房X光检查是检测乳腺癌的有效筛查方法,可显著提高生存率。然而,诊断乳腺癌的分子状态涉及病理活检,这可能会影响诊断的准确性。为了非侵入性地诊断乳腺癌的激素受体(HR)状态并减少手动注释,本研究提出了一种弱监督深度学习框架BSNet,该框架可以检测具有HR状态的乳腺癌和良性肿瘤。BSNet 基于在2017-2018 年期间黑龙江省哈尔滨医科大学肿瘤医院的 2321 例女性的多视角钼靶图像的训练,并在外部队列中进行了验证。BSNet在测试集和外部验证集上的平均AUC分别为0.89和0.92。BSNet在HR状态的非浸润性乳腺癌诊断中表现出色,使用多个钼靶图像的视图,没有像素注释。BSNet描述了乳腺癌亚型的高维乳房X线摄影,这有助于为早期管理选择提供信息。
用于钼靶图像分析的数据集由 2321 名女性组成,她们在 2017 年至 2018 年期间在哈尔滨医科大学肿瘤医院进行的普通人群筛查中接受了数字乳房 X 线摄影扫描。该数据用于研究中的训练、验证和测试。HR +患者被归类为ER或PR检测呈阳性的患者,而HR患者被归类为ER和PR检测呈阴性的患者。本研究共涉及2321名患者的乳房X光检查数据,其中包括850名被诊断患有良性疾病的患者和1471名乳腺癌患者。在乳腺癌组中,920名患者为HR +,551名患者为HR-。这些病例包括286例管腔A例,634例管腔B例,303例Her2阳性过表达,248例被归类为三阴性。每位参与者都接受了完整的全视野数字乳房 X 光检查,包括多达四张图像,包括左乳房和右乳房,具有颅尾(CC)和中外侧斜(MLO)视角,总共产生 9284 张乳房 X 线摄影图像。训练和测试集中HR状态、年龄、IHC亚型和Her2状态的分布见表。基于年龄的图像分布没有显示出任何显着差异。由于HR+ / Her2-是乳腺癌最普遍的亚型,因此本研究中的乳房X光检查数据符合通常观察到的分布。外部验证集随机选择,由190名患者组成,2018年至2019年期间在哈尔滨医科大学肿瘤医院共拍摄了760张钼靶图像。该数据集包括127例良性肿瘤,以及28例HR+乳腺癌和35例HR-乳腺癌。本研究包括所有具有四个完整视图、无损伤和临床信息以及免疫组织化学(IHC)的钼靶图像。
目前,基于钼靶图像的乳腺癌HR状态预测尚未得到广泛探索,大多数研究需要大量的注释信息来开发基于乳腺X线摄影图像的深度学习模型,对良恶性肿瘤进行分类。本研究避免了乳腺X线摄影图像的像素级手动标注,拓展了基于乳腺X线摄影图像的深度学习模型在乳腺癌HR分子状态诊断和预测中的应用。首先,本研究收集并预处理了所有乳腺癌钼靶图像,并开发了一个弱监督学习框架BSNet。通过与不同的特征整合方法和基线模型的性能进行比较,结果最终表明BSNet在HR分子状态乳腺癌的非侵入性筛查中具有优越的性能。
具体来说,研究将HR+乳腺癌920例、良性肿瘤850例、HR-乳腺癌551例2321例钼靶图像按9:1分为训练集和测试集,按照五重交叉验证对训练集进行分级划分;然后,BSNet通过定义钼靶图像特征转换模块、特征提取模块和预测模块,将患者分类为HR+乳腺癌、HR-乳腺癌或良性肿瘤。BSNet允许将四张图像输入在一起,通过特征提取模块整合四张图像的特征,馈送至提取的图像特征,然后使用全局平均池化层来池化特征嵌入。最后,将图像特征传送到决策模块,BSNet输出3类的概率值,并通过识别概率值最高的类别作为输出来确定钼靶图像的类别标签。其中使用包括全连接层和softmax函数的决策模块将乳腺癌分为三类:HR+乳腺癌,HR-乳腺癌和良性肿瘤。对于训练过程,本研究采用五重交叉验证方法在训练验证数据集上训练和调优BSNet。该测试集用于评估BSNet的性能,并应用外部验证集(190例的钼靶图像)来测试BSNet的稳健性。
鉴于在大型数据集上训练的预训练模型的多功能性,它们可以有效地应用于各种医学图像分类任务,以准确识别图像中的突出特征。因此,本研究使用AlexNet,Vgg16,ResNet18,ResNet34和ResNet50根据复杂程度比较模型的性能。这些模型的主层数分别为 8、16、18、34 和 50。本研究首先根据多视图钼靶图像和分类任务的同时输入,将这些模型的结构修改为基线模型。具体来说,我们将第一层的通道数从3个调整为1个,并为每个基线模型定义了全连接层,以适应当前的分类任务。对于Vgg16,ResNet18,ResNet34和ResNet50,我们定义了两个全连接层,对于AlexNet,我们定义了一个全连接层。用于比较的基线模型的结构如图所示。
由于ResNet-22用于预训练的钼靶图像数据集不是公开的,因此本研究在ImageNet数据集上使用基线模型(如ResNet34和ResNet50)的预训练权重。研究将预先训练的模型参数加载到相应的基线模型中,这些模型都在本研究中涉及的钼靶图像数据集上进行了微调。本文利用网格搜索方法为基线模型选择调整参数。候选参数值列于表中。采用交叉熵损失函数和亚当优化器对基线模型进行训练。研究应用了提前停止以避免过度拟合,这意味着如果验证集上的AUC连续80个epoch未能改善,训练过程就会提前终止。
本研究开发了一种无需像素级注释的弱监督乳腺癌诊断人工智能模型,用于诊断乳腺癌并预测 HR 状态。研究的结果表明 BSNet 的性能优于其他基线模型。此外,我们还开发了网络服务器,可以更方便地诊断乳腺癌患者的HR状态,实现无需穿刺的精准医疗。然而,还需要付出额外的努力来实现稳定的模型,以促进临床应用中乳腺癌分子特征的非侵入性评估。研究表明钼靶图像可用于对乳腺癌的HR亚型进行分类,并实现乳腺癌的非侵入性分子状态诊断。
往期推荐
分析专辑
单细胞scRNA | R包绘图 | 免疫浸润分析 | 肿瘤纯度评估工具 | 数据库
文章解读专辑
多区域进化文章精读 | 高分文章精读 | 免疫微环境文献解读
招聘信息
点击红字即可进入专栏!
点个在看你最好看