这篇文章的作者团队由多机构的研究人员组成,分别来自德国亚琛大学医学院实验分子影像学研究所、病理学研究所以及妇产科等,2024年在Radiology (JCR Q1, IF: 12.1) 杂志上发表了结合放射组学和自编码器区分US图像上的良性和恶性乳腺肿瘤。
结合放射组学和自编码器区分US图像上的良性和恶性乳腺肿瘤
背景:US在乳腺影像学中得到了临床确立,但其诊断性能取决于操作者的经验。计算机辅助(实时)图像分析可能有助于克服这一局限性。
目的:通过结合经典放射组学和自动定位病变的自编码器基础特征,开发精确的实时能力US基础的乳腺肿瘤分类。
材料和方法:回顾性分析了2018年4月至2024年1月间收集的1619张乳腺肿瘤B模式US图像。使用nnU-Net训练病变分割。特征从肿瘤片段、边界框和整张图像中提取,使用经典放射组学、自编码器或两者结合。进行特征选择以生成放射组学签名,用于训练用于肿瘤分类的机器学习算法。使用接收者操作特征曲线下面积(AUC)、敏感性和特异性评估模型,并与组织病理学或随访确认的诊断进行统计比较。
结果:该模型在1191名(平均年龄61岁±14[SD])女性患者上开发,并在50名(平均年龄55岁±15)上进行外部验证。开发数据集被分为两部分:测试和训练病变分割(419和179次检查)和病变分类(503和90次检查)。nnU-Net在测试数据集1(中位数Dice分数[DS]:0.90[IQR, 0.84-0.93];P = .01)和数据集2(中位数DS:0.89[IQR, 0.80-0.92];P = .001)的病变分割中展示了精度和可重复性。使用23个混合特征从肿瘤边界框训练的最佳模型,实现了0.90的AUC(95% CI:0.83, 0.97)、81%的敏感性(57中的46;95% CI:70, 91)和87%的特异性(45中的39;95% CI:77, 87)。在肿瘤分类或模型与组织病理学或随访确认的诊断之间没有发现差异的证据(AUC = 0.90 [95% CI:0.83, 0.97] vs 1.00 [95% CI:1.00,1.00];P = .10)。
结论:通过混合经典放射组学和从肿瘤边界框提取的自编码器基础特征,开发了精确的实时基于US的乳腺肿瘤分类。
研究设计的概览。(A) 来自五个独立数据集的女性乳腺肿瘤患者的B模式US图像被随机采样到两个数据集中,以开发乳腺病变分割和分类框架。亚琛乳腺病变(ACBL)、UIDAT、Rodtook、BUSI和QAMEBI是数据存储库。(B) 训练了一个nnU-Net(分割网络)用于乳腺病变分割。使用等效性测试评估了开发出的分割方法的可重复性,通过统计比较在去噪(AS 1)和加噪声(AS 2)图像上计算的Dice分数与经验丰富的放射科医生描绘的基本真实分割之间的差异。(C) 使用肿瘤片段、肿瘤边界框和整张图像局部计算了基于图像的特征,使用经典放射组学、卷积自编码器和两者结合的方法。独立的特征数据集—局部片段、局部边界框和全局图像—被组装起来。每个特征数据集包括三组特征:经典放射组学(蓝色)、自编码器(黄色)和混合(绿色)。(D) 提取的特征经过逐步特征选择,以揭示放射组学签名—每个特征数据集三个,这些签名后来用作训练乳腺癌分类模型的输入。
超声成像(US)常规应用于检测和表征乳腺病变。它广泛可用,并以高图像分辨率促进实时肿瘤诊断。然而,其诊断价值在很大程度上取决于操作者的经验和技术。尽管现代的图片存档和通信系统(PACS)可以存储US影像片段以进行全面的重新评估,但US检查期间的实时病变分析仍然不可替代。计算机辅助(实时)图像分析的发展可以在检查期间和之后支持医生,并有助于克服乳腺US的局限性。
放射组学,一个协助将成像数据转换为可量化特征的过程,有潜力促进基于US图像的乳腺癌诊断。传统上,放射组学是通过手动病变分割和使用预定义的统计图像描述符提取特征来执行的。或者,可以在标记数据上使用卷积神经网络或无需注释使用自编码器来计算基于图像的特征。所有方法都有助于提取反映肿瘤灰度水平及其周围环境之间关系的性状(即,数据点),这些相互依赖性例如通过改变或重复的强度来表达。
通常,基于US的分类模型是与临床特征(例如,患者的年龄或肿瘤大小)一起开发的,或者是经验丰富的放射科医生在记录图像后手动描绘的典型图像描述符。已有报道称,不仅从肿瘤区域而且从肿瘤边缘计算基于图像的特征,可以增加MRI、US剪切波弹性成像以及带和不带多普勒成像的B模式US的乳腺肿瘤分类的接收者操作特征曲线(AUC)下面积。最近,基于US的乳腺癌诊断是通过顺序应用不同的分类函数来执行的。将乳腺病变分配给其正确的表型是通过合并多个独立分类模型提出的决策来实现的,这些模型是在经典或基于深度学习的特征上训练的。然而,直接混合不同类型的基于图像的特征用于US图像上的乳腺肿瘤分类尚未有报道。
因此,研究了整合经典和基于深度学习的特征是否提高了基于US放射组学的良性和恶性乳腺肿瘤分类的敏感性、特异性和AUC。此外,评估了从感兴趣区域类型(即,边界框)而不是分割区域提取特征是否会导致有效且可能实时的计算机辅助基于US的乳腺肿瘤诊断系统。
材料和方法
研究数据库:获取、清理和分割数据:
这些数据是在2018年4月至2012年12月和2023年8月至2024年1月间收集的(图1)。包括了组织病理学确认的(核心活检)恶性乳腺肿瘤和2年随访或组织病理学确认的良性乳腺肿瘤的B模式US图像。排除标准包括检查中有可见的卡尺、重复项、参考掩模差异、非乳腺结构和可见的活检针。对收集的US图像进行了图像预处理,以捕捉恶性或良性病变的最代表性特征(附录S2)。由两位分别拥有3年和20年乳腺US成像经验的读者(M.K.和F.K.)手动描绘了真实分割。除了在作者机构(亚琛乳腺病变和外部验证队列)获取的数据外,还考虑了四个公共存储库:UIDAT、Rodtook、BUSI和QAMEBI(表1)。研究数据库在检查级别上随机分割为两个数据集,良性和恶性图像的分布均匀(图2A)。所有数据分割都以相同的方式处理。数据集1用于开发乳腺病变分割,并以70:30的比例分割为训练和测试集。数据集2用于开发乳腺病变分类,并以50:35:15的比例分割为特征搜索、训练和测试集。在这两种情况下,都没有形成验证集,因为训练是使用五折交叉验证技进行的。
回顾性审查的1619个B模式US检查的流程图,这些检查涉及1517名女性患者。排除标准包括检查中有可见的卡尺、重复项、参考掩模差异、非乳腺结构和可见的活检针。n = 检查次数。
由(M.P.、B.S.W.、T.P.和K.K.)使用配备有13.5-MHz换能器(VFX13–5)的Acuson Antares系统(西门子医疗)执行US成像,使用配备有14-MHz换能器(PLT 1005BT)的Aplio 500扫描仪(佳能医疗系统),以及使用配备有15-MHz换能器(SL-15–4)的Supersonic Imagine Aixplorer(SuperSonic Imagine)。在B模式下定位乳腺肿瘤后,通过最大肿瘤横截面及其垂直平面执行剪切波弹性测量(USSW-A500A剪切波套件;MI 1.5 ± 0.1)。额外执行了多普勒US。
训练了二维nnU-Net分割网络用于乳腺病变分割。评估了训练模型的精度,使用Dice分数(DS)和可重复性(图2B)。我们的乳腺病变分割框架的详细描述在附录S3中提供。使用最佳分割模型从数据集2中定位病变候选者。在未检测到(DS = 0)的情况下,整个图像被视为一个“分割”。包括了欠分割(0 < DS < 0.5)在内的特征提取过程。使用经典放射组学和卷积自编码器计算基于图像的特征,并使用肿瘤片段或边界框局部提取,以及使用整个US图像全局提取(图2C)。关于我们的特征提取和选择框架的更多信息在附录S4和图S1中提供。使用选定的放射组学签名训练机器学习模型进行乳腺肿瘤分类。训练过程的详细描述在附录S5中提供。训练的模型评估了AUC、敏感性、特异性、阳性预测值和阴性预测值。此外,比较了最高性能模型与经验丰富的读者(F.K.)和初级读者(M.K.)的诊断性能。
实时应用
评估了两名患有良性和恶性乳腺肿瘤的患者的B模式US视频。提取了视频帧,并使用最高性能的乳腺肿瘤分类模型进行了分析。之后,每个包含病变候选者的帧都被分配了恶性诊断的概率,该概率被转换为乳腺影像报告和数据系统(BI-RADS)评分。分析的帧被重新组合成视频。
统计分析
为了研究可重复性,对数据集1和数据集2的测试集进行了复制,并添加了方差为0.05的斑点噪声。通过计算与基本真实(由放射科医生手动描绘的片段)的Dice分数(DS),评估了从原始和噪声图像中获得的片段。执行了等效性测试,零假设是分割方法不可重复。统计上显著的结果设定在P < .05。为所有训练模型计算了AUC、敏感性、特异性、阳性预测值和阴性预测值的Youden截断值和95% CI,通过1000次自助复制。使用双尾DeLong测试(25),然后进行Bonferroni多重比较测试,比较得出模型的AUCs。统计上显著的差异设定在P < .05。计算了Cohen κ系数(26),以测量训练分类模型与参考标准之间的读者间可靠性。研究的样本量选择基于先前在开发基于人工智能的分割和分类任务的方法时的经验。使用独立双尾t检验对连续变量进行比较,这些变量具有正态分布,或使用双尾Wilcoxon秩和检验对非正态分布的变量进行比较。统计上显著的差异被认为是P < .05。
在(A–C)数据集1和(D–F)数据集2上的US图像上自动乳腺病变分割的示例,结果显示了中位数、下界和上界IQR Dice分数(DS)。所呈现的片段由nnU-Net-2(黄色)和经验丰富的放射科医生(绿色)计算。这些病变被病理诊断为(A)恶性、(B)恶性和(C)恶性。在(A, B)数据集1和(C, D)数据集2的测试集上的US图像上自动乳腺病变分割的代表性示例。这些病变被病理诊断为(A, B)恶性和(C, D)良性。在原始图像(A, C)上首次进行自动分割(AS),然后在添加了斑点噪声的相同图像(B, D)上进行第二次自动分割。乳腺癌分类研究结果。(A) 基于经典放射组学特征训练的乳腺癌分类模型的接收者操作特征曲线(AUCs),以nnU-Net边界框衍生的模型为例。(B) 热图显示了统计比较,用双尾DeLong测试(23)测量。模型与参考标准之间的差异是显著的(P < .05)。(C) 热图显示了使用Cohen κ(24)测量的一致性。模型与参考标准之间的一致性在轻微(κ = 0.07)到中等(κ = 0.48)之间。(D) 基于自动编码器特征训练的乳腺癌分类模型的AUCs,以nnU-Net边界框衍生的模型为例。(E) 热图显示了统计比较,用双尾DeLong测试(23)测量。由放射科医生边界框衍生的模型与参考标准之间没有差异(P > .05)。(F) 热图显示了使用Cohen κ(24)测量的一致性。模型与参考标准之间的一致性在轻微(κ = 0.15)到大幅度(κ = 0.59)之间。(G) 基于混合特征的乳腺癌分类模型的AUCs,以放射科医生边界框衍生的模型为例。(H) 热图显示了统计比较,用双尾DeLong测试(23)测量。由放射科医生边界框衍生的模型与参考标准之间没有差异(P = .10)。(I) 热图显示了使用Cohen κ(24)测量的一致性。模型与参考标准之间的一致性在中等(κ = 0.26)到大幅度(κ = 0.67)之间。参考标准是组织病理学或随访确认的乳腺癌诊断。数据括号内是95% CIs。所有P值都是Bonferroni多重假设校正的。曲线上的点标记了每个AUC的Youden截断点。模型与人类读者之间诊断性能的比较。(A) 经验丰富的和初级US读者以及在测试集上衍生的模型的接收者操作特征曲线(AUCs)。模型在敏感性和特异性方面均优于读者。(B) 热图显示了统计比较,用双尾DeLong测试(23)测量。模型与参考标准之间没有差异(P = .10),模型与人类读者(经验丰富的读者:P = .55;初级读者:P = .45)之间也没有差异。(C) 热图显示了使用Cohen κ(24)测量的一致性。模型与参考标准之间的一致性在中等(κ值在0.66和0.68之间)。模型与人类读者之间的一致性在轻微(κ值在0.15和0.24之间)。(D)在外部验证队列上,经验丰富的和初级读者以及模型衍生的AUCs。模型在高特异性范围内优于读者。(E) 热图显示了统计比较,用双尾DeLong测试(23)测量。模型与参考标准之间没有差异(P = .15),模型与人类读者(经验丰富的读者:P = .58;初级读者:P = .11)之间也没有差异。(F) 热图表示使用Cohen κ(24)测量的一致性。模型与参考标准之间的一致性在中等(κ = 0.19),而两位人类读者(κ = 0.42和0.43)与参考标准之间的一致性在中等。模型与两位人类读者之间的一致性在良好(κ = 0.30和0.46)。参考标准是组织病理学或随访确认的乳腺癌诊断。数据括号内是95% CIs。曲线上的点标记了每个AUC的最优操作点。
Radiology 2024; 312(3):e232554 • https://doi.org/10.1148/radiol.232554