LANCET子刊(IF = 9.6):深度学习使用磁共振血管造影数据构建烟雾病自动诊断模型

文摘   2024-11-23 20:02   江西  

点击蓝字 关注我们

    本次解读的是发表在LANCET子刊eClinicalMedicine(IF=9.6)上的一篇文章《Deep learning model for automated diagnosis of moyamoyadisease based on magnetic resonance angiography》,本研究旨在基于深度学习模型使用磁共振血管造影数据进行烟雾病自动诊断。


01背景介绍

    烟雾病(Moyamoya disease, MMD)是一种比较少见的脑血管病。与动脉粥样硬化等其他脑血管病相比,MMD好发于儿童和青年,病程较快,且发生脑出血的概率较高。因此,早期诊断和干预MMD十分必要。与数字减影血管造影(DSA)和计算机断层血管造影(CTA)相比,磁共振血管造影(MRA)因创伤性小、不需要造影剂,在临床上更常用于MMD的筛查诊断。但由于MMD相对少见,且脑血管检查图像数量众多,单纯依靠放射科医生的目测费时费力,容易误诊、漏诊。因此,随着脑血管磁共振血管造影应用的不断扩大,快速、准确地诊断MMD越来越显得必要。

    近年来,深度学习算法发展迅速,在胸部 CT、冠状动脉 CTA 和肌肉骨骼磁共振成像 (MRI) 等医学成像领域显示出巨大的应用前景。深度学习算法已被广泛认为是自动提取信息并快速准确诊断的有力工具。因此,本研究探索了基于深度学习的卷积神经网络 (CNN) 在 MRA 图像上自动识别 MMD 并将其与动脉粥样硬化疾病 (ASD) 和正常对照 (NC) 区分开来的潜力。

02材料与方法

01 数据收集

    共回顾性地收集了 2020 年 7 月至 2023 年 9 月期间在中国人民解放军总医院第五中心接受脑 MRA 检查的 600 名连续参与者,包括 200 名 MMD、200 名 ASD 和 200 名 NC,以进行训练、验证和测试(表 1)。由于数据收集是回顾性的,因此没有专门对队列应用样本权重,并且所有参与者都是连续收集的,没有考虑调查设计。对内部数据集采用分层随机抽样,以确保在训练、验证和测试集之间的均衡分布,遵循 7.5:1.5:1 的常见分割比例。具体来说,训练集每组(MMD、ASD 和 NC)包括 150 名参与者,验证集每组包括 30 名参与者,内部测试集每组包括 20 名参与者。为了更好地评估模型在内部和外部数据集上的表现,特意构建了外部验证集以反映内部测试集的组成,包括 2016 年 5 月至 2023 年 12 月期间中国人民武装警察部队特色医学中心的 20 名 MMD、20 名 ASD 和 20 名正常对照。样本分布的一致性使得可以更直接地比较模型在不同数据集上的表现。表 1列出了每个数据集的数据集和患者人口统计数据。

02 磁共振成像参数

    内部数据集由配备 8 通道头部线圈的 3-T MR 系统(Magnetom SKYRA,西门子医疗)获取。MRA 扫描序列如下:飞行时间 (TOF)、重复时间 (TR)/回波时间 (TE) 为 20/3.5 ms、切片间隙为 0.5 mm、视场 (FOV) 为 200 × 200 × 60 mm 3、矩阵大小为 360 × 360、切片厚度为 0.5 mm。外部验证数据集由配备 12 通道头部线圈的 3-T MR 系统(Magnetom Verio,西门子医疗)获取。使用以下参数获得 MRA 图像:TOF、TR/TE 为 20/3.6 ms、切片间隙为 0.5 mm、FOV 为 200 × 200 × 60 mm 3、矩阵大小为 360 × 360 以及切片厚度为 0.5 mm。


03 数据分割与预处理

    该模型采用了TOF-MRA图像数据集,以及相应的受试者组(NC、MMD和ASD)。每组分别按75:15:10的比例随机分为训练、验证和测试数据集。

    为了增强模型对 TOF-MRA 图像的适应性,实施了各种数据增强技术。这些技术包括镜像、随机平移、旋转、缩放(放大和缩小)、随机弹性变换、基于比例或像素值的像素增强、随机对比度增强、随机高斯平滑和随机高斯噪声。14此类增强对于确保训练数据集的多样性和稳健性至关重要。这种数据增强方法在深度学习应用中尤为普遍,尤其是在处理较小的数据集(例如与医疗状况相关的数据集)时。

04 深度学习网络

    本研究利用数坤科技研究平台(https://medresearch.shukun.net/ )实现了五种常用的深度学习分类网络:DenseNet121、ResNet50、SENet154、SEResNet50 和 SEResNext50。每个网络架构均使用与 MONAI( https://monai.io/)中对应的默认参数进行配置。所有分类模型都保持一致的输入和输出格式。具体来说,卷积神经网络 (CNN) 模型的输入包括预处理的 MRA 图像,这些图像使用单通道重新采样为 256 × 256 × 128 的尺寸。通过使用 SoftMax 激活函数来估计属于三种诊断类别之一的概率,将输出构建为三部分分类标签。神经网络的架构细节及其输入和输出如图 1所示。每个研究的 epoch 数为 200。如图2所示,模型性能在 100 个 epoch 后开始稳定,损失曲线趋于平缓,准确度略有改善。然而,研究将训练扩展到 200 个 epoch,以确保完全收敛、捕捉复杂模式并验证跨小批量变化和数据波动的稳定性。尽管在 100 个时期之后仍存在一些冗余,但这个额外的缓冲区有助于避免欠拟合,并且提供了稳健性而没有过度拟合的迹象。

 05 使用 Grad-CAM 对 CNN 决策进行可视化

    最后,使用梯度加权类激活映射 (Grad-CAM) 通过突出显示关键区域来可视化 CNN 在 MMD 诊断中的决策过程。Grad-CAM 利用来自最终卷积层的目标概念的梯度来生成定位图。该图强调了图像中对网络诊断决策有重大影响的关键区域,从而阐明了做出决策的途径。

    该方法专门用于诊断 NC、MMD 和 ASD,可突出显示对 AI 诊断过程至关重要的区域。通过直观地揭开 AI 操作基础的神秘面纱,Grad-CAM 有助于加深对 CNN 操作的理解,并促进在医疗诊断领域开发更易于解释的 AI 系统。

06 统计分析和模型评估

    本研究中的所有连续变量均以平均值±标准差表示,并根据其配对或非配对性质分别使用学生 t 检验或配对 t 检验进行分析。分类变量以数字(百分比)形式报告,并使用 Pearson 卡方检验进行分析。进行了 Shapiro-Wilk 检验,当 p > 0.05 时验证了正态分布。

    完成模型训练后,首先使用一组综合指标评估 3D CNN 模型的三分类性能。这些指标包括宏平均曲线下面积 (AUC)、宏平均敏感度 (SEN)、宏平均阳性预测值 (PPV)、宏平均 F1 分数 (F1)、宏平均准确度 (mACC) 和准确度 (ACC)。

    随后,将每个类别单独视为正值,其余两个类别作为负值,以衡量每个类别的检测性能。具体指标包括AUC、ACC、SEN、PPV和F1-score。对于ACC、SEN和PPV,使用Wilson评分区间计算95%置信区间(CI),而对于AUC则采用引导法。

    在所有数据集(包括训练、验证、测试和外部验证数据集)中评估了三分类和二分类的性能指标。此外,为了更深入地了解算法的性能,计算了混淆矩阵,并绘制了测试集和外部验证集的受试者工作特征 (ROC) 曲线下面积 (AUC)。

03结果

    01 入选者的基本特征

    所有符合条件的参与者平均年龄为55.2±12.1岁,女性参与者占54.1%(660人中357人)。MMD组、ASD组和对照组内部参与者平均年龄分别为40.9±10.7岁、69.2±11.1岁和53.2±16.3岁。MMD组、ASD组和对照组外部参与者平均年龄分别为43.1±12.5岁、69.0±13.2岁和49.8±13.9岁(表1)。


    02 深度学习模型的三分类性能

    对于内部数据集,使用 450 张图像进行训练,留出 90 张图像作为验证集。总共 60 张 TOF-MRA 图像通过随机选择分成测试集,在 NC、MMD 和 ASD 三个诊断组中平均分配,每个组贡献 20 张图像。

    所有模型均经过200个epoch的计算,选取验证集上准确率最高的epoch中的参数作为最优模型配置。所有模型最优参数的性能指标列于表2中。具体而言,DenseNet121网络在训练过程中的准确率和损失曲线如图2所示。对于每个类别(NC、MMD 和 ASD)包含 20 张图像的内部验证集,测试数据集中三类分类的 mACC 如下:DenseNet121 为 0.911,Resnet50 为 0.887,SENet154 为 0.867,SEResNet50 为 0.922,SEResNext50 为 0.833。


03 使用表现最佳的深度学习模型

    值得注意的是,DenseNet-121 表现出了出色的判别能力,在测试集中实现了高达 0.977(95% CI,0.928–0.995)的曲线下面积 (AUC),在外部验证集中实现了 0.870。DenseNet-121 在内部测试集中的 SEN、PPV、F1-score、mACC 和 ACC 分别为 0.867、0.864、0.864、0.911 和 0.867。在外部验证中,DenseNet-121 的 SEN、PPV、F1、mACC 和 ACC 分别为 0.733、0.753、0.733、0.822 和 0.733。此外,还对按年龄和性别分层的模型性能进行了亚组探索性分析。

    图 3显示了测试数据集和外部验证集中表现最佳的模型的每类 ROC 曲线以及混淆矩阵的热图。这些可视化清晰地展示了模型在不同类别和数据集上的表现。

    在按年龄分层的亚组分析中,将测试集中的患者分为三个年龄组,确保每组的参与者人数均衡。结果表明,模型的分类性能(MMD、ASD和NC)在准确率(0.857、0.895、0.850)和召回率(0.833、0.889、0.857)方面在不同年龄组之间是一致的。这表明年龄不会显著干扰模型的性能,从而证实了该模型在各个年龄段的稳定性和稳健性。值得注意的是,49–62岁组表现出最好的整体性能,特别是在准确率(0.911)和F1分数(0.885)方面。假设这可能与样本分布和模型对该特定年龄段的适应性有关(补充表S1)。

    在按性别分层的亚组分析中,研究对内部测试集进行了卡方检验,以检验不同组之间的性别分布是否存在显著差异。此外,还通过卡方检验探讨了性别对模型预测结果的潜在影响。卡方检验表明,不同组之间的性别分布没有显著差异(p=0.233),性别与模型预测结果之间的关系也表明没有显著关联(p=0.156)。分析结果表明,不同组之间的性别分布没有显著差异,性别对两个数据集的模型预测结果也没有显著影响。详细结果已保存在补充材料中作为补充表S2。

    与放射科医生对内部测试数据集(AUC 和 ACC 分别为 0.981(95% CI,0.933-0.996)和 0.891)和外部验证数据集(AUC 和 ACC 分别为 0.921(95% CI,0.857-0.961)和 0.853)的诊断表现相比,DenseNet-121 模型在内部测试数据集(AUC 和 ACC 分别为 0.977(95% CI,0.928-0.995)和 0.867)和外部验证数据集(AUC 和 ACC 分别为 0.880(95% CI,0.786-0.937)和 0.836)的三级分类中表现出与人类放射科医生相当的能力。对于 MMD、ASD 和 NC 分类的读者间一致性 kappa 值为 0.87(95% CI:0.74–0.95)。


    04 使用表现最佳的深度学习模型进行二元分类

    总体而言,DenseNet121 模型在内部测试集中对每种类型的区分都表现出很高的性能,如表 3所示。具体来说,DenseNet121 模型在测试集中检测 MMD 方面表现出色。在测试集中使用 DenseNet121 进行 MMD 检测的性能指标如下:AUC,0.992(95% CI,0.974–1.000);ACC,0.967(95% CI,0.886–0.991);SEN,1.000(95% CI,0.839–1.000);PPV,0.909(95% CI,0.722–0.975);F1 分数,0.952。在外部验证集中,DenseNet121模型在检测NC方面的表现优于内部测试集:AUC,0.974 vs. 0.965;ACC,0.933 vs. 0.883;SEN,0.900 vs. 0.800;PPV,0.900 vs. 0.842;F1-score,0.900 vs. 0.821。然而,DenseNet121在检测MMD和ASD方面的表现在外部验证集中低于在内部测试集中的表现。


05 通过 CNN 模型分析 Grad-CAM 图像

    图 4显示了 MMD、ASD 和 NC 组的代表性 Grad-CAM 图像。Grad-CAM 图像由放射科医生审查,深度学习模型的感兴趣区域与人类的感兴趣区域一致。在 MMD 的 Grad-CAM 图像中,CNN 模型 (DenseNet-121) 成功从基底脑图像切片中检测到双侧狭窄/闭塞的 ICA 和烟雾病血管,这些区域显示这些区域为“热区”。对于 ASD,Grad-CAM 图像显示突出显示的区域聚集在受累 ICA 及其分支的图像区域周围。

04小编说明

小编说明:

    文章旨在开发一种从 MRA 原始图像中检测 MMD 的人工智能技术,但观察到一些实际困难。首先,MMD 中的烟雾病血管较容易识别。然而,由于烟雾病血管缺失或减少,在早期和晚期 Suzuki 期可能难以区分 MMD 与 ASD。其次,研究开发了一个深度学习模型,并利用来自一个机构的数据进行训练,并在来自另一个机构的新数据集中维持了其性能。然而,尚不清楚其是否具有普遍可推广的性能。有必要进行多中心研究,以验证 CNN 人工智能技术在不同机构使用不同成像扫描仪自动诊断 MMD 的价值。第三,神经网络在决策过程和学习特征中缺乏可解释性和透明度是本研究的另一个局限性。

    本研究的目的是开发和评估一种能够在现实世界的临床实践中自动检测 MMD 的学习模型,使用原始 MRA 成像检查并在外部数据集上进行模型验证。研究发现 DenseNet-121 在内部和外部数据集中都表现出对 MMD、ASD 和 NC 的卓越区分能力,几乎达到与人类放射科医生相同的水平。基于 CNN 的深度学习模型提高了 MMD 检测的准确性和效率,减轻了放射科医生的工作量,并有望融入临床工作流程。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】【直播预告】GWAS Catalog公共数据库及零基础入门孟德尔随机化(IF=5.8)

【2】JAMA Netw Open(IF=10.5),如何提前预测认知障碍的极早产儿,机器学习新模型给出预测。

【3】《CARDIOVASC DIABETOL》(IF=8.5)在不同代谢和昼夜节律状态下估计的葡萄糖处理率与心血管疾病发病率的相关性

【4】如何量化疾病风险因素负担——GBD+低体力心血管负担优雅诠释

【5】《ALZHEIMERS RES THER》IF=7.9听力损伤与痴呆和认知功能有何关系?一项关于孟德尔随机化的研究。

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章