本次给大家带来的解读是发表在LANCET子刊 《eClinicalMedicine》IF=9.6 上的一篇文章《Development and validation of a deep learning-based framework for automated lung CT segmentation and acute respiratory distress syndrome prediction: a multicenter cohort study》本研究旨在基于深度学习开发一种人工智能(AI)模型,用于自动肺部病变分割和急性呼吸窘迫综合征(ARDS)的早期预测,以促进重症监护病房的及时干预。
01背景介绍
急性呼吸窘迫综合征(ARDS)是一种危及生命的疾病,估计全球发病率占所有重症监护病房(ICU)入院人数的10.4%,总体死亡率为43%。尽管重症监护医学取得了进步,但ARDS仍然是一个沉重的医疗保健负担。早期识别ARDS高危患者对于及时干预和改善临床结果至关重要。然而,ARDS的复杂病理生理学及其临床表现的异质性使得在早期难以识别患病高风险患者。
计算机体层成像(CT)成像可更详细地评估肺部病变,并因其在早期ARDS检测中的潜力而得到认可。但CT图像的解释是高度主观的,需要相当多的专业知识,导致放射科医生之间的观察者之间存在差异,并可能导致诊断不一致并可能延迟治疗开始。
人工智能的出现有望克服这些障碍并彻底改变ARDS的早期预测和诊断。深度学习算法能够自动分析医学图像,从而快速、一致地量化肺部异常。尽管人工智能(AI)方法已显示出早期检测ARDS的潜力,但仍然存在一些挑战。开发强大的AI模型需要大型、多样化且注释良好的数据集。获取此类数据集特别具有挑战性,因为这种情况相对罕见,并且在CT图像上注释肺部异常非常耗时且需要专业知识。此外,AI模型的性能在不同的患者群体和临床环境中可能会有很大差异。
本研究旨在使用UNet Transformer(UNETR)模型开发一个基于深度学习的框架,用于自动肺部病变分割和早期ARDS预测。通过将肺部病变的定量评估与临床信息相结合,这里的方法旨在提高ARDS预测的准确性。该模型的可靠性和泛化性在三个医疗中心得到了严格验证,突出了其改进早期ARDS预测的潜力。
02方法
01研究设计和数据源
这项多中心队列研究涉及来自三家医院ICU的928名患者,纳入标准包括败血症、感染性休克、严重创伤、误吸、严重急性胰腺炎、需要大量输血、严重肺炎或吸入有毒气体等。排除标准包括年龄未满18岁、ICU住院时间少于48小时或没有/低质量CT图像。研究样本量基于确保深度学习模型(特别是UNETR模型)的稳健性和泛化性,遵循模型参数数量至少是训练样本数量10倍的建议。数据来自上海交通大学医学院附属仁济医院、上海市公共卫生临床中心和上海交通大学附属第六人民医院,时间跨度为2018年11月至2021年11月。数据分为训练组、内部验证组、两个外部验证组和前瞻性验证组(图1),利用患者入住ICU时的初始实验室结果和前后24小时内的CT图像进行分析。研究设计示意图见图2。
02ARDS 的诊断
本研究中ARDS的诊断是根据柏林定义标准进行的,其中包括以下内容:症状急性发作、胸部影像学上无法完全用积液解释的双侧浸润、肺叶/肺塌陷或结节、呼吸衰竭不完全归因于心力衰竭或液体超负荷,以及PaO2/FiO2比值 ≤300 mmHg,最小PEEP为5 cm H2O.16诊断由3名ICU临床医生(YZ 、 SM 和 JW )独立进行,他们回顾了患者的临床资料、实验室结果和影像学结果。在三名临床医生之间缺乏共识的情况下,病例被上报给两名具有丰富经验的高级ICU临床医生(ZH和YG),以便进一步会诊和讨论以得出结论性诊断。
03成像预处理和 CT 图像手动分割
为了训练自动肺病灶分割网络,总共手动分割了8729个CT扫描切片,使用3D Slicer平台完成,标签代表危重患者的常见肺部CT病灶。这些分割由高级重症监护医生注释和审查。为满足大量训练数据需求,采用NVIDIA的MONAI框架进行数据增强,包括多种技术以提高模型泛化能力并降低过度拟合风险。此外,在MONAI框架内采用正负标签随机裁剪(RCPNL)数据增强转换,并将CT图像调整为96×96×128的维度以方便训练。
04自动肺 CT 分割框架
研究采用UNETR架构作为自动化肺CT分割框架的主干。在自动肺CT分割框架的训练和评估过程中,研究利用滑动窗口推理(SWI)方法重新组合模型生成的分割输出,并将它们与地面实况标签进行比较。此外,研究使用了将骰子损失与像素级加权交叉熵相结合的复合损失函数,它更有效地捕获了分割任务的各个方面,有助于模型的收敛并提高其泛化能力。Dice系数计算如下:
其中A是预测像素集,B是真实像素集。整个数据集的DC计算为每个标签的DC的加权平均值,其中权重由数据集中每个标签的比例决定。计算标准差(SD)以衡量数据集中DC的可变性。
05肺 CT 分类网络
为了比较完全基于深度学习的图像分类网络和用人类知识训练的ARDS预测分割网络的性能,研究开发了一个基于DenseNet架构的3D图像分类网络。该网络使用原始的、未分割的CT图像作为输入,并预测ARDS发展的风险。在研究过程中发生ARDS的患者的CT图像被标记为阳性样本,而未发生ARDS的患者的CT图像被标记为阴性样本。这些标记的CT图像用于训练和验证分类模型。该网络是使用MONAI框架实现的,该框架专为高效的医学成像任务量身定制。图像预处理包括强度缩放、调整大小和随机旋转,以增强数据可变性。该模型利用交叉熵损失函数进行优化,并采用初始学习率为1e-4的Adam优化器来确保有效的学习进度。
06具有集成数据和解释的 ARDS 预测模型
研究开发了7种机器学习模型(LR、KNN、GNB、RF、XGB、ADB、GBDT)来预测ARDS,并结合了肺部病变分割模型的3D重建结果和患者临床及实验室数据。通过计算病变参数(如受影响肺体积百分比和平均CT密度),研究评估了这些模型的性能,并确定了最佳预测模型。为了提高结果的可解释性,研究使用Shapley解释图可视化了不同特征的贡献,从而深入了解了影响ARDS预测的关键因素。
07统计分析
计算所有参与者和每个队列内的基线特征的描述性统计。为了解决假设随机缺失基线数据的问题,这里使用链式方程采用多重插补,并通过比较插补数据集和完整数据集之间的分布来验证插补一致性。开发的机器学习模型的超参数调整是通过网格搜索进行的,并结合了5倍交叉验证来优化设置。Shapley Additive Explanations图用于评估预测模型中的特征重要性。机器学习算法是使用 Python 3.8.13 和 Scikit-learn 中的库实现的,确保了稳健且可重复的分析。使用 ROC 曲线、校准曲线和混淆矩阵评估所有模型的预测性能,以比较其有效性。混淆矩阵的最佳截点使用Youden指数(J)定义,其计算公式为:J = 灵敏度 + 特异性 − 1。2 侧 P < 0.05 被认为具有统计学意义。
03结果
01研究的数据集概述和患者特征
2018年11月至2021年11月期间,从3个医疗中心回顾性收集了患者数据,总体ARDS发病率为29.5%。各医疗中心发病率略有不同,但上海交通大学医学院附属仁济医院的回顾性和前瞻性队列间基线临床特征无显著差异,患者中位年龄为67岁,男性患者占比约67%。(表1)
02自动肺病灶分割模型的评估
为了评估研究的AI系统在CT切片分割上的性能,这里计算了DC值以评估预测输出和真值标签之间的重叠。在对预测和标签进行后处理后,将汇总所有验证批次的结果,以确定总体平均DC。自动肺CT分割模型表明,在25,000次迭代中,训练损失有所减少,表明渐进式学习过程和收敛。在测试集中,自动分割模型实现了0.734的DC,表明与人类专家相比,病变边界描绘的准确性很高。具体来说,肺野、磨玻璃影、实变、肺纤维化和胸腔积液的DC分别为:0.967 ± 0.098、0.741 ± 0.131、0.756 ± 0.157、0.629 ± 0.018 和 0.701 ± 0.201。基于UNETR的自动分割模型在训练过程中的训练损失和验证DC。
03使用量化的肺部病变参数和临床数据预测ARDS
在这项研究中,研究使用7种不同的机器学习算法建立了ARDS预测模型。这些模型基于两种类型的数据集:一种仅来自由自动CT分割网络量化的肺部病变参数,另一种来自综合数据,将患者的一般临床信息和实验室测试结果与量化的肺部病变参数相结合。结果表明,在使用肺部病变参数构建的模型中,XGB模型表现出优异的性能,AUC为0.860,95% 置信区间(CI)为0.783–0.930。对于基于综合数据构建的模型,XGB模型再次优于其他模型,AUC为 0.916,95% CI为 0.858-0.961(图 3)。研究的研究结果表明,当一般临床信息和实验室测试结果被纳入机器学习训练数据集时,ARDS模型的整体预测性能有所提高。
04ARDS 预测模型的外部和前瞻性验证
在本研究中,在外部和前瞻性验证队列中评估了基于综合数据的综合数据的XGB模型,该模型整合了一般临床信息、实验室检查结果和量化的肺部病变参数。结果表明,该模型在所有验证队列中都取得了稳健的性能。具体来说,该模型在内部验证队列中实现了0.916的AUC,95% CI为0.858-0.961。在外部验证队列 I 中,AUC 为 0.865,95% CI为0.774-0.945。在外部验证队列 II 中,AUC 达到 0.901,95% CI 为 0.835-0.955。前瞻性验证队列显示 AUC 为 0.876,95% CI 为 0.804-0.936(图 4)。每个验证队列的校准曲线和混淆矩阵表明,该模型在预测 ARDS 方面始终表现良好。
05ARDS 预测模型的图形解释
在研究中,进一步分析了导致 ARDS 发作的临床和放射学特征,以开发用于临床预测的AI辅助模型。为了解释肺部病变特征和临床参数对ARDS预测的影响和相对贡献,实施了Shapley加法解释图。正如预期的那样,病变特征被确定为对ARDS预测的重要贡献者。包括C反应蛋白(CRP) 、白蛋白、胆红素、血小板计数和天冬氨酸氨基转移酶(AST)水平在内的几个临床参数,以及年龄等一般临床特征,在预测ARDS中也起着重要作用(图 5)。
06基于 densenet 的 CT 图像分类网络的性能
在这项研究中,研究建立了一个分类网络,旨在从未分割的原始肺部CT图像中预测ARDS。在内部验证集中,该网络实现了0.796的AUC,95% CI为 0.712–0.879(图 6)。根据混淆矩阵,该网络表现出值得称道的预测能力。然而,它的性能明显不如前面提到的ARDS预测模型,该模型采用了患者临床信息和实验室测试结果的全面整合。使用DeLong检验,研究比较了Densenet模型和XGBoost模型的AUC值。此比较的P值为 0.002,表明两个模型的性能之间存在统计学上的显著差异。
04结论
本研究使用UNETR模型推进了ARDS预测,但在临床应用中仍面临挑战,尤其是在开发供临床医生实时使用的用户友好工具方面。与医院系统的有效集成并创建直观的界面以根据肺部成像显示ARDS风险是至关重要的下一步。这些需要一个全面的数据集成框架,以确保与不同的医院IT基础设施兼容。
利用深度学习和超过 276,623 个CT切片,研究开创了一种基于AI的UNETR模型,用于早期ARDS预测,在多个队列中实现专家级的准确性和稳健的验证。研究强调了人工智能和人类专业知识在推进临床实践方面的有效合作。在未来的研究中,通过联邦学习集成多中心数据并将模型部署在边缘计算设备上,可以进一步提高其在现实世界ICU环境中的性能和适用性,最终改善患者预后和资源分配。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【1】LANCET子刊:Lasso回归+机器学习+生存分析=肝硬化患者经颈静脉肝内门体分流术后的生存率(IF=9.6)
【2】eClinicalMedicine (IF=9.6):模型可视化-15年数据构建预测模型评估女性CSEP术中出血的风险
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析