*仅供医学专业人士参考
发表杂志:the journal of thoracic and cardiovascular surgery
影响因子:6.0
发表时间:2024-05-22
摘 要
目的:CT表现为纯实性的临床IA期非小细胞肺癌(NSCLC)预后较差。这项研究旨在开发和验证机器学习模型,使用术前临床和放射学特征来预测临床IA期纯实性非小细胞肺癌的总体生存(OS)。
方法:对2012年1月至2020年12月间接受肺切除的非小细胞肺癌患者进行回顾性分析。在CT上提取瘤内和瘤周的放射组学特征。机器学习模型采用随机生存森林(RSF)和XGBoost算法,以Cox回归模型为基准。模型性能使用时间依赖曲线下面积(iAUC)进行评估,并通过5折交叉验证进行验证。
结果:共纳入642例临床IA期纯实体非小细胞肺癌患者。在3748个放射学特征和34个术前临床特征中,选择了42个特征。两种机器学习模型均优于COX回归模型(iAUC,0.753[95%CI:0.629,0.829])。XGBoost模型的性能(iAUC,0.832[95%CI:0.779,0.880])好于RSF模型(iAUC,0.795[95%CI:0.734,0.856])。低风险(5年OS:100.0%)、中低风险(5年OS:88.5%)、中高风险(5年OS:75.6%)和高危(5年OS:41.7%)组的总体生存(OS)差异有统计学意义(P<0.0001)。
结论:基于放射组学的机器学习模型能准确预测手术前OS,改善IA期NSCLC患者的生存分层。
前 言
非小细胞肺癌(NSCLC)是世界上最常见的恶性肿瘤之一。随着CT筛查应用的增多,越来越多的非小细胞肺癌被早期诊断,尤其是临床IA期直径<3 cm的肿瘤。根据CT实变率将肺结节分为亚实性(0< CTR<1)和纯实性(CTR=1)。我们先前的研究表明,在CT上有磨玻璃样阴影的IA期非小细胞肺癌有良好的预后,即使是实性占优势的肿瘤。相反,纯实性病变的预后显著差。尽管T分期是判断NSCLC预后的有用指标,但在T分期相同的患者中,肿瘤的异质性存在,表现为较高的转移率和复发率。目前,临床IA期NSCLC需要更有效的预后工具来改善临床决策。
胸部CT对评估非小细胞肺癌的侵袭性和预后具有重要价值。然而,CT的形态特征很少被评估其预后价值,只有肿瘤直径和CTR在临床上得到了广泛的应用。许多来自CT图像的肿瘤放射学特征,如定量放射学特征,还没有得到充分的评估。放射组学是一种提取和分析高维定量放射学特征的方法。以前的几项研究已经报道了早期NSCLC 患者的放射组学特征与预后有关。此外,由于放射组学的高维性,传统的统计方法在管理这种复杂性方面遇到了巨大的挑战。机器学习是人工智能的一个重要分支,它可以学习高维数据的潜在关系,并做出分类或预测。随着机器学习的发展,集成大数据--如来自医学图像(放射组学)的数据--来评估个性化预后变得可行。机器学习模型与基于CT的放射组学相结合,显示出在临床IA期NSCLC患者术前预测生存的前景。这项研究旨在开发和验证可解释的机器学习模型,使用术前临床和放射学特征来预测临床IA期纯实性非小细胞肺癌的总体生存(OS)。
方 法
研究人群:
回顾了2012年1月至2020年12月间在Juntendo大学医院接受肺切除的连续患者。纳入标准为(A)经病理证实的原发非小细胞肺癌和(B)第8版肺癌TNM分期后的临床IA期。排除标准为:(A)术前2个月内无高分辨率胸部CT;(B)术前胸部CT显示非小细胞肺癌亚实性;(C)胸部CT质量不符合进一步分析要求。
数据采集:
回顾电子病历以收集非小细胞肺癌患者的临床病理特征和生存结果。共纳入34例、5例和1例术前临床、病理和手术特征。这项研究的目标变量是OS,最后一次随访发生在2023年5月。术前胸部CT图像以DICOM格式采集。胸部CT层厚1~2 mm。
分割与提取:
每幅CT图像上的瘤内和瘤周感兴趣体积(VOI)由三位胸科医生(H.Y.,T.N.,T.M.)半自动勾画。使用3D Slicer软件(版本4.10.2)。瘤内VOI是由肿瘤区域上大于-200HU的阈值产生的。然后,手动切除瘤内VOI内的血管和纤维化。瘤周VOI在瘤内VOI上自动扩大5 mm。此后,瘤内体积从瘤周VOI中移除。所有体积被重新采样到相同的体素大小1×1×1mm3以进行归一化。放射组学特征是从CT图像上的VOI中提取的,使用的是PYRADIRONY软件包。
特征选择与聚类分析:
数据的预处理方式显示在补充材料中。本研究中的特征选择包括两个步骤。首先,使用单变量COX回归,将P值小于0.05的特征纳入后续选择。为了保留更多的放射学信息,K-Means聚类被用来构建瘤内和瘤周特征的表达模式。在随后的分析中包括了两种表达模式。其次,利用最小绝对收缩和选择算子(LASSO)回归来确定最优的建模特征。
机器学习模型的开发与验证:
两种先进的机器学习算法,随机生存森林(RSF)13和(XGBoost)被用来拟合机器学习模型。模型中的超参数是使用网格搜索方法对整个队列进行调整的。使用相同的特征进行比较,建立了COX回归模型。建模后,机器学习模型可以为每个患者生成个性化的预测值,以反映OS的风险。对机器学习模型的性能从两个方面进行了评估:区分和校准。分别用1、3、5年的时间依赖性曲线下面积(tAUC)和0.5~5年的综合tAUC(iAUC)进行评价。观察和预测存活率之间的校准曲线被用来评估校准。所有评估程序都使用5折交叉验证进行了内部验证,没有单独的测试集。(SHAP)解释被用来衡量每个特征对机器学习模型的重要性。SHAP值的大小表示其对预测的贡献,其符号表示效果是积极的还是消极的。SHAP方法在补充材料中有详细介绍。
统计分析:
连续变量被表示为中位数和四分位数范围(IQR),而分类变量被表示为数字和百分比。根据阈值,根据最优机器学习模型的预测值对风险组进行分层。使用R中的SurvMisc软件包确定最佳阈值为具有最显著OS差异的值。最初,我们计算整个队列的单一阈值以将患者分为两组。然后,对于较大的组,我们确定了额外的阈值,将患者分为三个(低、中、高风险)或四个(低、中-低、中-高和高风险)风险组。P值小于0.05被认为具有统计学意义。采用方差分析(ANOVA)、卡方检验和Fisher‘s精确检验比较危险组之间的差异。采用Tukey检验进行单因素方差分析后的多重比较。绘制Kaplan-Meier生存曲线,并用log-rank检验分析各危险组之间的差异。所有的机器学习和统计分析都使用R(版本4.2.1)和Python(版本3.7.0)进行。
结 果
患者特征:
本研究共纳入642例CT表现为纯实性的非小细胞肺癌患者。临床病理特征的详细信息如表1所示。用于建模的术前临床特征如表E1所示。平均年龄71岁(IQR 65,76岁),以男性为主(70.2%)。临床分期多为IA2期和IA3期,分别占49.3%和41.4%。肺叶切除术是最常见的手术方式(73.2%)。病理类型以IA期为主(59.8%),I期以上者占18.5%,平均随访时间56个月(1,132例)。
特征选择与聚类分析:
所有特征处理过程如图E1所示。在CT上,总共从瘤内和瘤周区域提取了3748个放射组学特征。有关这些功能的分类信息如表E2所示。在3748个放射学特征中,706个特征在归一化前被排除,随后的分析将它们减少到1002个(568个肿瘤内特征和434个肿瘤周围特征),这些特征与OS显著相关。
在图1A和图B中,两个热图显示了这些与生存相关的放射学特征,并根据这些肿瘤内或瘤周特征分别识别了三组患者。血管侵犯(P<0.001)、淋巴侵犯(P=0.005)、病理分期(P<0.001)、OS(P<0.001,图1C)与肿瘤内特征性表达模式显著相关,而与EGFR突变无关(P=0.131)。癌周特征性表达与肿瘤血管侵犯(P<0.001)、病理分期(P<0.001)、OS(P=0.0042,图1)显著相关,而与EGFR突变(P=0.142)和淋巴侵犯(P=0.088)无关。随后,将两种表达模式添加到最终的特征选择中。在1024个特征中,套索回归分析确定了42个特征用于建模,其中包括9个临床特征、2个表达模式和31个放射学特征(图E2和表E3)。
模型性能:
对于6至60个月的OS预测,XGBoost模型显示出最高的区分度,其iAUC为0.832(95%CI,0.779,0.880)(图2A)。XGBoost和RSF模型(iAUC,0.795;95%CI,0.734,0.856)均优于COX回归模型(iAUC,0.753;95%CI,0.629,0.829)。对于1年、3年和5年的OS预测,XGBoost模型仍然是所有模型中最好的,tAUC分别为0.862(95%CI,0.788,0.936)、0.813(95%CI,0.744,0.882)和0.791(95%CI,0.711,0.870,表E4)。在校准曲线(图2B)中,XGBoost和RSF模型与观察到的生存曲线比较一致,但XGBoost模型的预测总体上最接近观察曲线。COX回归模型预测生存曲线接近观察生存曲线下限的95%可信区间。为了评估放射学特征相对于最优模型的增量价值,根据临床和放射学特征构建了不同的XGBoost模型(表E5)。临床XGB模型的iAUC为0.778(95%CI,0.717至0.846),而放射XGB模型的iAUC为0.721(95%CI,0.643至0.782)。
生存分层:
XGBoost为每个患者生成反映死亡风险的预测值(图E3A)。大多数预测值低于1的患者(图E3B)仍在随访中,生存时间相对较长。相反,对于预测值大于1的患者(图E3C),超过一半的人死亡,生存时间较短。计算两个(0.427和1.002)和三个(0.166、0.604和1.002)阈值,根据预测值将患者分为三个或四个风险组。当应用三个风险组时,XGBoost模型显示了良好的生存分层,低危(5年OS:92.9%)、中危(5年OS,78.9%)和高危(5年OS,41.7%)组之间的OS差异显著(P<0.0001,图3A)。当将患者分成四个风险组时,XGBoost模型的生存分层性能进一步增强,低风险(5年OS:100.0%)、中低风险(5年OS:88.5%)、中高风险(5年OS:75.6%)和高风险(5年OS:41.7%)组之间的OS差异显著(P<0.0001,图3B)。与年龄、性别、吸烟年限、每日吸烟次数、Brinkman指数、FEV1、%FEV1、VC、%VC、%DLCO、CEA、临床分期、病理类型、病理分期、EGFR突变、血管侵犯有关(均P<0.05,表E6)。
针对不同风险群体的手术选择:
接受亚肺叶或肺叶切除的患者在整个队列中的OS相似(P=0.65,图4A)。根据手术方式的四类危险组进行亚组分析。在中低危组(P=0.98,图4B),亚肺叶和肺叶切除之间的OS差异无统计学意义。在中高危组中,亚肺叶切除组的OS较肺叶切除组差,但差异无统计学意义(P=0.18,图4C)。相反,在高危组中接受亚肺叶切除的患者表现出比接受肺叶切除的患者更好的OS,但这一结果没有统计学意义(P=0.097,图4D)。鉴于这些差异,进一步分析了患者的一般情况和肿瘤的代表性特征。中高危组的Brinkman指数(P=0.642,图4E)、癌胚抗原(P=0.565,图4F)、病理分期(P=0.630,图4G)、EGFR突变(P=0.159,图4H)与高危组相当。中高危组与高危组比较,%FEV1(P=0.047,图4I)、%VC(P=0.017,图4J)、%DLCO(P=0.029,图4K)和CCI(P=0.001,图4L)差异有统计学意义。
模型解释:
图5A&B列出了XGBoost模型中的特征重要性等级。CEA被确定为最重要的特征,其平均绝对Shap值为0.46。Shap值随着CEA值的增加而稳步增加,特别是当CEA大于5时(图5C)。当CCI为2或更高时,Shap值显著增加(图5D)。前两个放射学特征(图5E和F)与OS呈非线性关系。图6提供了两个XGBoost预测的示例,Shap值很好地解释了这两个预测。
图 E1。数据预处理和特征选择的方案。SD,标准差。
图 E2。LASSO 算法和 5 倍交叉验证。A. LASSO 系数路径随 L1 范数增加而变化。每条线代表一个特征的系数。B. LASSO 中不同 lambda 值的交叉验证偏差,标有误差线和最佳 lambda。LASSO、最小绝对收缩和选择运算符。
图 E3. XGBoost 模型预测值直方图。
XGBoost 模型预测每个患者的值分布。零轴上方的条形表示观察到的事件(死亡),而零轴下方的条形表示存活到随访时间结束的患者。B. 预测值 ≤ 1 的患者的预测值分布。在此区间内,大多数患者仍然存活,并且随访时间相对较长。C. 预测值 > 1 的患者的预测值分布。在此区间内,大多数患者死亡,并且存活时间相对较短。
图 1. 放射组学模式与肿瘤特征和总体生存期的相关性。A. 肿瘤内放射组学特征分析揭示了三个不同的簇。这些簇被称为“肿瘤内放射组学的表达模式”,显示出与 VI、LI 和 pStage 显著关联(P < 0.05)。B. 肿瘤内放射组学的表达模式与总体生存期显著相关(P < 0.05)。C. 肿瘤周围放射组学特征分析揭示了三个不同的簇。这些簇被称为“肿瘤周围放射组学的表达模式”,显示出与 VI 和 pStage 显著关联(P < 0.05)。D. 肿瘤周围放射组学的表达模式与总体生存期显著相关(P < 0.05)。95% 置信区间以阴影显示。** P < 0.01;*** P < 0.001。EGFR,表皮生长因子受体;LI,淋巴管侵袭;VI,血管侵犯;pStage,病理分期。
图 2. 预后模型判别和校准评估。A. 时间依赖性 AUC 曲线说明三种模型的判别能力。在所有模型中,XGBoost 模型在 6 至 60 个月的时间依赖性 AUC 最高。B. 观察和预测生存曲线说明三种模型的校准曲线。在所有模型中,XGBoost 模型预测生存曲线与观察生存曲线基本一致。
图3. 不同风险组患者的总生存率。
A. 以XGBoost模型预测值0.427和1.002两个阈值将患者分为高危、中危、低危组,三组间生存率差异显著(P < 0.0001)。B. 以XGBoost模型预测值0.166、0.604、1.002三个阈值将患者分为高危、中高危、中低危、低危组,四组间生存率差异显著(P < 0.0001)。阴影部分为95%置信区间。
图 4. 四个风险组的生存结果和临床特征。
A-D. Kaplan-Meier 生存曲线描绘了整个队列 (A)、中低风险组 (B)、中高风险组 (C) 和高风险组 (D) 中接受 SR 或 LR 的患者的总体生存率。E-H. 条形图说明了 Brinkman 指数 (E)、CEA (F)、pStage (G) 和 EGFR 突变 (H) 在低风险、中低风险、中高风险和高风险组中的分布。I-L. 条形图说明了 %FEV1 (E)、%VC (F)、%DLCO (G) 和 CCI (H) 在低风险、中低风险、中高风险和高风险组中的分布。
95% 置信区间以阴影显示。* P < 0.05;** P < 0.01;*** P < 0.001;**** P < 0.0001;ns,不显著。SR,亚肺叶切除术;LR,肺叶切除术。
图 5. XGBoost 模型的 SHAP 解释。
A-B. SHAP 值汇总图显示每个特征对每种情况 (A) 或整个队列 (B) 中的模型输出的影响。C-F. 散点图将 XGBoost 模型中前四个特征的单个特征值与其相应的 SHAP 值相关联。CEA (C) 和 CCI (D) 与模型的输出呈正相关,而两个放射组学特征 (E 和 F) 与输出呈非线性相关性。
CEA,癌胚抗原;CCI,Charlson 合并症指数。
图 6. XGBoost 模型应用示例。
一名 64 岁女性,临床分期为 IA3 NSCLC,其 5 年生存率高达 97%,实际生存期超过 56 个月。B. 一名 72 岁男性,临床分期为 IA3 NSCLC,其 5 年生存率较低,为 51.4%,实际生存期为 21 个月。
图 7.图形摘要
翻译及审校 陈中笑+杨明辉
END
长按二维码添加
关注我们 获取更多文献
点赞或分享 让我们共同成长
点击“阅读原文”看摘要原文