开发和验证基于机器学习的可解释计算器,用于预测减肥手术后 5 年的体重轨迹:一项多国回顾性队列 SOPHIA 研究
背景:减肥手术后的减肥轨迹因人而异,在手术前预测体重减轻仍然具有挑战性。本研究旨在开发一个使用机器学习的模型,以提供手术后 5 年减肥轨迹的个体术前预测。
方法:在这项多国回顾性观察研究中,招募了来自十个前瞻性队列(包括 ABOS [NCT01129297]、BAREVAL [NCT02310178]、瑞典肥胖受试者研究和来自荷兰肥胖诊所 [Nederlandse Obesitas Kliniek] 的大型队列)和两项随机试验(SleevePass [NCT00793143] 和 SM-BOSS [NCT00356213)的成年受试者(≥ 岁]) 在欧洲、美洲和亚洲,在 Roux-en-Y 胃旁路术、袖状胃切除术或胃束带术后进行 5 年随访。排除既往有减肥手术史或计划就诊和实际就诊之间有较大延迟的患者。培训队列包括来自法国两个中心(ABOS 和 BAREVAL)的患者。主要结局是5年时的BMI。使用最小绝对收缩和选择算子来选择变量,并使用分类和回归树算法来构建可解释的回归树,从而开发了一个模型。通过BMI的中位数绝对偏差(MAD)和均方根误差(RMSE)评估模型的性能。
结果:来自10个国家12个中心的10 231名患者被纳入分析。在所有 12 个队列的参与者中,7701 例 (75.3%) 为女性,2530 例 (24.7%) 为男性。在训练队列中可用的 434 个基线属性中,选择了七个变量:身高、体重、干预类型、年龄、糖尿病状况、糖尿病持续时间和吸烟状况。在5年时间内,跨外部测试队列,整体平均MAD BMI为2.8千克/平方米(95% CI 2.6-3.0),平均RMSE BMI为4.7千克/平方米(4.4-5.0),预测和观察到的BMI之间的平均差异为-0.3千克/平方米(标准差4.7)。该模型已纳入一个易于使用和可解释的基于网络的预测工具中,以帮助在手术前做出临床决策。
结论:开发了一个基于机器学习的模型,该模型已获得国际验证,用于预测三种常见减肥干预后个体 5 年的减肥轨迹。
在这项跨国回顾性观察性研究中,使用了来自八个国家的十个成人患者队列的数据,这些患者首次接受了Roux-en-Y胃旁路术(RYGB)、垂体切除术和调整性胃部成形术(AGB)。所有患者在手术后最多有5年的数据可用,并且年龄在18岁或以上。排除了曾经接受过肥胖手术的患者。还排除了术后并发症相关的预定和实际访问之间存在较长延迟的患者。在出现随访缺失的情况下,患者将被纳入分析,但在相应日期被截断。在某个特定时间不需要随访的患者(最近的手术)也会在最后一次完成的随访后被截断。
培训队列由两项纵向队列研究中的患者组成,这两项研究评估了肥胖手术的长期结果。
使用来自法国(Projet régional de Recherche Clinique en Obésité Sévère [PRECOS;NCT03517072]和Lyon [NCT02139813])、荷兰(the Dutch Obesity Clinic,Nederlandse Obesitas Kliniek [NOK])、瑞典(the Swedish Obese Subjects [SOS] study)、意大利(NCT01581801和NCT00888836)、新加坡(Singapore General Hospital [SGH])、巴西(Center for the treatment of Obesity and Diabetes [COD],Hospital Oswaldo Cruz,Sao Paulo,Brazil)和墨西哥的八个外部测试队列对预测模型进行了验证。
此外,还对两项在芬兰(SleevePass,NCT00793143)和瑞士(Swiss Multicenter Bypass or Sleeve Study [SM-BOSS],NCT00356213)进行的已注册和先前发表的随机、开放标签、多中心试验的参与者进行了额外的外部验证。
主要研究结果是预测减肥手术后 5 年的 BMI。次要结局是术后早期访视时(第 1、3、12 和 24 个月)的体重减轻(TWL)。
训练队列被分为两个子集:一个由 80% 的随机选择患者组成的训练子集,以及一个由 20% 的患者组成的内部测试子集。
首先对所有患者的基线特征进行了预处理。由于 ABOS 队列具有每位患者的许多术前属性,因此我们对该患者亚组运行了特征选择算法,以使用最小绝对收缩和选择算子 (LASSO) 提取与结果预测相关的统计学上最相关的属性。
为了开发该模型,进一步利用决策树的机器学习算法来训练有意义的患者亚组,这些亚组在其基线特征上具有统计学上的相似性,其次,为每个亚组拟合 TWL 预测模型。例如,决策树可以根据干预类型以及使用其他变量(如干预年龄、BMI 和其他临床特征)对不同减肥干预措施(如 RYGB、袖状胃切除术和 AGB)的异质队列进行训练时预测体重减轻。
为了校准决策树,使用 LASSO 提取的特征作为分类和回归树 (CART) 算法的输入。该算法在训练队列的训练子集上进行了校准。指挥进一步将预测的 TWL 与训练队列测试子集中患者的观察结果进行了比较(内部验证)。
此外,我们将该方法与其他方法进行了比较:经典线性模型、线性混合效应模型、随机森林模型和 CART 模型。
该模型通过比较观察到的(TWLi)和预测的总体重减轻来进行外部验证;预测模型的性能是在每次访问日期计算的,并且使用标准指标中位数绝对偏差(MAD)来表示;为了衡量预测TWL值在真实数值周围的离散度,同时对异常值具有鲁棒性,还计算了均方根误差(RMSE),该指标同时衡量了模型预测的偏差和方差,但对离群值更敏感。这两个指标还被表达为每次访问观察到的BMI的百分比的归一化比率。使用Bland-Altman图在特定时间点(第12个月、第24个月和第60个月)的实际与预测BMI来评估模型的校准情况。此外,使用了两项随机临床试验(SLEEVEPASS24和SM-BOSS7)的个体数据,用我们的模型复制了先前报道的RYGB与胃切除术在减重方面的比较。原始报告使用线性混合模型结合并分析了两项研究长达5年的体重跟踪数据。在本研究中,我们用我们的机器学习模型在每个时间点预测的观察到的个体减重值取代了它们,并使用原始报告中描述的相同线性混合模型分析了它们,以比较两种手术之间预测和观察到的平均(95% CI)减重差异。
推导和验证队列中基线时的参与者特征(Table 1)
训练队列、测试队列和随机对照试验队列的平滑观察到的中位 BMI(上)和总体重减轻轨迹(下)以及每次手术的相应 IQR(Fig 1)
显示了每次手术后 5 年内观察到的中位数 (IQR) BMI 和 TWL 的总体轨迹。基线时的个体体重范围为 65 kg 至 295 kg (SD 25.6),BMI 为 26.7 kg/m2至 94.1 kg/m2。干预年龄从18岁到74岁不等。在所有12个队列的10 231名受试者中,7701名(75.3%)为女性,2530名(24.7%)为男性,2882名(28.2%)在基线时患有2型糖尿病。RYGB是最常见的手术(6691例[65.4%],共10例231例),其次是袖状胃切除术(2872例[28.1%])和AGB(668例[6.5%])。5 年时,中位 TWL 为 26.8% (IQR 19.8-34.0),范围为 -13.3% 至 62.7%。总体而言,每次手术的减肥轨迹的一般形状在队列中是相似的,体重减轻的最低点在 1 到 2 年之间,然后是有限的体重恢复:中位数 18.7% (IQR 4.1–33.9) 最大体重减轻。与RYGB相比,袖状胃切除术后的体重恢复明显更高。5 年时,RYGB 导致的中位总体重减轻显著高于袖状胃切除术。
训练队列、测试队列和随机对照试验队列的平滑观察到的中位 BMI(上)和总体重减轻轨迹(下)以及每次手术的相应 IQR(Fig 2)
验证队列预测结果比较(Table 2)
验证队列中各操作预测结果的比较(Table 3)
该模型在1年、2年和5年时在测试队列和每种干预措施中的表现如图2、表2和表3所示。5 年时,各队列的 BMI MAD 总体平均加权值为 2.8 kg/m2(95% CI 2.6–3.0) 和 BMI 的 RMSE 为 4.7 kg/m2(4.4–5.0),对应于 MAD 的 8.8% 和 BMI 的 RMSE 的 14.7% 的标准化估计值。该模型在RYGB(MAD 2.8,RMSE 4.5)中的表现显著高于袖状胃切除术。总体而言,预测和观察到的 5 年 BMI 之间的平均差异为 –0·3 kg/m2。该模型在所有时间点都显示出良好的校准。
当前版本的减肥体重轨迹预测计算器中为个体患者预测的 BMI 和 TWL 轨迹的两个说明性示例(Fig 3)
然后将本研究中开发的机器学习模型集成到软件中,该软件允许根据模型中包含的七个关键基线特征显示给定患者在干预前可以预期的 5 年体重轨迹。研究人员(PSau、JT、TS、MD、PP、PB、VR、HV 和 FP)和患者代表介绍了该模型的图形输出并进行了讨论。由此产生的用户友好型计算器显示任何给定时间的预测权重轨迹,以及与预测误差的 IQR 相对应的预测区间。默认情况下,单个预测轨迹以 kg 表示。根据用户的选择,结果也可以以kg/m为单位显示,TWL 的百分比或 EWL 的百分比。为了提高可读性,这些指标中每个指标随时间推移的预测轨迹都显示为平滑曲线。
文字 | 王倩倩
排版 | 王倩倩