IF11.1柳叶刀子刊--胰腺癌风险预测模型在美国大规模临床数据上开发和验证

文摘 2024-10-29 09:01 中国

总结要点

背景：胰腺导管腺癌（PDAC）筛查可实现早期疾病检测和长期生存。目前的指南使用遗传易感性，约10%的PDAC病例适用于筛查。使用来自多机构联盟网络的电子健康记录（EHR）数据，本研究开发并验证了一种适用于美国普通人群的PDAC风险模型（Prism），以扩展早期PDAC检测。

方法：使用来自55个美国医疗机构（HCOs）的电子健康记录（EHR）数据，开发了神经网络（PrismNN）和逻辑回归（PrismLR）模型，用于预测40岁及以上患者在诊断前6-18个月的PDAC风险。使用曲线下面积（AUC）和校准图评估模型性能。通过地理位置、种族和时间进行内外部验证。模拟模型部署评估标准化发病率比（SIR）和其他指标。

结果：在35,387例PDAC病例、1,500,081例对照病例以及每个患者87个特征的情况下，PrismNN在测试中获得了0.826的AUC（95% CI: 0.824–0.828）（PrismLR: 0.800 (95% CI: 0.798–0.802)）。PrismNN的平均内外验证AUC分别为0.740（地点）、0.828（种族）和0.789（95% CI: 0.762–0.816）（时间）。在模拟模型部署中，当SIR = 5.10（超过当前筛查纳入门槛）时，PrismNN的敏感性为35.9%（特异性95.3%）。

结论：Prism模型在不同人群中展现了良好的准确性和泛化能力。相较于当前的筛查指南，PrismNN能够在相当风险水平下找到3.5倍更多的病例。较少的特征数量为模型解释提供了基础。

方法

数据来源

本研究目标是通过使用来自TriNetX联合EHR数据库平台的数据开发机器学习模型，以预测患者在未来6-18个月内的诊断情况患有PDAC的风险。具体来说使用了来自55个美国医疗保健组织的回顾性去标识化的EHR数据。

研究人群

在2022年11月和12月期间，本研究通过TriNetX查询获取了数据。首先，获取了PDAC病例组的数据，这些病例是由年龄在40岁及以上，且具有以下ICD-10/ICD-9代码之一的患者组成：C25.0、C25.1、C25.2、C25.3、C25.7、C25.8、C25.9和157。通过这一查询，获得了132,789例PDAC病例。然后，为了得到一个PDAC病例组（含35,387例病例），排除了年龄在40岁以下被诊断的患者（1,924例），在死亡记录两个月后有入院记录的患者（484例，可能是由于不同患者的混合记录），以及医疗史不足的患者（94,994例）。

接下来，对于对照组，查询TriNetX，获取了年龄至少为40岁且没有以上ICD-10或ICD-9代码的患者数据。该查询匹配到了51,139,587名患者，从中均匀抽样了6,499,996名患者。然后，排除了具有PDAC肿瘤登记但没有PDAC诊断记录的患者（304例），在死亡记录两个月后有记录的患者（26,783例），以及医疗史不足的患者（4,972,828例），以得到一个包含1,500,081例对照患者的对照组。

模型开发

本研究训练和评估了两个模型类别，分别是神经网络（PrismNN）和逻辑回归（PrismLR）。数据被随机划分为训练集（75%）、验证集（10%）和测试集（15%）。

从 EHR 中得出了四类特征：基本特征、诊断特征、药物特征和实验室特征。基本特征有六个值，四个用于人口统计信息（年龄和性别，以及它们的存在位），两个用于临床就诊频率。上述过程生成了 5000 多个特征。为了提高可解释性，通过二进制输入掩码进行L0正则化和特征迭代，以筛选出更少的特征。模型使用 Platt 校准的变体进行校准，本研究还计算了超估几何平均值（GMOE），即预测风险与实际风险之比的几何平均值，以进行定量校准评估。

内外部验证

本研究对大型联邦网络的使用通过在网络内拆分数据来实现内部-外部验证。考虑了三个属性：医疗机构（HCO）的地理位置（如果一个HCO涵盖多个地点，则为其总部），患者的种族以及训练数据的时间。对于每个属性，相应地划分数据集，在一个划分上训练模型，在另一个上进行测试。对每个内外部验证都在训练集上重复所有的模型开发步骤，包括自动特征选择。

对于基于地点和种族的验证，通过比较内外部验证模型的AUC与相应的控制模型来评估模型的泛化能力。还计算了在验证集和测试集上AUC之间的差距，作为额外的泛化性评估。接下来进一步计算地理或种族子组的AUC的I2指数，以评估模型性能的异质性。

对于时间验证，本研究选择了诊断日期的50%，60%，...，90%百分位数作为分割日期。在这些分割日期之前的数据上训练模型。使用2021年10月10日后的数据（90%百分位数）作为所有模型的测试集。由于分割日期还影响训练集的大小，使用相同数量的随机抽样病例训练控制模型。

模拟部署

通过模拟模型部署，采用前瞻性队列研究设计，估计模型在临床环境中的性能。在2020年4月11日之前的数据上训练模型。然后，进行了一项临床研究的模拟。当新患者在2020年4月11日之后首次满足年龄和足够医疗史要求时，定期将其纳入研究。对于每位入组患者，每90天使用模型评估他们的PDAC风险，直到没有足够的数据或患者被诊断出患有PDAC。从每位入组患者首次风险评估后的6个月开始对其进行随访，直到最后一次风险评估后的18个月，以查看他们在随访期间是否被诊断为PDAC。入组、风险评估和随访日期的选择与模型无关。基于患者在其PDAC诊断前的6到18个月内是否曾接受高危预测，计算模型性能统计数据，包括灵敏度、特异度、阳性预测值（PPV）和标准化发病率比（SIR）。

根据验证集上的89.00%，92.00%，96.60%，97.80%，99.70%，和99.95%的特异度水平选择多个高风险阈值。

统计分析

AUC的置信区间使用优化版本的DeLong算法计算。敏感性、特异性等二项比例的置信区间使用精确的Clopper-Pearson方法计算。在内外部验证中，AUC均值的置信区间假定了一个高斯混合模型，以避免对全局均值的假设。地理/种族亚组的I2计算假定了一个随机效应模型，其中yi = μ + ϵi + Ei，使用I2 = (Q − (k − 1))/Q的定义。使用对数几率的AUC来计算Q统计量，以更好地匹配正态假设。使用300万次Monte Carlo模拟估计了Q的置信区间。

结果

模型评估

PrismNN和PrismLR均使用了35,387名年龄达98.1岁的癌症患者和1,500,081名对照者。PrismNN和PrismLR在九次随机运行中的平均AUC分别为0.826（95% CI: 0.824–0.828）和0.800（95% CI: 0.798–0.802）。通过引入Bootstrap，PrismNN和PrismLR的校正AUC分别为0.825（95% CI: 0.823–0.827）和0.801（95% CI: 0.799–0.804）。在九次随机运行中，平均GMOE分别为1.169（95% CI: 1.145–1.192）和0.969（95% CI: 0.945–0.993）。

图2a展示了九次随机运行中的ROC曲线，其中AUC分别为0.825（95% CI: 0.819–0.830）（PrismNN）和0.798（95% CI: 0.793–0.804）（PrismLR）。图2b展示了相应的测试集上的对数刻度校准图。GMOE分别为1.161（PrismNN）和0.982（PrismLR）。

PrismNN在不同年龄组的AUC分别为0.847（95% CI: 0.826–0.869）、0.796（95% CI: 0.787–0.806）、0.775（95% CI: 0.765–0.785）和0.797（95% CI: 0.790–0.804），对应的GMOEs分别为11.277、1.057、1.400和1.201。PrismLR的AUC分别为0.822（95% CI: 0.799–0.846）、0.767（95% CI: 0.757–0.777）、0.741（95% CI: 0.730–0.752）和0.766（95% CI: 0.759–0.773），GMOEs分别为90.107、0.804、1.253和1.068。

图3展示了所有由PrismNN评估的选定特征按其预测能力排名。模型特征包括已知的PDAC风险因素，如年龄、性别、糖尿病、胰腺炎、胰腺囊肿和腹痛；其他特征包括高血压、高胆固醇血症、肾功能和在PDAC诊断前的临床访问频率。

内外部验证结果

图4a呈现了基于地理位置的内部-外部验证结果。PrismNN在测试集上的AUC分别为0.735（95% CI: 0.730–0.741）、0.723（95% CI: 0.719–0.728）、0.747（95% CI: 0.743–0.751）和0.754（95% CI: 0.745–0.764），代表中西部、东北部、南部和西部。PrismLR的AUC分别为0.748（95% CI: 0.743–0.753）、0.748（95% CI: 0.744–0.753）、0.751（95% CI: 0.746–0.755）和0.730（95% CI: 0.720–0.740）。PrismNN在测试和对照模型之间的AUC降低在0.078和0.099之间，而PrismLR在0.049和0.072之间。四个地点的平均测试AUC分别为0.740（95% CI: 0.716–0.764）和0.744（95% CI: 0.727–0.762）对于PrismNN和PrismLR。PrismNN和PrismLR的I2指数分别为99.2%（95% CI: 86.7%–99.8%）和95.9%（95% CI: 33.5%–98.8%）；图4b呈现了基于种族的内部-外部验证结果。PrismNN在测试集上的AUC分别为0.822（95% CI: 0.782–0.862）、0.835（95% CI: 0.818–0.851）、0.821（95% CI: 0.816–0.827）、0.893（95% CI: 0.839–0.947）和0.768（95% CI: 0.765–0.771），代表美洲原住民、亚洲、黑人、太平洋岛民（NHPI）和白人。PrismLR的AUC分别为0.787（95% CI: 0.745–0.829）、0.809（95% CI: 0.791–0.828）、0.803（95% CI: 0.798–0.809）、0.877（95% CI: 0.809–0.945）和0.793（95% CI: 0.790–0.796）。PrismNN在测试和对照模型之间的AUC降低在-0.067和0.018之间，而PrismLR在-0.054和0.018之间。五个种族的平均测试AUC分别为0.828（95% CI: 0.744–0.912）和0.814（95% CI: 0.740–0.888）对于PrismNN和PrismLR。PrismNN和PrismLR的I2指数分别为99.8%（95% CI: 92.9%–100.0%）和96.4%（95% CI: 2.9%–99.2%）；图4c呈现了时间验证结果。模型的平均测试AUC分别为0.789（95% CI: 0.762–0.816）（PrismNN）和0.780（95% CI: 0.763–0.798）（PrismLR）。性能倾向于随着更近期的训练数据和更大的训练集而变得更好，但这种变化在统计学上并不显著。

模拟部署结果

在测试集的185,932名患者（包括7095例PDAC病例）上模拟了模型的部署，入组时间为2020年4月11日至2021年4月6日。入组时的平均年龄为61.62岁（标准差11.98）。PDAC诊断时的平均年龄为69.75岁（标准差10.37）。每位患者的随访时间为1.82年（标准差0.31）（表2）。对整个TriNetX人群的模型PPV估计范围为PrismNN为0.28%–8.62%，PrismLR为0.29%–2.88%。PrismNN和PrismLR的SIR范围分别为2.38–96.0和2.22–24.2。在随访期间，所有入组患者的SIR为1.00（95% CI: 0.98–1.01）。SIR接近1表明在TriNetX测试人群中排除患者后的PDAC发病率与美国总体人口相似。确定高危人群为SIR为5.10或以上的个体，基于PrismNN，其与35.9%的敏感性和95.3%的特异性相关。这个SIR阈值类似于目前纳入筛查计划的资格截止值。

END

扫码关注我们

文字 | 王倩倩

排版 | 王倩倩

小猪的科研生活

分享日常科研生活和统计以及机器学习知识

最新文章

再发一篇SCI！附带更新重症教学小程序！

高分综述解读--机器学习在心力衰竭诊断、预测和预后中的应用

IF8.5一区解读：机器学习+老年心力衰竭合并高血压+院内死亡+多中心

IF96.2新英格兰解读--观察性研究中的目标试验模拟——潜力与陷阱

IF13高分解读--代谢功能障碍预测阿尔茨海默病的发展：对电子病历数据的统计和机器学习分析

IF18.8nature子刊--基于树的 Explainable AI：从局部解释到全局理解

高分综述解读--机器学习在心力衰竭诊断、预测和预后中的应用

IF8.5一区解读：机器学习+老年心力衰竭合并高血压+院内死亡+多中心

IF96.2新英格兰解读--观察性研究中的目标试验模拟——潜力与陷阱

IF13高分解读--代谢功能障碍预测阿尔茨海默病的发展：对电子病历数据的统计和机器学习分析

IF18.8nature子刊--基于树的 Explainable AI：从局部解释到全局理解

IF8.5一区解读：机器学习+老年心力衰竭合并高血压+院内死亡+多中心

IF96.2新英格兰解读--观察性研究中的目标试验模拟——潜力与陷阱

IF13高分解读--代谢功能障碍预测阿尔茨海默病的发展：对电子病历数据的统计和机器学习分析

IF18.8nature子刊--基于树的 Explainable AI：从局部解释到全局理解

IF30.8柳叶刀子刊--出生后第一年严重呼吸道合胞病毒感染的危险因素：模型的建立与验证

IF96.2新英格兰解读--观察性研究中的目标试验模拟——潜力与陷阱

IF13高分解读--代谢功能障碍预测阿尔茨海默病的发展：对电子病历数据的统计和机器学习分析

IF18.8nature子刊--基于树的 Explainable AI：从局部解释到全局理解

BMJ解读--开发临床预测模型：分步指南

IF13高分解读--代谢功能障碍预测阿尔茨海默病的发展：对电子病历数据的统计和机器学习分析

IF18.8nature子刊--基于树的 Explainable AI：从局部解释到全局理解

IF30.8柳叶刀子刊--出生后第一年严重呼吸道合胞病毒感染的危险因素：模型的建立与验证

BMJ解读--开发临床预测模型：分步指南

一区解读-风险预测模型中类别不平衡校正的危害

IF18.8nature子刊--基于树的 Explainable AI：从局部解释到全局理解

IF30.8柳叶刀子刊--出生后第一年严重呼吸道合胞病毒感染的危险因素：模型的建立与验证

BMJ解读--开发临床预测模型：分步指南

一区解读-风险预测模型中类别不平衡校正的危害

一区解读-电子健康数据模型的偏见检测和缓解策略

IF30.8柳叶刀子刊--出生后第一年严重呼吸道合胞病毒感染的危险因素：模型的建立与验证

(IF15.7)JAMA子刊：解决手术风险预测中类别不平衡的风险特异性训练队列

BMJ解读--开发临床预测模型：分步指南

一区解读-风险预测模型中类别不平衡校正的危害

一区解读-电子健康数据模型的偏见检测和缓解策略

IF14.3解读---基于多模态机器学习的标记物可实现高尿酸血症的早期检测和预后预测

IF11.1柳叶刀子刊--胰腺癌风险预测模型在美国大规模临床数据上开发和验证

(IF15.7)JAMA子刊：解决手术风险预测中类别不平衡的风险特异性训练队列

lancet子刊解读--脓毒性休克患者+血压反应指数+多中心队列研究（IF:9.7）

BMJ解读--开发临床预测模型：分步指南

一区解读-风险预测模型中类别不平衡校正的危害

一区解读-电子健康数据模型的偏见检测和缓解策略

IF11.1柳叶刀子刊--胰腺癌风险预测模型在美国大规模临床数据上开发和验证

(IF15.7)JAMA子刊：解决手术风险预测中类别不平衡的风险特异性训练队列

lancet子刊解读--脓毒性休克患者+血压反应指数+多中心队列研究（IF:9.7）

BMJ解读--开发临床预测模型：分步指南

一区解读-风险预测模型中类别不平衡校正的危害

一区解读-电子健康数据模型的偏见检测和缓解策略

新时代医疗预测模型：TRIPOD+AI声明深度解读

(IF30.8)柳叶刀子刊：机器学习+可解释+预测减肥手术后 5 年的体重轨迹+多国回顾性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉