背景:胰腺导管腺癌(PDAC)筛查可实现早期疾病检测和长期生存。目前的指南使用遗传易感性,约10%的PDAC病例适用于筛查。使用来自多机构联盟网络的电子健康记录(EHR)数据,本研究开发并验证了一种适用于美国普通人群的PDAC风险模型(Prism),以扩展早期PDAC检测。
方法:使用来自55个美国医疗机构(HCOs)的电子健康记录(EHR)数据,开发了神经网络(PrismNN)和逻辑回归(PrismLR)模型,用于预测40岁及以上患者在诊断前6-18个月的PDAC风险。使用曲线下面积(AUC)和校准图评估模型性能。通过地理位置、种族和时间进行内外部验证。模拟模型部署评估标准化发病率比(SIR)和其他指标。
结果:在35,387例PDAC病例、1,500,081例对照病例以及每个患者87个特征的情况下,PrismNN在测试中获得了0.826的AUC(95% CI: 0.824–0.828)(PrismLR: 0.800 (95% CI: 0.798–0.802))。PrismNN的平均内外验证AUC分别为0.740(地点)、0.828(种族)和0.789(95% CI: 0.762–0.816)(时间)。在模拟模型部署中,当SIR = 5.10(超过当前筛查纳入门槛)时,PrismNN的敏感性为35.9%(特异性95.3%)。
结论:Prism模型在不同人群中展现了良好的准确性和泛化能力。相较于当前的筛查指南,PrismNN能够在相当风险水平下找到3.5倍更多的病例。较少的特征数量为模型解释提供了基础。
本研究目标是通过使用来自TriNetX联合EHR数据库平台的数据开发机器学习模型,以预测患者在未来6-18个月内的诊断情况患有PDAC的风险。具体来说使用了来自55个美国医疗保健组织的回顾性去标识化的EHR数据。
在2022年11月和12月期间,本研究通过TriNetX查询获取了数据。首先,获取了PDAC病例组的数据,这些病例是由年龄在40岁及以上,且具有以下ICD-10/ICD-9代码之一的患者组成:C25.0、C25.1、C25.2、C25.3、C25.7、C25.8、C25.9和157。通过这一查询,获得了132,789例PDAC病例。然后,为了得到一个PDAC病例组(含35,387例病例),排除了年龄在40岁以下被诊断的患者(1,924例),在死亡记录两个月后有入院记录的患者(484例,可能是由于不同患者的混合记录),以及医疗史不足的患者(94,994例)。
接下来,对于对照组,查询TriNetX,获取了年龄至少为40岁且没有以上ICD-10或ICD-9代码的患者数据。该查询匹配到了51,139,587名患者,从中均匀抽样了6,499,996名患者。然后,排除了具有PDAC肿瘤登记但没有PDAC诊断记录的患者(304例),在死亡记录两个月后有记录的患者(26,783例),以及医疗史不足的患者(4,972,828例),以得到一个包含1,500,081例对照患者的对照组。
本研究训练和评估了两个模型类别,分别是神经网络(PrismNN)和逻辑回归(PrismLR)。数据被随机划分为训练集(75%)、验证集(10%)和测试集(15%)。
从 EHR 中得出了四类特征:基本特征、诊断特征、药物特征和实验室特征。基本特征有六个值,四个用于人口统计信息(年龄和性别,以及它们的存在位),两个用于临床就诊频率。上述过程生成了 5000 多个特征。为了提高可解释性,通过二进制输入掩码进行L0正则化和特征迭代,以筛选出更少的特征。模型使用 Platt 校准的变体进行校准,本研究还计算了超估几何平均值 (GMOE),即预测风险与实际风险之比的几何平均值,以进行定量校准评估。
本研究对大型联邦网络的使用通过在网络内拆分数据来实现内部-外部验证。考虑了三个属性:医疗机构(HCO)的地理位置(如果一个HCO涵盖多个地点,则为其总部),患者的种族以及训练数据的时间。对于每个属性,相应地划分数据集,在一个划分上训练模型,在另一个上进行测试。对每个内外部验证都在训练集上重复所有的模型开发步骤,包括自动特征选择。
对于基于地点和种族的验证,通过比较内外部验证模型的AUC与相应的控制模型来评估模型的泛化能力。还计算了在验证集和测试集上AUC之间的差距,作为额外的泛化性评估。接下来进一步计算地理或种族子组的AUC的I2指数,以评估模型性能的异质性。
对于时间验证,本研究选择了诊断日期的50%,60%,...,90%百分位数作为分割日期。在这些分割日期之前的数据上训练模型。使用2021年10月10日后的数据(90%百分位数)作为所有模型的测试集。由于分割日期还影响训练集的大小,使用相同数量的随机抽样病例训练控制模型。
通过模拟模型部署,采用前瞻性队列研究设计,估计模型在临床环境中的性能。在2020年4月11日之前的数据上训练模型。然后,进行了一项临床研究的模拟。当新患者在2020年4月11日之后首次满足年龄和足够医疗史要求时,定期将其纳入研究。对于每位入组患者,每90天使用模型评估他们的PDAC风险,直到没有足够的数据或患者被诊断出患有PDAC。从每位入组患者首次风险评估后的6个月开始对其进行随访,直到最后一次风险评估后的18个月,以查看他们在随访期间是否被诊断为PDAC。入组、风险评估和随访日期的选择与模型无关。基于患者在其PDAC诊断前的6到18个月内是否曾接受高危预测,计算模型性能统计数据,包括灵敏度、特异度、阳性预测值(PPV)和标准化发病率比(SIR)。
根据验证集上的89.00%,92.00%,96.60%,97.80%,99.70%,和99.95%的特异度水平选择多个高风险阈值。
AUC的置信区间使用优化版本的DeLong算法计算。敏感性、特异性等二项比例的置信区间使用精确的Clopper-Pearson方法计算。在内外部验证中,AUC均值的置信区间假定了一个高斯混合模型,以避免对全局均值的假设。地理/种族亚组的I2计算假定了一个随机效应模型,其中yi = μ + ϵi + Ei,使用I2 = (Q − (k − 1))/Q的定义。使用对数几率的AUC来计算Q统计量,以更好地匹配正态假设。使用300万次Monte Carlo模拟估计了Q的置信区间。
PrismNN和PrismLR均使用了35,387名年龄达98.1岁的癌症患者和1,500,081名对照者。PrismNN和PrismLR在九次随机运行中的平均AUC分别为0.826(95% CI: 0.824–0.828)和0.800(95% CI: 0.798–0.802)。通过引入Bootstrap,PrismNN和PrismLR的校正AUC分别为0.825(95% CI: 0.823–0.827)和0.801(95% CI: 0.799–0.804)。在九次随机运行中,平均GMOE分别为1.169(95% CI: 1.145–1.192)和0.969(95% CI: 0.945–0.993)。
图2a展示了九次随机运行中的ROC曲线,其中AUC分别为0.825(95% CI: 0.819–0.830)(PrismNN)和0.798(95% CI: 0.793–0.804)(PrismLR)。图2b展示了相应的测试集上的对数刻度校准图。GMOE分别为1.161(PrismNN)和0.982(PrismLR)。
PrismNN在不同年龄组的AUC分别为0.847(95% CI: 0.826–0.869)、0.796(95% CI: 0.787–0.806)、0.775(95% CI: 0.765–0.785)和0.797(95% CI: 0.790–0.804),对应的GMOEs分别为11.277、1.057、1.400和1.201。PrismLR的AUC分别为0.822(95% CI: 0.799–0.846)、0.767(95% CI: 0.757–0.777)、0.741(95% CI: 0.730–0.752)和0.766(95% CI: 0.759–0.773),GMOEs分别为90.107、0.804、1.253和1.068。
图3展示了所有由PrismNN评估的选定特征按其预测能力排名。模型特征包括已知的PDAC风险因素,如年龄、性别、糖尿病、胰腺炎、胰腺囊肿和腹痛;其他特征包括高血压、高胆固醇血症、肾功能和在PDAC诊断前的临床访问频率。
图4a呈现了基于地理位置的内部-外部验证结果。PrismNN在测试集上的AUC分别为0.735(95% CI: 0.730–0.741)、0.723(95% CI: 0.719–0.728)、0.747(95% CI: 0.743–0.751)和0.754(95% CI: 0.745–0.764),代表中西部、东北部、南部和西部。PrismLR的AUC分别为0.748(95% CI: 0.743–0.753)、0.748(95% CI: 0.744–0.753)、0.751(95% CI: 0.746–0.755)和0.730(95% CI: 0.720–0.740)。PrismNN在测试和对照模型之间的AUC降低在0.078和0.099之间,而PrismLR在0.049和0.072之间。四个地点的平均测试AUC分别为0.740(95% CI: 0.716–0.764)和0.744(95% CI: 0.727–0.762)对于PrismNN和PrismLR。PrismNN和PrismLR的I2指数分别为99.2%(95% CI: 86.7%–99.8%)和95.9%(95% CI: 33.5%–98.8%);图4b呈现了基于种族的内部-外部验证结果。PrismNN在测试集上的AUC分别为0.822(95% CI: 0.782–0.862)、0.835(95% CI: 0.818–0.851)、0.821(95% CI: 0.816–0.827)、0.893(95% CI: 0.839–0.947)和0.768(95% CI: 0.765–0.771),代表美洲原住民、亚洲、黑人、太平洋岛民(NHPI)和白人。PrismLR的AUC分别为0.787(95% CI: 0.745–0.829)、0.809(95% CI: 0.791–0.828)、0.803(95% CI: 0.798–0.809)、0.877(95% CI: 0.809–0.945)和0.793(95% CI: 0.790–0.796)。PrismNN在测试和对照模型之间的AUC降低在-0.067和0.018之间,而PrismLR在-0.054和0.018之间。五个种族的平均测试AUC分别为0.828(95% CI: 0.744–0.912)和0.814(95% CI: 0.740–0.888)对于PrismNN和PrismLR。PrismNN和PrismLR的I2指数分别为99.8%(95% CI: 92.9%–100.0%)和96.4%(95% CI: 2.9%–99.2%);图4c呈现了时间验证结果。模型的平均测试AUC分别为0.789(95% CI: 0.762–0.816)(PrismNN)和0.780(95% CI: 0.763–0.798)(PrismLR)。性能倾向于随着更近期的训练数据和更大的训练集而变得更好,但这种变化在统计学上并不显著。
在测试集的185,932名患者(包括7095例PDAC病例)上模拟了模型的部署,入组时间为2020年4月11日至2021年4月6日。入组时的平均年龄为61.62岁(标准差11.98)。PDAC诊断时的平均年龄为69.75岁(标准差10.37)。每位患者的随访时间为1.82年(标准差0.31)(表2)。对整个TriNetX人群的模型PPV估计范围为PrismNN为0.28%–8.62%,PrismLR为0.29%–2.88%。PrismNN和PrismLR的SIR范围分别为2.38–96.0和2.22–24.2。在随访期间,所有入组患者的SIR为1.00(95% CI: 0.98–1.01)。SIR接近1表明在TriNetX测试人群中排除患者后的PDAC发病率与美国总体人口相似。确定高危人群为SIR为5.10或以上的个体,基于PrismNN,其与35.9%的敏感性和95.3%的特异性相关。这个SIR阈值类似于目前纳入筛查计划的资格截止值。
文字 | 王倩倩
排版 | 王倩倩