IF=30.8:COX+竞争风险+XGBOOST+神经网络=预测英国普通女性10年癌症死亡率风险

文摘   2024-10-20 00:31   天津  

点击蓝字 关注我们

小编今天解读的是柳叶刀旗下的期刊——The lancet digital health (IF=30.8)上发表的一篇文章《Predicting 10-year breast cancer mortality risk in the general female population in England: a model development and validation study》,这是一项模型开发和验证研究:预测英国普通女性10年癌症死亡率风险。本研究的目标是是开发一个预后模型,准确预测非乳腺癌女性个体10年内乳腺癌死亡的风险。


01背景介绍

近几十年来,筛查乳房X光检查和改进治疗方法降低了乳腺癌死亡率。进一步减轻乳腺癌的公共卫生和社会负担可以通过分层筛查或围绕准确估计个体风险构建的预防策略来实现。风险分层早期检测可以定制筛查强度、开始年龄或方式,化疗预防方案可以使用成本效益高的制剂,如他莫昔芬或阿那曲唑。这些方法通常被设想为以风险分层方法为指导,预测癌症诊断的绝对或相对风险。

然而,乳腺癌发病率的预测风险与死亡风险的相关性可能很差或相反,筛查乳房X光检查与过度诊断有关,肿瘤亚型的侵袭性各不相同。此外,化学预防对疾病亚型有不同的影响,这些疗法是否降低乳腺癌死亡率尚不确定。目前还不存在预测基线上没有乳腺癌的女性个人的乳腺癌死亡率的模型。

这项研究试图开发一个预后模型,该模型使用一个全国性的、具有人口代表性的、相关的电子保健记录数据集,对超过1160万名女性个人的基线水平,准确预测非乳腺癌女性乳腺癌死亡的10年风险。



02材料和方法

1. 研究设计

在这项模型开发和验证研究中,使用了两种回归(COX比例风险和竞争风险)和两种机器学习方法(XGBoost和神经网络)来预测非乳腺癌女性乳腺癌死亡的10年风险。使用内部-外部验证框架对模型进行评估,我们之前应用该框架来开发和比较预测浸润性乳腺癌女性乳腺癌死亡10年风险的模型。

数据来自QResearch数据库,时间为2000年1月1日至2020年12月31日。QResearch涵盖了英国英格兰的1500多个普通诊所,与初级保健、国家医疗服务(NHS)数字医院流行病学统计(HES)、国家癌症登记和国家统计局死亡登记之间的个人层面联系。



2. 缺失数据的处理程序

在模型开发之前,对整个研究队列的数据进行了多重估算,以处理酒精摄入量、吸烟状况、BMI、汤森剥夺评分和种族的缺失数据(图1)。在随机缺失假设下,使用了链式方程的多重插补(出于计算考虑,使用了五个插补)。插补模型包括所有候选预测参数、终点指标、Nelson­Aalen累积风险估计、18和10年的队列输入。BMI值的自然对数被估算为正态性,然后在估算后进行指数化分析。在所有模型拟合和评估步骤中都使用了多重估算数据。



3. 建模策略

每个模型都适合整个队列,并使用内部-外部交叉验证来评估它们各自的表现,包括按进入十年和地理区域进行的非随机分割。

对于Cox比例风险模型,包含所有候选预测因子的完整模型是合适的。选择指数系数(即危险比[HR])大于1.1或小于0.9且p<0.01的预测因子。然后将具有这些预测因子的最终模型拟合到整个队列中。

竞争风险回归模型是使用对整个队列中估计的10年Aalen Johansen累积发病率函数的jack­knife pseudo-­observation观测结果开发的,使用具有互补对数-对数链接函数和稳健SE的广义线性模型对候选预测因子进行回归。该模型的指数系数可解释为HRs。Cox比例风险模型使用了相同的预测因子选择标准,Rubin’s rules也使用了该标准来组合各输入的结果。

对于基准测试,通过比较风险回归选择的预测因子被包括在机器学习模型中。XGBoost和神经网络模型使用伪观测作为连续的结果变量,能够在竞争风险的环境中处理经过审查的事件时间数据。

由于目标变量是连续的,预测和观测伪观测值之间的均方根误差被用作损失函数。在整个数据集上使用贝叶斯优化的5折交叉验证(使用预期改进获取函数)进行超参数调整,以确定最优配置,以将均方根误差降至最低。



4. 内部-外部交叉验证的效果评估

    使用IECV过程中产生的预测来评估模型的性能(图1)。

通过将10年的基线生存函数与线性预测因子相结合来计算COX模型的预测风险。对于竞争风险回归模型,使用线性预测器(包括常量)的以下变换来计算预测的事件概率:1-EXP(-EXP(Xβ))。基于贝叶斯优化的机器学习模型超参数整定在IECV中得到了概括。这种嵌套的交叉验证策略避免了同时使用相同的数据进行调优和评估。

    校准斜率描述了预测风险的扩散以及它们是否过于极端,理想值为1。校准在较大程度上衡量了模型是否系统性地高估或低估了风险,理想值为0。C-index是一个介于0.5-1之间的辨别指标,值为1意味着有事件发生的人和没有事件发生的人之间的完美分离。对于竞争风险回归和机器学习模型,C-index通过截尾的逆概率进行加权。

    为了理解社会相关群体中模特表现的异质性,IECV得出的预测用于估计特定种族和特定年龄组的绩效指标。英国乳腺筛查政策告知年龄组:筛查前(20-49岁)、筛查后(50-70岁)和筛查后(>70岁)。随机效应元回归估计了年龄、BMI、贫困和种族多样性(非白人个体的百分比)的地理差异对模型性能的区域间异质性的影响。

    平滑的校准图可视化了预测风险范围内的模型校准。决策曲线分析比较了每个模型的总体净收益和每个模型按年龄组的净收益,考虑了其他原因造成死亡的竞争风险。模型敏感性通过预测风险分布的不同临界点内捕获的癌症乳腺癌死亡比例进行评估。



03结果

1.基线分析

在排除有记录的既往或当前癌症病史(n=152 870)或导管癌原位诊断(n=5409)的女性个体后,最终研究队列包括11 626 969名女性。在70095574人年的随访中,有142 712例(1.2%)乳腺癌症诊断,24043例(0.2%)乳腺癌症相关死亡,696106例(6.0%)其他原因死亡。队列研究的中位随访时间为3.74年(范围为0.003-2060),平均随访时间为6.03年(标准差5.90)。在限制为10年的随访(即预测范围)后,在55104482人年内,有13 062例(0.1%)乳腺癌症相关死亡(每10 000人年粗死亡率2.37[95%CI 2.33–2.41])。

在时间上不同的亚队列中,第1期有7999例乳腺癌死亡(死亡率为2.66[2.60-2.72]/1万人年),第2期为2712例(1.54[1.49-1.60]/1万人年)。



 2. 模型的构建

最终的COX模型包括13个预测因素:年龄、BMI、良性乳腺疾病、既往肺癌、既往血液病、吸烟状况、1型糖尿病、2型糖尿病、慢性肾病、慢性肝病、脉管炎、精神病和抗精神病药物使用。

     最终的竞争风险回归模型包括11个预测因素:年龄、BMI、过去使用雌激素替代疗法、过去使用联合激素替代疗法、乳腺癌家族史、吸烟状况、缺血性心脏病、血管炎、选择性5-羟色胺再摄取抑制剂的使用,以及影响年龄和乳腺癌家族史的分数多项式项之间的相互作用。

竞争风险回归模型具有最高的区分度,Harrell’s C-index为0.932(95%CI 0.917-0.946;95%预测区间0.886-0.977),而神经网络模型最低(Harrell’s C-index为0.771,0.751-0.792;0.718-0.792;表2)。COX、竞争风险和XGBoost模型在汇总指标上没有任何明显的错误校准,但神经网络有,尽管程度很小。


3.校准曲线

在校准图(图3)上,所有模型都倾向于在预测风险谱的最高范围内高估;Cox模型的错误校准开始于比其他模型更低的范围。所有模型也倾向于高估预测风险最高的个体(例如,>10%的10年风险);对于竞争风险模型,高估的趋势似乎发生在风险阈值0.015以上,这代表了0.7%的个体。

    回归模型在种族亚组中总体上具有很好的区分性,尽管有些置信区间分布范围较广。除了与其他亚洲亚组的竞争风险模型有一些误校外(斜率1·252,95%可信区间1·075-1·428),这些模型在大多数种族群体中总体上都得到了良好的校准。XGBoost和神经网络方法在不同种族群体中的表现更不一致,例如在黑人女性个体中两种模型的辨别能力较差(XGBoost的Harrell‘s C:0.569,95%CI 0·418-0.720;神经网络:0.623,0.469-0.776)。这些结果与Harrell‘s C结果进行了比较,XGBoost为0.863(95%CI为0.847-0.880),白人女性的神经网络模型为0.788(0.767-0.809)。

    在各年龄组中观察到更复杂的表现模式。尽管Cox模型通常比XGBoost和神经网络模型更好地区分不同年龄组,但它在筛查前年龄组(斜率1.771,95%CI 1.558至1.954)和筛查后年龄组(0.120,-0.108至0.349)中被错误校准。机器学习模型在筛查前年龄组的辨别力较差(例如,XGBoost的Harrell‘s C为0.404,95%CI为0.359至0.449)。竞争风险回归模型在任何年龄组都没有显示任何误判;由于年龄范围有限,差异低于IECV的总体指标(表2),但在筛查前和筛查后年龄亚组的所有模型中最高。每个模型中预测风险最高的1%至少占所有癌症死亡的8%,每个模型中预计风险最高的10%至少占所有癌症死亡的49%,这表明存在潜在的人群分层。



4.DCA决策曲线

决策曲线分析显示,与其他模型相比,神经网络模型的净收益最低。与临床上不现实的筛查或全部治疗策略相比,所有其他模型都有类似或更好的净收益关联。回归模型与筛查前年龄亚组中个体的净收益改善相关,而竞争风险模型与筛查后年龄亚组的最佳净收益相关。

    关于将种族作为预测因素的模型,总体绩效指标通常与不将种族作为预测器时获得的结果相似。包括种族的Cox比例风险模型的Harrell’s C指数为0.885(95%CI 0.842-0.867,95%预测区间:0.821-0.888),而Cox模型的Harrrell’s C指数为0.854(0.842-0.865,0.822-0.885)。




04总结

总结:

总之,本研究探索了四个模型来预测目前未患癌症的女性患癌症10年的死亡率。竞争风险回归模型被认为是临床上最有用的。准确的工具可以识别出患危及生命的乳腺癌风险增加的女性个体,可以有效地针对最有可能从化学预防、新的筛查方法或招募到试验中受益的个体。这项研究提供了有关新模型统计性能的证据,但使用该模型(以及应使用的方法)为基于风险的筛查或预防提供信息的临床效果需要进一步评估。该模型的实施需要进一步的评估,包括外部验证,在英格兰以外的地区使用需要当地验证。未来的工作应包括健康经济建模,以确定根据竞争风险制定的成本效益干预策略。

小编点评:

文章的方法还是比较简单的,主要使用了四种模型(COX回归模型、竞争风险模型、以及两种机器学习模型——XGBOOST和神经网络)进行对比,文章的主要优势是包括大样本量、使用关联数据集来确定预测因素和结果以及评估策略。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】还在用“逐步回归”做特征筛选?这个平台为你提供更多方法!!

【2】开学季活动即将开放兑奖,开团即能极智分析v2会员带上你的科研伙伴快来参与!

【3】【新功能】极智分析平台帮你一键生成SCI论文

【4】因文中出现了ChatGPT的提示词而撤稿的SCI论文,AI加速学术不端问题的恶化

【5】全院级临床科研服务-极智分析离线版V2.0

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



灵活胖子的科研进步之路
医学博士,R语言及Python爱好者,科研方向为真实世界研究,生信分析与人工智能研究。
 最新文章