开发临床预测模型:分步指南
每年都会发布许多预测模型,但它们通常存在方法上的缺陷,限制了其内部有效性和适用性。已经制定了 13 步指南,以帮助医疗保健专业人员和研究人员开发和验证预测模型,避免常见的陷阱
第一步,应定义预测模型的目标,包括目标人群、要预测的结果、将使用模型的医疗保健环境、预期用户以及模型将告知的决策
预测建模需要团队内部的协作和跨学科努力,理想情况下,团队包括具有内容专业知识的临床医生、方法论者、用户和具有生活经验的人
常见的陷阱包括连续结果或预测因子的不适当分类、数据驱动的临界点、单变量选择方法、过度拟合以及缺乏对缺失数据的关注以及对性能和临床益处的合理评估。
表 1预测建模中使用的关键术语和概念的词汇表
目标定义
我们应该首先明确定义设想的预测模型的目的。特别是,明确确定以下内容非常重要:
目标人群 - 模型应该为谁预测?例如,南非的 HIV 感染者;有糖尿病病史的人;西欧的绝经后妇女。
感兴趣的运行状况结果 — 需要预测的终端节点是什么?例如,AIDS、总生存期、无进展生存期、特定不良事件。
医疗保健环境 - 如何使用该模型?例如,该模型可能用于初级保健或在三级保健的临床决策支持系统中实施。
用户 — 谁将使用该模型?例如,初级保健医生、二级保健医生、患者、研究人员。
模型将告知的临床决策 - 如何在临床决策过程中使用模型预测?例如,模型可用于识别患者以进行进一步的诊断调查,决定治疗策略,或为一系列个人决策提供信息。
这些问题的答案应指导后续步骤;他们将告知各种问题,例如模型中应包含哪些预测因子、使用哪些数据来开发和验证模型以及如何评估其临床实用性。
创建团队
在开发用于临床的预测模型时,强烈建议组建一个具有特定医学领域专业知识、统计方法和源数据的团队。包括用户(即可能使用该模型的临床医生和具有生活经验的人)也是有益的。根据模型的复杂程度,可能需要在项目的后期阶段让软件开发人员参与进来;也就是说,开发一个 Web 应用程序供用户进行预测。
文献综述
确定相关已发表的预测模型和关于重要风险因素的研究至关重要,这可以通过范围界定审查来实现。与临床医生讨论综述的结果将有助于我们了解已建立的预测因子和现有模型的局限性。文献综述还可能提供有关预测变量之间的交互作用、预测变量和结果之间的非线性关联、缺失数据的原因以及预测变量在目标总体中的预期分布的信息。在某些情况下,进行系统评价可能会有所帮助。
根据特定领域,文献回顾可能会显示已经存在相关的预测模型。假设一个现有的模型具有较低的偏倚风险(根据PROBAST15评估),并且适用于研究问题。在这种情况下,评估其在预期设置中的有效性可能比开发一个新模型更合适。这种方法被称为外部验证(表1)。根据验证结果,可能会决定更新并调整模型,以适应预期使用的人群和设置。更新预测模型的常见策略包括重新校准(例如,在回归模型中调整截距项)、修订(即,重新估计一些模型参数)和扩展(即,增加新的预测因子)。虽然更新策略主要针对回归模型进行了描述,但它们也可以应用于机器学习。例如,使用随机森林模型来预测中风患者在事件发生后90天内是否会完全康复。当在外部数据集上进行测试时,该模型需要重新校准,这是通过拟合逻辑回归模型到随机森林的预测结果来完成的。用于成像数据的预测模型通常是通过使用称为迁移学习的过程来微调先前训练的神经网络来开发的。
关于外部验证和模型更新的进一步指导可在其他地方找到,包括外部验证的样本量考虑。在接下来的步骤中,我们专注于开发一个新模型;我们在第9步简要回顾外部验证。
结果可以通过多种方式定义和衡量。例如,术后死亡率可以用 30 天、60 天或生存时间的二元结果来衡量。使用事件发生时间而不是二进制变量是很好的做法;事件发生时间的预测模型可以更好地处理在有限时间内被随访但未体验到感兴趣结果的人。此外,事件发生时间数据比仅在一个时间点的二元结果提供更丰富的信息(例如,任何时间点的生存概率)。同样,我们可以使用连续量表或在二分法或分类后分析连续的健康结果。例如,开始药物治疗后第 8 周的持续抑郁评分可以分为缓解或不缓解。对连续结果进行分类会导致信息丢失。此外,分类阈值的选择通常是武断的,缺乏生物学依据。在某些情况下,阈值是在探索各种截止点并选择最适合数据或产生统计显著性结果的阈值后选择的。这种数据驱动的方法可能会导致新数据的性能降低。
候选预测变量
我们应该根据文献综述和专家知识确定潜在的预测因子(第 1 步)。与感兴趣的结果一样,理想情况下,它们应该使用既定的、可靠的方法进行客观定义和衡量。了解可能支持预测因子与结果之间关联的生物途径是关键。应优先纳入已证实或怀疑与结局有因果关系的预测因素;此方法可能会提高模型的泛化性。另一方面,不存在因果关系不应先验地排除潜在的预测因子。与结果没有因果关系但与结果密切相关的预测变量可能仍然有助于模型性能,尽管它们对不同设置的泛化能力可能不如因果因素。此外,我们必须仅包括基线预测因子;即,做出预测时可获得的信息。对连续预测变量进行二分法或分类会减少信息并削弱统计能力,应避免使用。与结果分类类似,我们建议在测试了预测因子的几个分类阈值后,不要做出数据驱动的事后决策。换句话说,我们不应该仅仅根据相关的模型性能来选择连续结果的类别。
考虑预测模型的用户
考虑模型的预期用途(在步骤 1 中定义)和数据的可用性至关重要。哪些变量在临床实践中常规测量,哪些变量在数据库中可用?与它们的测量相关的成本和实际问题是什么,包括侵入性程度?例如,退伍军人老龄化队列研究指数 (VACS 指数 2.0) 预测 HIV 感染者的全因死亡率。然而,它的一些预测因子,例如肝纤维化指数 (FIB-4),在许多 HIV 感染高发地区的常规实践中不可用。同样,一项对多发性硬化症预后模型的系统评价发现,75 个模型中有 44 个 (59%) 包含不太可能在初级保健或标准医院环境中测量的预测因子。
数据采集
理想情况下,预测模型是使用为此目的设计的前瞻性队列研究中的个体参与者数据开发的。在实践中,使用队列研究的现有数据或未为此目的明确收集的其他数据来开发预测模型更为常见。也可以使用来自随机临床试验的数据。试验数据的质量通常很高,但模型的普遍性可能有限,因为试验参与者可能无法代表临床实践中观察到的患者。例如,一项研究发现,只有大约 20% 的精神分裂症谱系障碍患者有资格参加典型的随机临床试验。与符合条件的患者相比,不符合条件的患者因精神病入院的风险更高。因此,基于试验数据的预测模型可能会低估现实世界的住院风险。注册表数据提供了一种简单、低成本的替代方案;它们的主要优点是相对较大的样本量和代表性。然而,缺点与数据限制有关,例如相关预测因子或结果的数据不足,以及测量时间的可变性。
数据错误
在拟合模型之前,解决预测变量和结果中的潜在错误分类或测量错误至关重要。这涉及考虑收集的变量的性质以及用于测量或分类的方法。例如,身体活动或饮食摄入量等预测因子容易出现各种测量误差来源。这些误差的程度可能因设置而异,例如,由于所使用的测量方法不同。这意味着模型的预测性能和潜在有用性可能会降低。如果认为测量误差的风险很高,我们可能会考虑替代结果测量或从步骤中创建的列表中排除不太重要、测量不精确的预测因子。特别是,如果数据集中的系统误差与临床实践中遇到的系统误差不符,则模型的校准效果可能很差。虽然已经提出了纠正测量误差的方法,但它们通常需要额外的数据和假设。4
变量分布和缺失数据
在检查了它们在数据集中的分布后,建议排除变异有限的预测变量,因为它们的贡献很小。例如,如果年龄范围为 25 到 45 岁,并且预计结果在此范围内不会发生太大变化,则应从预测变量列表中删除年龄。同样,二元预测因子可能只存在于少数人中。在这种情况下,我们可能会考虑将其从模型中删除,除非之前有证据表明这是一个强预测因子。当已知低患病率的变量具有有意义的预测价值时,会出现更多的并发症。例如,罕见的基因突变可能与结果密切相关。模型中可以省略该突变,因为它的效果很难准确估计。或者,可以排除少数具有突变的人,使该模型仅适用于没有突变的人。另一个问题是一些参与者的预测变量和结果数据不完整。根据缺失数据的普遍性,我们可能希望修改结果或排除某些候选预测变量。例如,我们可能会省略一个具有许多缺失值的预测变量,尤其是在几乎没有证据表明其预测能力并且插补缺失数据具有挑战性的情况下(步骤 7);也就是说,当无法使用观测数据可靠地预测缺失值时。相反,如果可以估算缺失信息,我们可能会决定保留变量,特别是当有现有证据表明预测变量很重要时。
关于样本量的一般注意事项
一个非常简单的模型或基于与结果无关的协变量的模型在用于开发它的数据和新数据中表现不佳;这种情况称为欠拟合。相反,在小型数据集中开发具有太多预测因子(过拟合)的模型可能在此特定数据集中表现良好,但无法在新数据中准确预测。在实践中,过拟合比欠拟合更常见,因为数据集通常很小且事件很少,并且存在创建具有最佳(明显)性能的模型的诱惑。因此,我们必须确保数据足以开发包含相关预测因子的稳健模型。
计算特定模型的样本量要求
Riley 及其同事提供有用的指导和代码在样本量计算中。用户需要指定目标人群中的总体风险(对于二元结
计算固定样本量的模型参数
假设样本量是固定的或基于现有研究,这通常是这种情况。然后,我们应该执行样本量计算,以确定我们可以包含在模型中的最大参数数。指导模型开发的结构化方法可以总结如下:
在给定可用样本量的情况下,计算模型中可以包含的最大参数数。
通过包括列表中的预测因子,从被认为更重要的预测因子开始,按顺序使用可用参数。
请注意,在列表中包括预测变量之间的非线性项或交互作用时,将需要其他参数。
关于缺失数据的一般注意事项
如步骤 5 中所述,在删除具有许多缺失值的预测变量或结果后,我们可能仍需要解决保留数据中的缺失值。仅依靠完整个案进行模型开发(即具有所有变量数据的参与者)可以显著减少样本量。为了减少模型开发和评估过程中有价值信息的损失,研究人员应考虑插补缺失数据。
缺失数据的插补
多重插补是通常推荐用于在模型开发过程中处理缺失数据的方法,并适当地考虑了缺失数据的不确定性。创建了原始数据集的多个版本,每个版本都使用插补模型插补了缺失值。插补模型应与我们将用于进行预测的最终模型相同(就包含的预测因子、它们的转换和交互而言)。此外,插补模型可能涉及与缺失数据关联的辅助变量,这可以提高插补的有效性。一旦我们创建了估算数据集,我们必须决定是否在模型开发中包括具有估算结果的参与者。如果在插补中未使用辅助变量,则可以删除具有插补结果的人,并且可以仅根据具有观察到结果的人开发模型。但是,如果插补包含辅助变量,则建议在模型开发中包括那些具有插补结果的变量。多重插补的更简单替代方法是单次插补,即使用回归模型将每个缺失值仅插补一次。Sisk 及其同事表明,单次插补可以表现良好,尽管多重插补往往更加一致和稳定。
在第 4 步中,我们指出模型应包括在实践中可用的预测变量。但是,即使缺少某些预测变量,例如,在较低级别的护理中使用模型时,我们也可能希望使模型可用。例如,即使全科医生没有输入有关血压变异性(重复读数的标准差)的信息,也可以使用 QRisk3 工具来预测心血管疾病。当预测到在临床实践中使用过程中会丢失数据时,我们可以在开发和实施阶段插补数据。在这种情况下,可以在模型开发和模型使用期间使用单个插补。
Ιmputation 方法不是万能的,并且可能会失败,通常是当结果缺失的趋势与结果本身相关时。例如,如果治疗成功,接受新治疗的患者可能更有可能错过随访,从而导致数据缺失。在这种情况下,开发预测模型需要额外的建模工作,这超出了本教程的范围。
建模策略
应在协议中指定模型开发策略(步骤 5)。连续结果的线性回归、二元结果的 logistic 回归以及生存结果的 Cox 或简单参数模型是建模的通常起点。如果样本量足够大(请参阅步骤 6),则模型可以包含连续预测变量或预测变量之间的交互作用的非线性项。也可以使用更高级的建模策略,例如机器学习模型(例如,随机森林、支持向量机、提升方法、神经网络等)。如果预测变量之间存在很强的非线性和交互作用,这些策略可能会增加价值,尽管它们不能免受偏差的影响。如第 10 步所述,如果探索了多种建模策略,则需要选择最终策略。
处理竞争事件
在预测二元或事件发生时间结果时,我们应该考虑是否存在相关的竞争事件。当存在多种可能的结果,但一个人只能经历一个事件时,就会出现这种情况。例如,在预测乳腺癌死亡时,其他原因导致的死亡是一个竞争事件。在这种情况下,尤其是当竞争事件很常见时,我们应该使用竞争风险模型进行分析,例如特定原因的 Cox 回归模型。一种更简单的方法是分析复合结果。
数据驱动变量选择方法
我们建议不要使用单变量选择方法,即单独检验每个预测变量并仅保留统计显著性预测变量的方法。这些方法不考虑预测变量之间的关联,并可能导致有价值的信息丢失。通常使用变量选择的逐步方法(例如,向前、向后或双向变量选择)。同样,不建议使用它们,因为它们可能会导致估计偏差和预测性能变差。如果需要变量选择(例如,通过进一步减少预先确定的预测变量的数量来简化模型的实现),则可以使用更合适的方法,如下所述。
模型估计
向模型添加罚项(称为罚项、正则化或收缩的过程;请参阅表 1) 以控制模型的复杂性并防止过拟合。与最大似然估计相比,岭、LASSO(最小绝对收缩和选择运算符)和弹性网等惩罚方法通常会导致系数的绝对值更小,也就是说,它们将系数收缩到零。LASSO 和弹性网可用于变量选择(类似于上述方法)。这些模型可能会通过将预测因子的系数设置为零来排除某些预测因子,从而获得更易解释且更简单的模型。机器学习方法通常还嵌入了惩罚。惩罚与 中描述的偏差-方差权衡密切相关图 1,并且是一种旨在使模型更接近偏差-方差权衡曲线的最佳点的方法,其中模型在新数据中的性能最大化(请注意,该图不包括对双下降现象的描述)。尽管惩罚方法有优点,但它们并不能解决与小样本量相关的所有问题。虽然这些方法通常优于标准估计技术,但它们在小型数据集中可能不稳定。此外,它们的应用并不能确保提高预测性能。
在模型开发中处理乘法插补数据
如果使用多重插补,我们必须将每种建模策略应用于每个插补数据集。因此,如果有 m 个插补数据集,则将为每个建模策略开发 m 个不同的模型。在预测结果时,需要组合这些 m 模型。有两种方法可以实现此目的。第一种方法使用 Rubin 规则这适用于简单的回归模型。对 m 个模型的估计参数进行平均,得到最终的一组参数,然后可用于预测新人的结果。然而,这种方法对于模型选择策略(例如,LASSO)来说并不简单,因为 m 拟合模型可能选择了不同的参数集。因此,将它们组合在一起变得更加复杂。Rubin 规则可能不适用于机器学习方法,因为 m 模型可能具有不同的架构。组合 m 模型的另一种方法是使用它们对新人进行预测,然后平均这些 m 预测。该过程在概念上类似于机器学习中的堆叠。
评估模型性能的一般概念
我们评估了第 8 步中探索的建模策略的预测性能。具体来说,我们将预测与数据集中人们的观察结果进行对比,以计算绩效指标。对于血压等连续结果,这很简单:观察到的结果可以直接与预测进行比较,因为它们处于相同的尺度上。在处理二元或生存结果时,情况变得更加复杂。在这些情况下,预测模型可能会给出每个人发生事件的概率,而观察到的结果是二元的(事件或无事件)或涉及事件发生时间数据并删失。因此,需要更高级的方法。
预测性能的维度
预测性能有两个维度,必须同时评估这两个维度,特别是对于二元和生存结果(参见表 1).
鉴别 — 对于连续结果,判别是指模型区分具有不同结果的患者的能力:良好的鉴别意味着预测值较高的患者也具有较高的观察结果值。对于二元结果,良好的区分意味着该模型将高风险人群与低风险人群区分开来。对于事件发生时间结果,歧视是指模型根据患者的生存率对患者进行排名的能力;也就是说,预测存活时间更长的患者存活时间更长。
校准与观测结果值和预测结果值之间的一致性有关。80 81对于连续性结果,良好的校准意味着预测值不会系统性地高估或低估观测值。对于二元和生存结果,良好的校准意味着模型不会高估或低估风险。
在评估预测模型时,判别和校准是必不可少的。通过准确区分风险级别,模型可以具有良好的区分能力,但由于预测概率和观测概率不匹配,因此校准效果仍然很差。此外,校准良好的模型可能具有较差的辨别力。因此,稳健的预测模型应该具有良好的区分和校准能力。方框 1 概述了评估模型性能的措施。
模型验证
我们应该使用哪些数据来评估预测模型的性能?最简单的方法是使用与模型开发相同的数据集;这种方法将返回所谓的表观模型性能(apparent validation)。但是,此策略可能会高估模型的性能 (图 1);也就是说,它可能会导致错误(乐观)的评估。乐观是预测建模中的一个重要问题,当样本量较小且模型复杂时尤其相关。因此,使用更适当的验证程序评估模型性能至关重要。正确的验证对于确定预测模型的泛化性(即其可重复性和可移植性)至关重要。可重复性是指模型对来自同一人群的新患者产生准确预测的能力。可运输性是指对来自不同但相关人群的新患者进行准确预测的能力。下面,我们描述了模型验证的不同方法。
内部验证
内部验证侧重于可重复性,具体目的是确保使用开发数据集对模型性能的评估是诚实的,这意味着乐观不会影响它们。在内部验证程序中,我们使用与用于开发模型的患者群体相同的患者群体的数据,并尝试在避免乐观的同时评估模型性能。验证必须遵循模型开发的所有步骤,包括变量选择。
最简单的方法是拆分样本方法,其中数据集随机分为两部分(例如,70% 的训练和 30% 的测试)。但是,这种方法存在问题,因为它会浪费数据并降低统计功效。当应用于小型数据集时,它可能会创建两个数据集,这两个数据集都不足以进行模型开发和评估。相反,对于大型数据集,它几乎没有什么好处,因为过拟合的风险很低。此外,它可能会鼓励研究人员重复该程序,直到获得满意的结果。另一种方法是根据患者入组的日历时间拆分数据。例如,我们可能会使用早期的数据开发模型,并在以后入组的患者中进行测试。此过程 (临时验证)可能会告知我们模型性能的可能时间趋势。但是,用于分割数据的时间点通常是任意的,较旧的数据可能无法反映当前的患者特征或医疗保健。因此,不建议在开发阶段使用此方法。
更好的方法是 k 折交叉验证。在这种方法中,我们将数据随机划分为 k 个(通常为 10 个)子集(折叠)。该模型是使用其中的 k-1 个折叠构建的,并在剩余的 1 个折叠上进行评估。重复此过程,循环遍历所有折叠,以便每个折叠都可以成为测试集。在每个周期中测量模型的性能,然后将 k 个估计值组合并汇总以获得最终的性能度量。Bootstrapping 是另一种方法,可用于计算任何模型的 Optimism 和 Optimism Corrected 性能度量。方框 2 概述了该程序。Bootstrapping 通常会带来更稳定和更少偏差的结果,因此建议进行内部验证。但是,当需要对缺失数据进行多次插补时,实现 k 折交叉验证和引导可能在计算上要求很高。
评估模型的预测是否可靠的另一种方法是检查模型的稳定性。模型不稳定意味着开发数据集中的微小变化会导致生成的模型结构发生较大变化(模型参数估计值、包含的预测变量等的重要差异),从而导致预测和模型性能发生重要变化。Riley 和 Collins 描述了如何在模型开发阶段使用 bootstrap 方法评估临床预测模型的稳定性。在多个 bootstrap 样本中重复模型构建过程,以创建大量模型。然后将这些模型的预测与原始模型预测进行比较,以研究可能的不稳定性。
内部-外部验证
另一种方法是 internal-external 或 leave-one-out 交叉验证。这种方法涉及根据特定变量(例如,不同的研究、医院、全科实践、国家)将数据划分为多个集群,然后迭代地使用一个集群作为测试集,同时在其余集群上训练模型。与 k 折交叉验证一样,每个集群都会重复此过程,并在最后总结性能结果。与 k 折交叉验证相比,内部-外部验证可以提供有关模型对新环境和人群的泛化程度的宝贵见解,因为它考虑了不同集群之间的异质性。例如,HIV 患者的预测模型是根据科特迪瓦、南非和马拉维的治疗计划的数据开发的,并使用 leave-one-country-out 交叉验证进行验证。
请注意,尽管所有内部和外部验证方法都包括某种形式的数据拆分,但最终模型应使用来自所有患者的数据开发。此策略与下面概述的外部验证方法形成对比。
Εxternal 验证
外部验证需要在一组新患者(即未用于模型开发的患者)上测试模型。假设模型显示出良好的内部效度,在考虑在临床实践中实施之前,外部验证研究是确定模型可移植性的下一步。模型在外部验证的设置越多、越多样化,它就越有可能泛化到新的设置。外部验证研究可能指示模型在新设置中使用之前需要更新。一种常见的情况是,模型的鉴别力在新设置中足够,并且随着时间的推移相当稳定,但校准在设置中不理想或随着时间的推移而恶化(校准漂移)。例如,EuroSCORE 是 1999 年开发的一个模型,用于预测接受心脏手术的患者的住院死亡率。使用 2001 年至 2011 年的数据,EuroSCORE 显示始终高估死亡率,并且其校准随着时间的推移而恶化。在这种情况下,可能需要更新模型(步骤 2)。
在模型开发中包含外部验证是一个争论的话题,某些期刊强制要求将其发表。但是,一次成功的外部验证并不能建立到许多其他设置的可移植性,而这样的要求可能会导致选择性地报告验证数据。因此,我们的观点(与最近的建议相呼应) 的定义是,在模型开发时,应将外部验证研究与模型开发分开。外部验证研究最好由未参与原始模型开发的独立研究人员进行。有关外部验证方法的指导,请参阅步骤 2 中引用的参考文献。
现在是时候根据内部和外部验证性能指标(可能还有稳定性评估)来选择最终模型了。如果不同的建模策略执行相似,我们可能需要选择更简单的模型(与 Occam 剃刀原理相关).例如,逻辑回归的性能类似于用于区分年轻人 1 型和 2 型糖尿病的优化机器学习模型。在这种情况下,我们更喜欢回归模型,因为它更简单、更容易沟通和使用。
预测模型可能具有很强的区分力并经过良好校准,但其价值取决于我们打算如何在临床实践中使用它。虽然准确的预测模型在为患者提供可能的结果咨询方面很有价值,但确定其在指导决策中的效用就不那么简单了。决策分析方法可用于评估是否应在实践中使用预测模型,方法是考虑预期的收益、风险和成本,从而整合和量化其临床影响。例如,英国国家卫生与临床优化研究所 (NICE) 建议,如果根据 QRISK3 风险计算器预测的 10 年心肌梗死或卒中风险为 10% 或更高(临界阈值概率),则进行降胆固醇治疗。假设是,治疗一名在 10 年内会经历心血管事件的患者的益处超过了治疗另外 9 名不会受益的患者所产生的危害和成本。换句话说,假设不治疗一名会发生该事件的患者所造成的伤害比治疗一名不需要该事件的患者的后果大 9 倍。
净获益将决策策略(例如,根据预测模型决定支持或反对治疗)的利弊放在同一尺度上,以便进行比较。我们可以计算在特定截止阈值下使用模型的净收益(例如,QRISK3 风险计算器为 10% 的风险)。净收益的计算方法是:预期真阳性百分比减去预期真阴性百分比,再乘以由所选截止阈值确定的权重。我们通过绘制模型在一系列被认为具有临床相关性的临界阈值上的净收益来获得决策曲线。我们可以将基于模型做出决策的好处与替代策略(例如治疗所有人或不治疗任何人)进行比较。我们还可以比较不同的模型。决策阈值的选择可能是主观的,合理阈值的范围将取决于设置、条件、可用的诊断测试或治疗以及患者的偏好。阈值越低,我们愿意接受的不必要的测试或干预就越多。值得注意的是,决策曲线分析可能表明,尽管模型具有出色的预测能力,但在实践中没有用。
决策曲线的解释存在几个陷阱。最重要的是,决策曲线无法确定应该在什么阈值概率下使用模型。此外,由于模型的预测性能会影响决策曲线,因此决策曲线可能会受到乐观情绪的影响。因此,在通过决策曲线评估其临床有用性之前,应确定模型的良好预测性能(在内部验证中和乐观校正后)。此外,可以使用交叉验证方法获得曲线。Vickers 及其同事提供了解释决策曲线分析的有用分步指南,以及一个包含软件教程和其他资源的网站。下面的多发性硬化症示例包括决策曲线分析。
在预测建模中,主要关注点通常不是评估单个预测因子的重要性;相反,目标是优化模型的整体预测性能。尽管如此,识别有影响力的预测因子可能很有趣,例如,在评估是否可能将新的生物标志物作为常规测量时。此外,一些预测因子可能是可修改的,如果它们与结果的关联是因果关系,则它们可能会在预防中发挥作用。因此,作为附加的可选步骤,研究人员可能希望评估所包含预测变量的预测能力。
查看(广义)线性回归模型中的估计系数是评估不同预测因子重要性的简单方法。但是,当不满足线性回归的假设时(例如,当存在共线性时),这些估计可能不可靠。但是,请注意,多重共线性不会威胁到模型的预测性能,只是在解释系数时。另一种评估预测变量重要性的方法(也适用于机器学习模型)是拟合有和没有此预测变量的模型,并注意模型性能的降低;省略更重要的预测变量将导致性能降低幅度更大。更高级的方法包括 permutation importance 算法和 SHAP(Shapley 加法解释);我们在这里不讨论这些。
无论我们选择哪种方法来评估预测因子的重要性,我们都应该谨慎地解释;数据中看到的关联可能不反映因果关系(例如,参见“表 2 谬误”).需要进行彻底的因果推理分析,以建立预测因子和结果之间的因果关联。
祝贺!我们开发了一个临床预测模型!现在,是时候写论文并详细描述过程和结果了。TRIPOD 报告指南和检查清单(或者,对于聚集数据集,为 TRIPOD 群集) 来确保论文中涵盖了所有重要方面。如果可能,文章应报告完整的模型方程,以允许可重复性和独立的外部验证研究。软件代码和理想情况下,数据应该免费提供。此外,我们必须确保我们在步骤 1 中定义的用户可以访问该模型。尽管这应该是不言而喻的,但在实践中,通常没有办法使用已发布的模型来做出实际预测;例如,Reeve 及其同事发现,由于没有提供模型系数、工具或说明,已发布的多发性硬化症模型中有 52% 无法在实践中使用。
向用户提供模型的不同方法(包括评分系统、图形评分图、列线图以及网站和智能手机应用程序)的优缺点已在其他地方进行了综述。更简单的方法更易于使用,例如,在查房时,但可能需要通过删除一些预测变量或对连续变量进行分类来简化模型。用户输入预测变量值的在线计算器(例如,在 R 中使用 Shiny 的 Web 应用程序)可以基于整个模型而不会丢失信息。但是,如果可公开访问,计算器可能会被不适合的人滥用,或者如果模型未能显示任何临床价值(例如,在随后的外部验证中)。通常,应始终与用户讨论表示和实现,以满足他们的需求(在步骤 1 中定义)。
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
详情联系助教小董咨询(微信号aq566665)