本文为研究手稿,具体参考杜柯瑾, 谷鸿秋. 临床预测模型开发与验证的统计分析思路及图表概述[J/OL]. 中国卒中杂志, 2024, 19 (5): 506.
近年来,预测模型已被广泛应用于临床实践和医学研究中,在疾病的预防、诊断、治疗及预后等方面发挥重要作用。尽管已涌现出许多备受关注的预测模型 [1-4],但报告质量参差不齐仍是现在面临的主要问题之一[5-7]。临床预测模型研究报告指南《个体预后与诊断的多变量预测模型透明报告》(TRIPOD) [8]中,虽然详细列出了需要报告的内容,却未提供统计图表思路和规范。因此,本文将对临床预测模型开发和验证中的统计图表做简要介绍,以期为广大研究者的后续相关研究提供借鉴。
综合 TPIPID 报告规范、诸多已经发表的临床预测模型实例,以及我们的研究经验,我们将临床预测模型的图表分为描述基本信息、报告模型信息、评价模型表现以及展现应用模型四个方面,并配以统计图表模板和解读,以方便读者理解掌握。
1 描述基本信息
类似于临床研究,预测模型报告的第一步是清晰的阐述以下内容:多少人参与筛选?纳入研究的标准是什么?最终纳入了多少对象?纳入的对象都具有什么特征?发生结局的比例有多高?这些问题通常通过研究流程图和基本信息描述表来回答。但与临床研究稍微不同的是,预测模型研究在报告患者基线特征的基础上,还需要报告结局变量的信息。此外,预测模型研究的基本信息通常分开发队列和验证队列进行报告,而非分不同的暴露组别。
1.1 研究流程图
研究流程图是描述研究从最初的筛选人群到最终符合条件,纳入研究人群的过程展示图。由于临床预测模型研究多是基于既往已有的研究开展,因此,研究流程图通常是基于既往数据库,按照方案中排除非目标研究人群,排除基线已经发生事件的人群,排除失访人群等,最终获得分析的人群。图 1 是预测模型中一个通用的简易模板,研究者应根据不同的结局变量类型和研究设计方案在此基础上做出适当的调整。例如,在一个关于中国动脉粥样硬化心血管疾病的预后模型中,分别利用了两个不同的队列,对模型进行了验证[9]。值得注意的是,流程图中排除的人数应当采用层次排除法, 以避免因不同的排除标准统计的人数有交叉致使合计排除人数与实际排除人数不一致[10]。
1.2 基本信息描述表
如果说流程图主要用于回答“研究人群从哪来”,那么基本信息描述表则主要用于回答“研究人群长什么样”。描述研究对象的特征不仅包含人口统计学特征、临床特点以及其他可用的预测因素等基线信息,还需报告预测模型结局变量的信息。特别需要注意的是当缺失值不可忽视时,需要在表中详细列出缺失值情况。
本文表 1 为预测模型中较为通用的基本信息描述模版,适合经典的预测模型开发和验证研究。这类研究通常需要在开发队列和验证队列中,同时报告各预测因子及结局的分布情况。根据研究设计的不同,可以在表 1 的基础做出调整。
2 报告模型信息
完成样本的筛选和描述之后,研究可以进入到模型开发阶段,其结果报告需要明确 “模型拟合的参数结果多少?” “预测因子与结局的关联强度如何?”等内容。因此,这部分的信息主要包括两个方面:(1)模型的截距(或基础生存率)及各预测因子的回归系数。报告这部分信息,可以明确预测模型的具体公式,方便其他研究者对模型进行外部验证。(2)各预测因子各水平下的事件率,以及单因素分析和多因素分析的关联强度效应指标(如 OR, RR, HR)[11]。报告这部分信息,可以明确预测因子与结局的关联强度,从数据层面体现预测因子选取的合理性。
3 评价模型表现
当模型的开发工作完成之后,需要通过内部验证和外部验证来检验模型的性能。因此,第三部分的图表主要用于回答“开发的模型表现怎么样?”。评价预测模型的表现,主要分为有三个方面:模型整体性能的评价指标、模型的区分度指标以及模型的校准度指标。
3.1 模型整体性能
预测结果与实际结果之间的距离是量化整体模型性能的核心[12]。评价预测模型整体性能的指标也围绕这一核心开发,因此指标的值越小,代表预测结果与实际结果之间的距离越接近于 0,模型的整体性能越好。
对于连续型结局变量,通常采用 R 2、调整 R 2 以及均方误差来评价[13,14];对于二分类及多分类结局变量,一般采用 Brier 评分、Nagelkerke's R 2 以及 Cox&snell R 2 等[15,16]来计算实际观测的结果与模型预测的概率之间的差异。对于生存分析来说,通常使用 Nagelkerke's R 2 和含有权重函数的 Brier 分数、O’Quigley R 2 [17]等评估模型的整体性能。
3.2 区分度
区分度表示模型准确区分出结局事件发生或不发生的能力。区分度通常可以通过一致性统计量(Concordance statistic)、ROC 曲线和区分斜率进行评价。
对于连续型变量可以采用 Wilcoxon 秩和检验。对于二分类结局,除了 C 统计量,还可以通过绘制开发队列和验证队列的 ROC 曲线来比较模型的区分度(如图 2 所示)。对于生存分析,通常采用 Harrell’s C 等统计量[18-20]或时间依赖 ROC 曲线[21]衡量模型的区分度。C 统计量越接近于 1,代表模型的区分度越好。
区分斜率(discrimination slop)[22]通过计算发生结果或不发生结果的个体的平均预测绝对差,来简单衡量模型区分度。判别斜率越接近于 1,区分性能越好。根据不同的研究设计,还可采用箱线图或直方图进行直观地展示[20]。
3.3 校准度
校准度指的是观察结果和预测结果之间的一致性[22]。常用的指标之一为 O/E 比值,它指的是实际观察到的结局例数与预测的结局例数之比。O/E 比越接近于 1,意味着模型的校准度越好。另一个常用的方法为绘制校准图。简单来说,校准图是将预测值作为 x 轴的值,实际观察结果作为 y 轴的值,因此完美的校准点应该位于 45 度线上。其中十分位数法校准曲线(如图 3 左)和更加推荐的平滑技术(如局部加权散点平滑[locally weighted scatterplot smoothing,LOESS]算法[14,23])校准曲线(如图 3 右)为常用的方法。此外,根据研究设计,还可以选择使用校准截距和校准斜率对模型的校准度进行评价。
3.4 其他指标
随着预测模型的蓬勃发展,近年来涌现出了一些新颖的指标用于评价模型的临床效用。其中净重分类改进指数 (Net Reclassification Improvement, NRI),综合判别改进指数 (Integrated Discrimination Improvement, IDI) 是通过增加或减少模型中的变量来评估不同模型效能的指标[23,24],NRI 和 IDI 的值大于一,意味着模型有正向的改善。根据不同的研究,可以制作成再分类表(如表 4)。
另一个常用的评价方法为决策曲线[25]。决策曲线图的横坐标为概率阈值[26],纵坐标为不同阈值对应的净获益率。如图 4 所示,决策曲线除了代表模型 1-模型 n 的曲线之外,一定存在两条代表两种极端情况的直线,即所有人使用模型和所有人不使用模型。由图 4 可见,随着概率阈值的增大,模型 2 获得的净利率更高。
4 展现应用模型
临床预测模型最本质的是公式,但单纯的公式,在临床实践中不便于使用。因此,研究者们开发了各种展现形式,以方便应用。除了公式,常见的的展现形式有四种:风险评分系统、图形评分表、列线图以及基于网页的计算器或者应用程序。
4.1 风险评分系统
风险评分系统通常由两张表组成。首先根据预测模型的不同,采用一定的方法将模型中的预测因子转化为对应的分数(如表 5),其次列出各种总分数的数值及其对应的风险[27](如表 6)。
对特定的个体进行预测时,只需要按照表 5 风险评分列表中列出的预测因子,对该个体打分并求和,再通过表 6 匹配出该个体发生结局事件的概率。虽然风险评分表只需要通过简单的加法便能得出预测风险,但预测出的风险往往为近似的估计值并且模型中包含的连续类预测因子需要转换为分类变量进行评分,这一特点使得预测的结果可能存在偏移。
4.2 图形评分表
图形评分表是高度简化的、使用彩色编码的评分系统[28]。按照不同预测变量的组合,计算结局发生的概率,并根据重点关注的风险类别进行制表和颜色编码。如图 5 所示的图形评分表,预测模型由两个分类化的连续变量和两个分类变量开发。四个变量组合下的每个格子,都直接给出预测概率,且用不同的颜色,标识概率的高低。一般越接近红色代表风险越高,越接近绿色代表风险相对较低。
显然,相对于评分系统,图形评分表更加一目了然。值得注意的是,图形评分表能容纳的预测变量数量有限,连续变量也需要转换为分类变量,预测的图形对不同感兴趣的因子或者不同的时间点都需要一个独立的热图,这使得图形评分表的应用受到局限。
4.3 列线图
列线图是指在平面坐标中用一簇互不相交的线段表示多个变量之间函数关系的定量分析图。其优势在于可以直接利用图形推算出某变量的取值,如患者的指标得分或生存概率。它在医学领域中的应用由来已久,常见的有百分位列线图和概率列线图等[29,30]。本文图 6 为常用的列线图模版。
与风险评分系统类似,在使用列线表对个体的结局风险进行预测时,按照该个体每个预测因子得出对应的评分,通过简单加法计算出总评分,从而估计出预测概率。列线图在计算过程中不需要将连续变量转换为分类变量,也不像图形评分表一般,估计的预测概率为一个区间,因此应用较为广泛。
4.3 应用程序
随着电子设备的普及,除了上述三种较为传统的应用方式外,涌现出许多基于网页的计算器或者应用程序。这些计算器或应用程序通常是开源的,研究者无需担心设置服务器、配置网络相关的复杂问题,只需要进行简单的创建和部署就可以将应用程序发布到互联网中,并获得一个唯一的 URL 链接,使用者可以通过该链接在任何支持 Web 浏览器的设备上访问该程序。
本文以 shinyapps 为例,通过 R 语言对预测模型简单部署后,预测模型将被储存在 shinyapps 的网页中(如图 7)。图 7 中左侧绿色虚线框为该模拟预测模型的预测因子,点击对话框可以输入被预测个体对应的预测因子的值,按下预测按钮,模型的预测结果便会以图形或者数字的形式呈现(如红色虚线方框的内容),而模型信息会如黄色虚线方框中的形式展现。
显然,在移动设备普及的今天,应用程序比上述三种应用方式更便捷,更简单。由于预测结果通过保留在网页后台的完整预测模型方程式计算得出,预测出的概率也更加准确。
总结
本文对经典的预测模型开发和验证研究的统计图表思路和模板分描述基本信息、报告模型信息、评价模型表现以及展现应用模型四个方面,进行简要介绍。考虑到预测模型研究的多样性,本文仅对预测模型开发和验证研究提供了通用的思路和图表模板,因此并不能完全适用于所有类型的预测模型研究。