从文章量产来说,meta分析、公共数据挖掘、预测建模似乎有相似之处,但从实用角度,预测建模的应用性更强!但每年发表的预测模型的文章虽多,却很少用于实践。绝大多数模型就是发表文章,然后……,然后好像就没有然后了。造成这一现状的原因有很多,比如模型质量、临床医生的接受程度、模型应用对患者的临床效果等。因此,今天我们分享一篇文章,根据作者多年的经验和思考,同时也根据作者自己开发的几个模型(这些模型大都已在临床应用)的经验,提出了12条个人感觉比较实用的建议,发表在The Innovation Medicine,题为:“Twelve practical recommendations for developing and applying clinical predictive models”的文章,主要是希望能在一定程度上提高临床预测模型的应用。如果你需要全文,请公众号后台回复关键词“pdf”。如果您在临床试验数据分析过程中遇到困难,来看看我们的临床试验项目设计与数据分析服务吧!您可以选择部分或全部服务,详情可咨询助教,微信号:aq566665
这12条实用的建议包括预测指标的选择、样本量估算、预测模型的选择、变量筛选策略、模型验证与评价、模型影响评估、模型更新等具体内容,本文将其概括总结,想要了解详情的不妨去看一下原文,或直接点击下方链接。网址:https://www.the-innovation.org/article/doi/10.59717/j.xinn-med.2024.100105在模型开发之前,先明确自己的需求。有人可能觉得这是一句废话,但作者之所以再次强调,是因为不少人在构建临床预测模型的时候忽视了构建模型的必要性。- 首先,要有临床需求和临床应用价值,包括模型的临床效用及其实际实施的可行性;
- 其次,确认模型有没有开发的必要,如果在同领域已经足够多的类似的模型,可以考虑模型验证或更新而不是新开发模型,这可以有效避免资源的浪费。
选对变量,预测效果才能翻倍。我们在选择合适的预测变量的时候,可以从临床角度和统计学角度两个角度综合考虑。√从临床角度来看,预测变量应基于专家知识或文献支持,优先选择易于获取、成本低的变量。- 常见的预测变量包括人口统计学、疾病类型和严重程度、病史、临床特征、实验室检测数据和基因特征等。
- 除此之外,还要考虑到预测变量的一致性,建立标准化测量标准;
- 优先考虑客观预测变量,减少因观察者差异引入的不一致性;
- 优先选择能提供可靠且稳定结果的预测变量,以提高模型的稳定性和可靠性。
√统计学角度来看,则建议看一下预测变量的分布,变异性小的变量一般不适合作为预测变量。例如,在二元预测变量情况下,如果某一类占数据的98%,除非已知该变量具有高度预测性,否则通常无需将此类变量纳入模型中。在构建预测模型的时候,另一个常见的问题是:当预测变量之间存在共线性,预测变量之间相关性很强时,是否可以将这些预测变量同时纳入模型?今天这篇文章讲得很明白。
共线性并不影响预测模型的预测性能,而是影响系数估计值和p值,从而影响模型的可解释性。也就是说,即使模型中同时含有2个相关性很强的预测变量,模型的ROC曲线下面积等指标不会有影响,但是模型的系数会发生较大影响,如可能本来应该使0.9,现在变成了-0.2。
所以,如果主要目标是预测,且不需要理解每个自变量的影响,可以保留高度相关的预测变量。
如果是构建需要可解释的模型,建议去除其中一个相关的预测变量。
预测模型开发中可以通过两种主要方法确定样本量:经验法则和基于特定标准的计算方法。√经验法则建议基于EPP (events per candidate predictor parameter)而不是EPV(events per variable)原则,避免对“变量”术语的潜在误解。- 例如,当一个连续变量如“年龄”被纳入模型时,它对应一个估计参数。但是,添加年龄的二次项会增加到两个参数。同样,将年龄分类为五组需要估计四个参数。换句话说,一个变量并不等于一个参数,一个变量很可能是多个参数。所以不能简单根据变量数来确定样本量。
如果实际应用角度出发,当模型中纳入参数个数大于10时,20 EPP的样本量通常足够。此外,当事件比例低于0.2时,10EPP也足够了。- 确保整体结果风险的精确估计,相当于保证截距的精准估计,推荐的误差边界为0.05;
- 确保显著R²Nagelkerke和调整后的R²Nagelkerke之间的绝对差异不超过0.05;
虽然计算方法在理论上比经验法则更合理,因为它考虑了多种因素,但仍然存在许多实际挑战。首先,尽管作者为样本量计算所需的参数提供了推荐值,但不建议使用固定参数值。其次,从现有文献中获取预先指定的参数带来了重大挑战。因此,在实际计算中,参数的确定涉及一定程度的主观性。临床预测模型通常依赖于来自医院的真实数据(例如,电子病历、实验室信息系统),这些数据经常遇到数据缺失和异常值等问题。必须适当解决这些问题,以避免影响数据质量。√对于缺失值,需要先理解引起数据缺失的多种机制,主要包括完全随机缺失(MCAR)、随机缺失(MAR)以及非随机缺失(MNAR)三类。数据缺失的情况并不少见,也有不少学者针对缺失值的处理进行了大量的研究。总结为以下几条:更详细的处理方法推荐大家去看原文,这里就不再一一介绍了。
√对于异常值的检测,作者建议采用多变量法进行异常值检测。一旦发现异常值,首先排查是否因数据录入错误引起,如果不是,建议直接删除。- 异常值通常占用于模型开发数据集的极小比例(根据作者的数据分析经验,这一比例通常低于0.1%甚至更低)因此将其排除对模型构建的影响可以忽略不计;
- 预测模型是为普通人群设计的,实际应用中偶尔出现的异常值不会影响模型的整体性能。
在开发预测模型时,通常会遇到连续型预测变量。这时我们会遇到两种情况:大多数基于回归的预测模型假设连续型预测变量与结果之间呈线性关系,这个时候预测变量可以以原始形式或变换后的形式(如对数)直接纳入模型。然而,大多数情况下,这种关系并不明确,或者无法通过简单的变换来抓取二者的真实关系。在这种情况下,建议采用分数多项式(fractional polynomials)或限制立方样条(RCS)等方法。
在临床实践中,另一种常用的方法是分箱法,也就是将变量分成多个组。- 其次,分类切点应结合临床和统计综合确定,避免完全数据驱动的切点或简单以分位数作为切点;
- 最后,可将采用分箱法的模型与样条方法进行比较,确保模型性能差别不大。
如何在众多的预测模型方法中选择最适合你的?
首先明确一点,在临床应用中,预测模型的选择不应仅考虑预测性能,还应关注可解释性这一关键点。因为高度可解释的模型更有可能在临床环境中成功实施和使用。从模型的灵活性和可解释性这两个角度,预测模型大致分为三种类型:基于回归的方法、机器学习方法和非参数方法。在选择预测模型时应以研究目标和应用场景为导向,如果侧重解释度且计划应用于临床,建议首选回归模型,如lasso回归;如果只考虑模型预测性能而不是解释能力,可考虑机器学习方法。从实用性角度来看,模型中的变量当然是越精简越好。但如何在保证减少变量的同时,保持模型的性能?这就是这节变量筛选所要讲的内容。- 具体来说,当变量数较少时,建议选择基于回归的筛选方法;
使用基于回归的方法(例如逻辑回归)时,考虑到R²(Nagelkerke)往往较低。因此,当面对大量预测变量和变量之间的强相关性时,建议优先考虑Lasso方法。然而,需要强调的是,变量选择不应仅仅依赖于统计技术,还应结合临床背景专业知识和以往文献的证据。此外,在筛选变量时还有两个注意要点:
(1)避免仅基于P值进行变量筛选,例如只将单因素分析中P值<0.05的变量用于构建预测模型;
模型训练完成后,我们常常需要去评估它的性能,简单来说就是判断“这个模型到底表现得怎么样”。预测模型性能通常从区分度、校准度、临床效用三个角度进行评价。- 区分度指标包括灵敏度、ROC曲线等,作者建议同时利用多个指标灵敏度、特异度、AUC、 F1 评分和Matthews 相关系数( MCC )等从不同角度进行评价,尤其在非均衡数据中,否则很容易出现偏倚;
- 校准度的评价可通过校准曲线、集成校准指数(ICI)等实现。虽然Hosmer-Lemeshow检验可以作为校准曲线的拟合优度检验,但由于受样本大小影响太大,且解释性差,因此并不建议使用。为了解决样本过大或过小带来的问题,已有文章提出了H-L检验的改进版本。
- 临床效应采用决策曲线分析(DCA),可以在一定程度上帮助临床医生作出更合理的干预决策。
模型验证的目的是评估模型的可重复性(reproducibility)和可移植性(transportability),通常涉及内部验证和外部验证两个过程。√内部验证用的是模型开发时的数据集,主要关注可重复性。- 最简单的是随机分割法,也就是将数据集按照一定的比例(如7:3、8:2等)随机分为训练集和验证集两部分,但该法可能导致子集变小、增加过拟合风险及结果不稳定。
- 相比之下,重采样技术,如交叉验证和自助法(bootstrapping)更受欢迎,特别是自助法在小样本量下特别有效,建议作为首选。
除此之外,作者还特别强调,内部验证不等于外部验证。√虽然内部验证方便,但它往往会产生过于乐观的结果,并倾向于夸大模型的表现。因此,在临床环境中应用预测模型之前,外部验证变得至关重要。- 地理验证(或称空间验证,geographical validation)被广泛认为是首选方法,它评估模型在不同机构或地区的可移植性;
- 时间验证(temporal validation)通常被视为一种在时间上进行的外部验证,它检查先前开发的模型在同一中心后续患者队列中的有效性,其性能介于内部验证和地理外部验证之间。
模型也要与时俱进,如果一个合理的模型表现出良好的区分度但校准度较差,建议对该模型进行更新,而不是重新开发。可采用三种基于回归的模型更新方法:模型更新(包括模型重新校准、模型修正和模型扩展)、Meta模型更新和动态更新。简单来说,影响评估就是看看你的模型是否真的改变了医生和病人的决策。通常采用整群随机对照研究,将医生或医疗机构随机分配到使用预测模型或不使用模型两组;为更好地保证两组均衡性,也可采用阶梯设计(stepped-wedge design)。而为了节省成本,可先采用前后对照研究或真实世界研究,如果观察到有意义的结果,再开展随机对照试验。影响评估的结局包括医生结局和患者结局,建议先对医生的决策行为改变进行研究,如果观察到有意义的结果,再随访观察患者结局。作者建议,一个模型从开发到临床应用至少应包含五个关键阶段:- 第五,也是最关键的,有该领域内顶尖专家的支持以有效推广应用。
近年来,预测模型和人工智能在医学领域迅速发展,但其临床应用仍然具有挑战性。一个好的预测模型不是仅靠统计软件的输出结果,而是需要在每个环节都充分考虑,以应对可能出现的各种问题。之后我们也会解读更多临床预测模型相关的文章,大家不妨期待一下!大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC 一对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析
详情联系助教小董咨询(微信号aq566665)