风险预测模型中类别不平衡校正的危害:基于逻辑回归的阐释与模拟
目的
随着预测模型开发的日益发展,用于校正类别不平衡(即结果事件与无事件发生的频率不平衡)的方法越来越受到关注。本文研究了类别不平衡校正对逻辑回归模型性能的影响。
材料与方法
我们使用标准逻辑回归和惩罚逻辑回归(岭回归)两种方法,在未校正、随机欠采样、随机过采样和SMOTE(Synthetic Minority Over-sampling Technique,合成少数类过采样技术)四种处理类别不平衡的策略下,开发预测模型。从区分度、校准度和分类能力三个方面评估模型性能。通过蒙特卡洛模拟,我们研究了训练集大小、预测变量数量和结果事件比例对模型性能的影响。并展示了一个关于卵巢癌诊断预测建模的案例研究。
结果
采用随机欠采样、随机过采样或SMOTE方法校正类别不平衡时,所得模型的校准度较差:少数类别的概率被严重高估。与未进行类别不平衡校正的模型相比,这些方法并未提高接收者操作特征曲线(ROC)下的面积。虽然类别不平衡校正改善了敏感性和特异性之间的平衡,但通过调整概率阈值也能达到类似的效果。
讨论
类别不平衡校正导致模型校准严重失准,且并未提高区分有结果事件和无结果事件患者的能力。不准确的概率估计降低了模型的临床实用性,因为治疗决策的依据不够充分。
结论
结果事件的不平衡本身并不是问题,而类别不平衡校正甚至可能降低模型性能。
在使用随机欠采样(RUS)时,通过丢弃一组随机案例来减少多数类(即,无论观察到的是事件还是无事件,数量较多的那组个体)的大小,直到多数类与少数类的大小相同。而在使用随机过采样(ROS)时,则是通过从少数类中重复抽样案例来增加少数类的大小,直到少数类与多数类的大小相同。这会导致一个人为平衡的数据集,其中包含少数类的重复案例。SMOTE(Synthetic Minority Over-sampling Technique,合成少数类过采样技术)是一种过采样的形式,它通过插值原始少数类案例来创建新的合成案例。该过程如下:对于每个少数类案例,在预测空间中基于欧几里得距离确定其k个最近的少数类邻居。然后,计算少数类案例的特征向量与其k个最近邻居的特征向量之间的差异。之后,将这些差异乘以0到1之间的一个随机数,并加到少数类案例的特征向量上。通过这种方式创建合成数据,可以增加少数类案例的多样性,因此,基于该数据集训练的模型可能比基于ROS数据训练的模型更不易出现过拟合。我们在实现SMOTE时使用了k=5。SMOTE设计用于处理连续变量。对于序数或分类变量,可以使用四舍五入法,或者对SMOTE进行改编以适应混合变量类型。
图1使用两个预测变量来展示了这些方法。原始数据集包含100个发生事件的案例(红点)和1900个未发生事件的案例(灰色三角形)(左上图)。随机过采样(ROS,左下图)和SMOTE(右下图)之间的差异显而易见。ROS包括了许多来自少数类的原始案例的重复项。而SMOTE则是在两个原始少数类案例之间的“线”上创建了合成案例。由于已知较小的样本量会增加过拟合的风险,预计随机欠采样(RUS)需要更大的样本量才能表现良好。
使用标准最大似然对数回归(SLR)和带有岭(或L2)惩罚的惩罚对数回归(Ridge)开发了预测模型。通过基于10折交叉验证的网格搜索对λ超参数进行了调整。
为了说明问题,开发了预测模型,以估算至少有一个附件(卵巢、卵巢旁或输卵管)肿瘤的绝经前妇女患卵巢恶性肿瘤的概率。卵巢癌诊断预测模型可用于决定是否需要手术以及由谁进行手术(例如,是否需要转诊给有经验的妇科肿瘤学家)。使用了国际卵巢肿瘤分析(IOTA)研究的连续三批(1999-2005年、2005-2007年和2009-2012年)招募的女性的数据。已获得对这些数据进行方法学/统计学研究二次使用的伦理批准(鲁汶大学医院研究伦理委员会,S64709)。本研究仅纳入了接受手术的患者,因此参考标准(良性或恶性)可基于组织学检查。交界性恶性肿瘤被视为恶性肿瘤。三批共招募了5914名患者,其中3369名为18至59岁的绝经前患者。恶性肿瘤的发病率为20%(658/3369),反映出中度不平衡。
使用了以下预测因子:患者年龄(岁)、病变最大直径(毫米)和乳头状结构的数量(有序变量,值为0至4;4指4个或更多乳头状结构)。为了研究所有模型与不同不平衡解决方案相结合的性能,首先将数据按4:1的比例随机分为训练集和测试集。这产生了大小为2695(518个事件)的训练数据集和大小为674(140个事件)的测试集。训练集未经校正或使用RUS、ROS或SMOTE进行预处理,从而产生了4个不同的数据集,并在这些数据集上拟合模型:未校正数据集(Duncorrected)、RUS处理数据集(DRUS)、ROS处理数据集(DROS)和SMOTE处理数据集(DSMOTE)。随后,使用SLR和Ridge开发了预测模型,产生了4(数据集)× 2(算法)= 8个不同的模型。为了处理与结果可能存在的非线性关联,使用样条函数对连续预测变量进行建模。特别是,使用了具有3个结的受限立方样条。将得到的模型应用于测试集,以获得模型在区分度(ROC曲线下面积,AUROC)、校准度(校准截距、校准斜率、灵活校准曲线)、分类(准确率、灵敏度、特异度)和临床效用(净获益)(框)方面的性能。对于分类,使用了“默认”概率阈值0.5,以及在未校正不平衡时使用了0.192(518/2695,训练数据集中的恶性肿瘤发病率)作为概率阈值。
通过改变以下模拟因素,研究了24种情景:原始训练集大小(N)(2500或5000)、预测因子数量(p)(3、6、12或24)和结果事件比例(0.3、0.1、0.01)。p的值和事件比例反映了临床预测模型的常见情况。当事件比例为1%时,样本量为2500将平均包含25个事件。因此,N的较小值可能会导致计算问题。候选预测变量来自多元标准正态分布,预测变量之间无相关性。然后,通过对生成的预测变量应用逻辑函数来计算每个病例的结果概率。针对每种情景,该函数的系数都是通过数值方式近似得到的(见补充材料),以便使预测变量具有相同的强度,数据生成模型的c统计量约为0.75,并且结果流行率与模拟条件相符。结果变量是从二项分布中抽取的。
对于每个生成的训练数据集,创建了 4 个预测模型训练数据集:Duncorrected、DRUS、DROS 和 DSMOTE。在每一个数据集上,SLR 和 Ridge 模型都进行了拟合。这导致每个模拟场景有 8 个不同的预测模型。因为我们预计不平衡校正会导致概率高估(即模型截距太高),我们还为在 DRUS、DROS 和 DSMOTE 上开发的模型实施了逻辑重新校准方法,从而产生了另外 6 个模型。26这种重新校准是通过在训练数据集上拟合 Logistic 回归模型来完成的,其中初始模型的估计概率的 logit 作为偏移变量,截距作为唯一的自由参数。对于每个场景,都执行了 2,000 次模拟运行。在每次运行中,都使用了新模拟的训练数据集。为了评估给定场景下结果模型的性能,使用相同的数据生成机制,每个场景使用大小 N = 100,000 模拟单个测试集。
将每个模型应用于各自的测试集,并计算 AUROC 、准确度、灵敏度、特异性、校准截距和斜率。为了将估计的概率转换为二分预测,使用了 0.5 的默认风险阈值。对于在未校正的训练数据集上训练的模型,我们还使用了等于真实事件分数的阈值。主要指标是校准截距。
01 个案研究
不同算法和不平衡校正方法的鉴别差异很小,平均 AUROC 为 0.79 至 0.80 .校准曲线表明,所有不平衡校正方法都对校准有很大影响,在不平衡校正后会产生强烈高估的概率估计值,但并非没有校正(图 2)。校准截距证实了这一点:在没有不平衡校正的训练数据上,SLR 为 0.06(95% CI -0.16 至 0.26),Ridge 为 0.05(-0.16 至 0.26),但在 -1.32(-1.54 至 -1.11;SMOTE 后跟 SLR)和 -1.50(-1.72 至 -1.28;RUS 后跟 SLR)。对于基于未校正数据的模型,校准斜率最接近目标值 1(SLR 为 0.99,Ridge 为 1.03),RUS 之后的模型最低(即最差)(SLR 为 0.85,Ridge 为 0.93)。当在未校正数据上训练的模型上使用 0.5 概率阈值时,特异性(SLR 和 Ridge 为 96%)明显高于敏感性(SLR 为 31%,Ridge 为 29%)。正如预期的那样,通过改变基于未校正数据的模型的分类阈值或对不平衡校正后的模型使用 0.5 阈值(敏感性在 69% 到 75% 之间,特异性在 74% 到 78% 之间),敏感性增加,特异性降低。
结果还表明,对于在不平衡校正数据集上训练的模型,高估恶性肿瘤的可能性可能会导致过度治疗:太多的个体会超过给定的概率阈值并被选择接受治疗(例如,转诊到专门的妇科肿瘤中心进行手术)。这反映在临床效用的净收益测量中(图 3)。决策曲线显示,在不平衡校正数据集上训练的模型大大降低了临床效用,甚至在使用 0.3 或更高的概率阈值选择个体进行治疗时,净收益为负。
与在原始(不平衡)训练数据上开发模型相比,不平衡校正方法系统地改进了 AUROC。在未校正数据上训练的模型的 AUROC 中位数从未低于 RUS、ROS 或 SMOTE 之后模型的 AUROC 中位数。对于 RUS,AUROC 中位数通常较低,当事件分数较低、训练集大小较低且预测变量数量较高时,差异较大。
在不平衡校正的数据集上训练模型导致严重高估估计概率,负校准截距证明了这一点(图 5).在未校正数据上训练的模型的中位校准截距在 -0.05 和 0.03 之间。对于事件分数为 1% 的场景,不平衡校正方法的中位校准截距为 -4.5 或更低,对于事件分数为 10% 的场景,校准截距中位数为 -2.1 或更低,对于事件分数为 30% 的场景,校准截距中位数为 -0.7 或更低。此问题已通过应用重新校准程序得到纠正。使用原始(不平衡)数据:重新校准改进的中位校准截距为 −0.07 和 0.03 之间的值 .一个例外涉及在 RUS 之后训练 SLR 模型,场景为 1% 事件分数,训练集大小为 2500,预测变量为 24 个。使用 RUS 意味着具有 24 个预测变量的模型是在平均仅包括 25 个事件和 25 个非事件的数据集上进行训练的,导致 SLR 模型缺乏收敛性,但不适用于 Ridge 模型。
使用 SMOTE 以及较小程度的 ROS 导致概率估计过于极端,Ridge 和 SLR 模型的中位校准斜率均低于 1 证明了这一点.使用 RUS 产生了良好的中位数校准斜率,但对于 Ridge 模型来说具有很高的可变性,对于 SLR 模型的斜率通常远低于 1。对于较低的事件分数、较低的训练集大小和较多的预测变量,校准斜率的这些发现更加明显。对于在未校正的训练数据上开发的 SLR 模型,也观察到低于 1 的中位校准斜率,但是这些中位斜率仍然高于 RUS、ROS 或 SMOTE 之后开发的模型的中位斜率仍然较低。
文字 | 王倩倩
排版 | 王倩倩