作者:许汝福
关键词:Logistic 回归;自变量筛选;逐步回归
危险因素研究,常常需要使用多因素 Logistic回归分析方法,从调查的自变量中筛选危险因素。但在进行多因素 Logistic 回归分析时,常由于变量及方法选择等原因,得出的回归分析结果有时不一致。笔者结合实例,就多因素 Logistic 回归分析中自变量筛选及逐步回归方法选择应注意的问题进行探讨。
资料
资料来源于冠心病危险因素病例对照调查数据,26 例冠心病患者和 28 例对者。
纳入单因素分析有意义的变量与纳入全部变量的Logistic回归结果的区别
单因素分析结果,冠心病 Y 与年龄 X1 无明显关系(P=0.116),冠心病 Y 与其他指标(X2 ~ X8)均有统计学意义(P<0.05)。
而按照 SPSS 软件 Logistic 回归分析方法,将年龄和体重指数定义为分类协变量,采用逐步回归向后 - 条件法进行多因素 Logistic 回归分析,相对于 65 岁以上人群,低年龄组为保护因素,OR 分别 为 0.10、0.051、0.046,P 值 分 别 为 0.020、0.048 和0.063。
显然,如果在多因素 Logistic 回归分析时,只纳入单因素分析中有统计意义的自变量,年龄 X1 对冠心病的作用就会被忽略。
多分类变量当作连续性变量的分析结果与定义为分类协变量的分析结果之间的差别
将年龄和体重指数定义为分类协变量 ,采用逐步回归向后 - 条件法进行分析,,有统计学意义的危险因素包括:动物脂肪摄入 X6、A 型性格 X8、高血压史 X5 和年龄 X1。
如果将年龄 X1、体重指数 X7当作连续性变量进行分析,年龄 X1 无统计学意义(P=0.053)。
把多分类变量当作连续性变量进行分析,会损失部分信息,甚至可能漏掉重要的危险因素。
几种逐步回归变量筛选方法所得到的多因素Logistic回归分析结果的比较
分别使用 SPSS 软件提供的 6 种逐步回归变量筛选方法(向前 - 条件、向前 -LR、向前 -Wald、向后 - 条件、向后 -LR、向后 -Wald)进行分析,筛选出的危险因素不尽相同。
从模型系数综合检验和拟合优度检验 [9] 结果来看,向后 - 条件、向后 -LR 法的拟合效果最好,向前 - 条件、向前 -LR、向前 -Wald三种方法的拟合效果次之,向后 -Wald 法的拟合效果相对较差。
多因素Logistic回归分析最好纳入全部自变量,不要随意舍弃单因素分析无统计意义的自变量
危险因素研究,很多文献都是通常先进行单因素分析,单因素分析有统计学意义的变量纳入多因素Logistic 回归分析,无意义的变量不纳入分析 。但只将单因素分析有统计学意义的因素作为自变量,纳入多因素 Logistic 回归分析,很可能会将重要的危险因素漏掉。
(文章的案例)如果多因素 Logistic 回归分析时,只纳入单因素分析有统计学意义的自变量,年龄 X1 就没有机会进入 Logistic 回归模型,年龄对冠心病的影响就会被漏掉。
因此,在危险因素较少时宜纳入全部变量,采用逐步回归方法,进行多因素 Logistic 回归分析,自动筛选有意义的变量,不要随意舍弃单因素分析无统计意义的自变量。当危险因素较多时可采用单因素分析进行初筛,但应注意适当调整检验水准并结合专业选择纳入多因素分析的变量,不要随意舍弃单因素分析无统计意义的自变量,避免漏掉重要的危险因素。
使用SPSS软件进行Logistic回归分析时应注意连续性变量与多分类变量的区别
对多分类变量要使用“分类”按钮,将其定义为“分类协变量”,模型给出各水平与最低水平比较的 OR 值,或给出各水平与最高水平比较的 OR 值。对于多分类变量,也有文献使用哑变量的形式,将一个自变量分为多个自变量 。如果不将多分类变量定义为“分类协变量”,模型将默认为连续性变量,只给出了一个总的 OR 值,不能体现各等级之间的差异性,往往会损失部分信息,甚至可能漏掉重要的危险因素。
使用 SPSS 软件进行 Logistic 回归分析时,对于多分类变量一定要定义为分类协变量或哑变量,不能简单地当作连续性变量进行分析。对于连续性变量,拟合 Logistic回归模型时,既可以用实测值作为连续性变量,也可以用适宜尺度分组后作为分类变量或者哑变量纳入模型,不同的赋值方式得到的回归分析结果往往也有所不同。实际资料处理过程中,宜比较作为连续性变量和分类变量纳入模型时是否存在线性趋势及其好坏,并结合专业及结果的可解释性,选择恰当的变量纳入赋值方式(连续变量、分类变量、哑变量),得出较为合理的回归分析结果。
采用逐步回归变量筛选的几种方法进行Logistic回归分析应结合专业知识确定危险因素
SPSS 软件中多因素 Logistic 回归分析的变量选择,提供了条件参数估计似然比检验、最大偏似然估计似然比检验、Wald 检验 3 种模型假设检验方法和向前选择法、向后剔除法两种变量进出方法,组合成 6 种逐步回归变量选择方法(向前 - 条件、向前 -LR、向前 -Wald、向后 - 条件、向后 -LR、向后 -Wald)。似然比检验是基于整个模型的拟合情况进行的,结果最可靠;Wald 检验没有考虑各因素的综合作用,当自变量间存在共线性时,结果不可靠。
因此,最好结合临床和流行病学的意义以及生物学机制等专业知识 ,对几种逐步回归方法的计算结果进行综合分析,选择较为合理的结果。
文献引用:
许汝福. Logistic回归变量筛选及回归方法选择实例分析[J]. 中国循证医学杂志, 2016, 16(11):5.
————
对logistic回归方法自变量回归方式有疑惑的读者朋友,欢迎去知网下载并阅读这篇论文。
本篇文字、图片由数据小兵摘选,未经原作者授权,如有不妥,请本文评论区告知删除。