共线性问题就是同语反复

教育   2025-01-26 20:30   黑龙江  

提问:李老师和同学们好,我听课中有一个问题,在讲到结构方程模型对比回归分析的时候,讲到回归模型第二个缺陷的时候,李老师讲到,普通回归模块假定几个自变量之间存在相关关系,这不就产生了多重共线性问题?!李老师是否是口误?!

 

答复:谢谢你指出这个细节。不是口误。

 

最小二乘回归和对数回归都不假定自变项之间彼此完全独立。但是,当一个自变项与另一个或另几个自变项“高度”相关甚至“完美”相关时,回归分析产生的回归系数会被歪曲。你可能没注意到,统计学家说的“没有共线性问题”(no collinearity)是个简略说法,完整的说法是“没有严重的共线性”(no serious collinearity)或 “没有完美共线性”(no perfectcollinearity)。

 

为了直观地理解“严重共线性”和“完美共线性”,你可以做个实验。如果你把雇员数据中的“教育程度”拷贝成另一个变项,命名为“上学年数”,然后把“教育程度”与“上学年数”都作为自变项放进回归模型,预测雇员年薪,SPSS会警告你发生了“完美的共线性”,拒绝分析。

 

SPSS的输出结果如下。

 

首先,这个图表报告上学年数对年薪的影响。

 

 

下面这张表说明“教育程度”被从回归模型中排除了,因为“共线性统计值”“可容忍度”是0.000,意思是发生了“完美的共线性”。

 

 

为了避免“完美共线性”,你可以随意修改“上学年数”的一个数据,例如把第一号雇员的上学年数从15年变为14年。这样可以骗过SPSS,它会计算“净回归系数”。结果如下:


 

上表显示,控制了“教育程度”,“上学年数”与年薪不显著相关;控制了“上学年数”,“教育程度”与年薪不显著相关。这个结果很好理解。这两个变项几乎完全重合,所以它们各自对“年薪”的“净贡献”接近0。

 

为了保险起见,用SPSS做最小二乘回归时,我们可以指令它做“collinearity diagnostics”,SPSS的默认设置不输出这个检验结果。然后我们根据学术界关于Tolerance和VIF (Variance Inflation Indicator)“临界线”(thresholds)的约定,判断回归模型是否存在严重的共线性问题。不过,除非简单目测自变项就能发现它们可能高度相关,研究者一般不做这类检验,即使做也很少报告检验结果。



 

有关共线性问题,我在拙作《戏说统计》中讨论得多一点。

 

5、共线性就是同语反复

 

做回归分析,要小心不要把高度相关的自变项同时放进回归模型,否则就会出现共线性问题。多元共线性(multicollinearity)这个词不大好理解,其实共线性问题就是同语反复,一件事,不管多么重要,连说两次,控制了其中一次的效果,另一次的效果毫无疑问不显著。共线性问题就是同语反复。

 

我编造一个容易理解的例子。分析小学生的年龄和认识的汉字的数量,我们一定会发现年龄越大,认识的汉字越多。如果做回归分析,模型里面的因变项是识字量,年龄是自变项。但是,如果上学的年数也作为自变项纳入回归模型,就会出现共线性问题。上小学的年龄是固定的,比如7岁上一年级,8岁上二年级,对小学生来说,年龄与上学年数这两个变项高度相关。假定研究一组510岁的儿童,以识字数量为依变量,自变量有两个,一是年龄,一是学龄。二元回归会发现,识字数量与年龄显著正相关,与学龄显著正相关。但是如果做多元回归,会发现,控制了年龄,识字数量与学龄不显著相关;控制了学龄,识字数量与年龄不显著相关。原因就在于年龄和学龄对于儿童来讲差不多是完美的正相关。SPSSOLS回归中有共线性分析。

 

以雇员数据为例。我们改造一下“教育程度”,把这个变项简单拷贝,命名为“上学年数”。然后任意篡改一个数据,把两个几乎相同的变项都放进回归模型,就会得出下面的结果。不篡改数据,SPSS拒绝分析,因为数据有“完美的”共线性问题。

 

 

顺便给各位提供一个阅读信息。管玥博士最近读陈希孺院士的著作《机会的数学》,发现陈院士书中的很多说法与我的《戏说统计》十分神似。我懒惰不喜读书,没读过陈院士的大作。对于管玥博士发现的种种巧合,我一方面感到惊奇,另一方面也不无自负地感到了三分“英雄所见略同”的欣喜。我猜想,我这个文科生与专门研究数理统计和概率论的陈院士有巧合的说法,既说明“万法归一”,也间接证明我的“戏说”并非离经叛道。有兴趣深造的朋友可以研读陈院士的书,他不仅有科普性质的《机会的数学》,还有很专业的统计专著,构成一个自然的由浅入深的阅读系列。

 

最后,说明一句,这个视频课的主要目的是协助与我数学背景相似的朋友克服对统计分析的畏惧,所以,我尽量不触及容易让人觉得高深的题目。貌似“高深”的问题,《戏说统计》讨论得多一些,但也绝对不面面俱到,更不追求精密准确。不追求,非不为也,是不能也。我只能写《戏说》,相当于一个围棋业余初段,或许可以帮助过于敬畏统计方法的朋友克服心理障碍。各位一旦成为自信的用户,就要以自己为主,选择自己喜欢的专家,使用自己喜欢的专著,围绕自己的研究,琢磨自己的定量方法。一句话,学任何研究方法,务必以自我为中心,因为自己要用,所以才花时间学。千万不要希望先练好十八般武艺,甚至练成“金钟罩铁布衫”,然后才敢上战场。

量化研究方法
以量化之思想认识世界,体会量化之美。
 最新文章