深度解析 | 多元线性回归模型(超详细适用条件检验、软件操作及结果解读)

科技   教育   2024-05-21 11:46   北京  

关注SPSSAU

据分析 简单一点

论文问卷 快人一步


多元线性回归模型

SPSSAU出品 · 必属精品 · 建议收藏

↓↓↓↓↓↓↓↓

研究变量之间的影响关系时,首当其冲想到的就是回归分析。其中的多元线性回归分析凭借其成熟度和广泛应用性,占据了举足轻重的地位。然而,很多同学在理解和运用这一方法时,考虑的并不全面,尤其是该方法的前提条件、结果解读和软件操作等方面。鉴于此,SPSSAU将结合一个案例,对多元线性回归分析的整个流程进行深入探讨。

SPSSAU 


一、线性回归模型与检验


1

回归模型


线性回归可通过回归函数定量化地解释自变量X与因变量Y的关系,这种回归函数被称作线性回归模型,用样本数据估计所得的回归方程表达式如下:


β0为常数项,又称为截距;βi(i=1,2,...,p)表示在其他自变量Xi不变时指定的某个自变量X每变动一个单位时因变量Y的平均变化量;ε称为残差,是因变量真实取值与估计值之间的差值,是一个随机变量。


2

模型检验与评价


拟合线性回归模型后,要对模型总体拟合状况进行检验和评价,通过检验后方可用于影响因素分析或回归预测。线性回归模型的检验如下表所示:



(1)回归模型总体显著性检验
研究者采用F检验对回归模型总体是否显著(有统计学意义)进行检验。该检验原假设回归方程中至少有一个自变量的回归系数不为0,当F检验的p值小于0.05时说明模型显著,即至少有一个自变量对因变量的影响有统计学意义;反之,若p值大于0.05则说明模型不成立。

(2)回归系数显著性检验
回归方程总体显著,如果想进一步判断哪些自变量的回归系数是显著的,则需要进行t检验。如果回归系数t检验p值<0.05,则说明该变量回归系数不为0,其对因变量有显著影响;反之,若p值>0.05,则说明该自变量的回归系数为0,自变量的影响无统计学意义。


(3)回归模型拟合优度评价
拟合优度是指样本数据各点围绕回归直线的密集程度,用来评价回归模型的拟合质量。一般是用决定系数R^2为评价指标,R^2 接近1说明回归模型拟合优度良好,R^2接近0说明回归模型拟合优度差。R^2一般解释为回归模型对因变量Y总变异的解释力度,如R^2为 0.8,即回归模型可解释因变量Y总变异原因的 80%。R^2会随自变量的个数或样本量的增加而增大,为了消除这种影响,引进了调整后的R^2


二、线性回归适用条件


线性回归对数据资料是有要求的,因变量必须是定量数据,自变量可以是定量数据也可以是定类数据。除此之外,线性回归的正确使用,还应满足以下的主要适用条件,如下表所示:


特别提示当自变量为定类数据时,比如专业(共分为‘理科类’,‘工科类’和‘文科类’)通常需要进行哑变量处理,然后再进行回归分析等。


  • 原因:自变量为定类数据时,不能得到X越如何,Y越如何的结论。进行虚拟变量设置后,定类数据的回归分析才有意义,比如得到“相对于文科类专业(数字0);非文科类专业(1)工资越高”这样的结论。


  • 参照项:专业为3类,进行哑变量处理后,在回归模型中,只能放入2个哑变量,因为需要留一个专业作为参照项。比如将文科类作为参照项,后续可以得到“相对于文科类专业,理科or工科类怎样怎样”的结论。并且从数学角度来讲,如果专业对应的3个虚拟变量都放入模型,一定会出现‘多重共线性问题’。


接下来,通过一个案例,介绍如何使用软件进行多元线性回归分析,以及适用条件检验、回归结果应该如何解读。


三、案例实战


线性回归分析一般析步骤如下


案例背景:拟建立以“年龄”“教育年限”“工龄”“现雇佣年”为自变量,“工资”为因变量的多元线性回归模型。


1

线性关系判断


多元线性回归分析要求自变量X与因变量Y之间存在线性关系,可以通过绘制散点图或者查看变量之间的相关系数的方式进行。

本案例使用散点图用于直观展示自变量X与因变量Y之间的关系情况,利用SPSSAU可视化->散点图进行分析,操作如下:

SPSSAU输出四个自变量与工资的散点图如下:



从散点图可以看出,“工资”与“年龄”和“教育年限”存在强线性相关关系,而与“工龄”和“现雇佣年”存在弱线性相关关系。

2

建立线性回归模型


本例考察的4个自变量均为定量数据,可直接进行线性回归分析。在仪表盘中依次单击【通用方法】→【线性回归】模块,将变量拖拽到对应分析框中,勾选【保存残差和预测值】复选框,操作如下图所示:

线性回归结果表格较多,包括线性回归分析结果、ANOVA 表格等,我们可以按步骤进行解读和分析。

3

回归模型检验与评价


(1)回归模型总体显著性检验

多个自变量与因变量这个整体的显著性检验,是使用F检验进行的,可以判断多元线性回归模型是否有意义。


分析结果见上表F检验结果,F=111.78,p<0.05,表明该线性回归模型总体上有统计学意义,即至少有一个X会对Y产生影响。

(2)回归系数显著性检验
回归系数显著性检验是指每个自变量对因变量影响的显著性检验,使用t检验进行。

上表中第 5、6 列为各自变量回归系数的t检验结果,从上表可以看出,年龄、教育年限对应t检验的p值均小于0.05,呈现出显著性特征。工龄、现雇佣年p值均大于0.05,所以本例考察的 4 个自变量,年龄、教育年限对工资有显著影响,而另外两个变量对工资无影响。

(3)回归模型拟合度评价
R方用于分析模型的拟合优度,又称决定系数。R方的值介于0~1之间,代表模型的拟合程度,一般认为越大越好。元线性回归时以R方作为拟合优度评价指标,多元线性回归时则采用调整后的R方作为拟合优度评价指标。

本例调整后的R方为0.37,表示建立的回归模型可解释因变量工资总变异信息的 37%。R方越接近 1 越能说明模型的解释能力,不同行业及领域对R方的接受不尽相同,没有绝对的标准,可参考行业文献进行判断。

4

残差及共线性诊断


在分析前我们勾选了【保存残差和预测值】,SPSSAU自动保存名为“Regression_Prediction_XXXX”,即回归方程对现有数据的预测值(以下简称Prediction),和“Regression_Residual_XXXX”即本次回归的非标准化残差值(以下简称 Residual)。

(1)残差正态性检验
可通过残差直方图来判断残差的正态性,SPSSAU可视化->直方图,将【Residual】拖曳至右侧分析框中,得到残差直方图如下

分析线性回归残差直方图可知,直方图呈现左右对称的形态,比较接近正态分布,认为其近似正态分布,残差满足正态分布的要求。

(2)残差等方差性检验
一般来说残差诊断的散点图,会将其预测值作为X轴,残差值作为Y轴,如果所有点均匀分布在直线Y=0的两侧,则可以认为满足方差齐性,散点图结果如下:

线性回归预测值与回归残差值散点图如上图所示。点的分布并不是随机的,随着回归预测值的增大,残差有“逐渐放大”的趋势,呈现开口向右的“喇叭状”形态,提示本次建立的线性回归模型残差不满足等方差性,存在残差异方差的问题,这对线性回归过程是不利的,影响结果的准确性,应当重视并想办法予以处理。

解决办法:常见的处理方式可先对回归分析的因变量进行对数函数的变换,再重新建立线性回归模型,由于篇幅限制本案例暂不演示(提示:若回归分析只是建立X与Y之间的关系,无须根据X预测Y值可信度等,则方差齐性和正态性可以适当放宽。)。

(3)残差独立性检验
残差独立性通常用D-W检验方法,如果 D-W 值在2附近(1.7~2.3),则说明残差独立。D-W 检验结果在线性回归中能自动计算并输出。

由线性回归结果可知,本例的D-W值为 1.847,在 1.7~2.3 范围内,认为残差独立。

(4)多重共线性检验
共线性是指在线性回归分析时,出现的自变量之间彼此相关的现象。使用SPSSAU进行多元线性回归时,分析结果会自动输出VIF值,用来判断是否存在共线性。一般VIF值大于10(严格大于5),则认为存在严重的共线性有些文献也以容忍度作为判断共线性的指标,容忍度为VIF值的倒数,容忍度大于0.1则说明没有共线性(严格是大于0.2)。研究时二者选其一即可,一般描述VIF值。

从上表可以看出,VIF值均小于5,说明不存在共线性问题。如果数据存在共线性,可以手动移除相关性非常高的变量,或者改用逐步回归、岭回归等方法进行分析。多重共线性检验及其处理方法可以参考下面这篇文章:

多重共线性检验及处理方法(附案例教程)


5

回归分析结果报告


线性回归分析结果如下:

(1)模型公式构建
从上表可知,将年龄,教育年限,工龄,现雇佣年作为自变量,而将工资作为因变量进行线性回归分析,回归模型显著,F=111.783,p<0.01。从上表可以看出,模型公式为:工资=-370.698 + 17.591*年龄 + 22.373*教育年限-0.034*工龄 + 5.353*现雇佣年

提示:构建回归模型使用非标准化回归系数,它是方程中不同自变量对应的原始回归系数,反映了在其他自变量不变的情况下,该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程,才可以对因变量进行预测。)

(2)自变量影响大小比较
其中年龄(Beta=0.360,p<0.01)、教育年限(Beta=0.342,p<0.01)会对工资产生显著正向影响;工龄(Beta=0.000,p=0.989)、现雇佣年(Beta=0.062,p=0.052)不会对工资产生影响。

提示:自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大,说明该自变量对因变量的影响越大。标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性。)

四、总结


划重点

1、应用:多元线性回归分析用于分析变量之间的影响关系,因变量为定量数据,自变量可以为定量数据或者定类数据,定类数据时需要进行哑变量处理再分析。


2、前提条件:若自变量为定量数据,需要与因变量之间满足线性关系,可通过散点图或者相关分析进行检验。残差需要满足正态性、方差齐性和独立性。正态性可以通过检验残差直方图进行检验;方差齐性通过残差散点图进行检验;独立性通过D-W检验进行判断。自变量之间多重共线性通过VIF值进行判断。


3、F检验:用于检验模型整体是否有统计学意义。


4、t检验:用于判断各个回归系数显著性,检验各自变量对因变量影响是否显著。


5、R方与调整后R方:用于判断模型的拟合优度,通常越大越好。


6、非标准化回归系数(B):构造多元线性回归模型使用非标准化回归系数,由此得到的回归模型才能用来预测。


7、标准化回归系数(Beta):比较自变量对因变量影响大小使用标准化回归系数,绝对值越大,影响越大。



参考文献:周俊,马世澎. SPSSAU科研数据分析方法与应用.第1版[M]. 电子工业出版社,2024.



更多毕业论文相关资料直通车:

【喜报】SPSSAU出新书啦!文末送会员抵扣码

科研论文排版痛点:三线表规范格式制作与调整

毕业论文能不能引用SPSSAU?如何正确引用?分析结果是否可靠?

本科生毕业论文答辩 | 如何应对导师有关数据研究方面的提问?

回归分析有多少种?毕业论文回归模型该怎么选?如何操作和分析?

毕业论文常见分析方法数据格式汇总

大学生进——毕业论文选题与研究方法确定

毕业论文写作 | 问卷分析思路框架整理(量表&非量表)

毕业论文写作 | 常用分析方法整理

毕业论文 | 数据标准化、中心化等17种无量纲化方法

毕业论文 | 超高频数据分析方法分类汇总

毕业论文 | 那些你找不到的常见标准的参考文献,SPSSAU帮你整理好了,速取

毕业论文 | 13种权重计算相关方法汇总

毕业论文 | 数据分析方法分类汇总

毕业论文 | 问卷调查数据常见分析方法

毕业论文 | 三线表规范格式调整


以上就是今天的全部内容啦~

若您想看其他干货内容

请在评论区告诉SPSSAU







数据分析救命神器

让你的数据处理

非常简单!


点击下方  跳转至SPSSAU官方账号





SPSSAU

数据科学分析平台

www.spssau.com



SPSSAU
SPSSAU官网: https://spssau.com
 最新文章