异方差太难?检验通不过?横截面分析难题的十大暴击!

学术   2024-11-12 19:31   陕西  

转载:计量与统计





横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。


在分析横截面数据时,应主要注意两个问题:

1.异方差问题。由于数据是在某一时期对个体或地域的样本的采集,不同个体或地域本身就存在差异

2.数据的一致性问题。主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的统计标准是否一致。



本文将从模型检验出发,解答模型初级检验(T、F 检验)、二级检验(异方差、自相关、多重共线性)常见的疑难杂症。





Q1:差分,取对数为了啥?


取对数就是进行平滑,不改变趋势;差分就是看增长了多少,经济含义是增量;但是一般的处理是先取对数后取差分,这样的经济含义是增长率,默认时间序列是关于时间 T 连续的。

平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如 TF-IDF 计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

取对数后,可以将乘法计算转换为加法计算。

某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。

•取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳,也消弱了模型的共线性、异方差性等。

•在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b 

两边同时对 X 求导:

1/Y*(DY/DX)=a*1/X

b=(DY/DX)*(X/Y)

=(DY*X)/(DX*Y)

=DY/Y)/(DX/X) 这正好是弹性的定义



Q2:模型需要做哪些检验


•要考虑经济意义(符号是否正确,系数大小是否合理)——T、F 检验等;

•模型前期要根据其特点做相关关系检验、平稳、协整检验、因果检验等;

•建完模型之后要对拟合度,系数显著性检验,方程显著性和共线性检验,如有共线性,需要通过删选变量或逐步回归或主成分分法等进行修正;

•还要对残差做自相关和异方差的检验。 



Q3:T检验和F检验有啥区别


单样本T检验是比较已知均值与抽样均值是否差异。两独立样本T检验比较两个抽样之间均值的是否有差别,当取样的个体存在相关时,需要用到配对T检验来比较配对设计的两个样本之间是否有差别。



T检验的原假设是要看两个取样均值相等,备择假设是不相等。F是要看实验因素是否有影响。原假设是所有水平的均值相等,备择假设是所有水平不全相等。T验和F使用的统计量不同,这个应该和数据的分布有关。




Q4:什么原因会导致参数的T检验没有通过?


几种可能性:样本量的过少、样本的异方差、序列相关性、理论的假设与实际样本的假设是否相符、模型是否遗漏变量等。



Q5:如何判断是否存在多重共线性?


1.系数判定法 

1)如果决定系数很大(一般大于0.8),但模型中全部或部分参数却不显著,那么,此时解释变量之间往往存在多重共线性。 

2)从经济理论知某些解释变量对因变量有重要影响,或经检验变量之间线性关系显著,但其参数的检验均不显著,一般就应怀疑是多重共线性所致。 

3)如果对模型增添一个新的解释变量之后,发现模型中原有参数估计值的方差明显增大,则表明在解释变量之间(包括新添解释变量在内)可能存在多重共线性。 

2.用解释变量之间所构成的回归方程的决定系数进行判别 

3.逐步回归判别法:被解释变量逐个引入解释变量,构成回归模型,进行参数估计,根据决定系数的变化决定新引入的变量是否能够加入模型之中。首先将对所有的解释变量分别作回归,得到所有的模型,取决定系数最大的模型中的解释变量加入模型,作为第一个引入模型的变量;其次,再对剩余的解释变量分别加入模型,进行二元回归,再次,取决定系数最大的解释变量加入模型;依次做下去,直到模型的决定系数不再改善为止。 

4.方差膨胀因子 VIF 判别法:对于多元线性回归模型,一般当 VIF>10 时(此时 >0.9),认为模型存在较严重的多重共线性。 



Q6:如何处理多重共线性?


1.删除不重要的自变量:自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果。 

2.追加样本信息:多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。但是,由于资料收集及调查的困难,要追加样本信息在实践中有时并不容易。

3.利用非样本先验信息:非样本先验信息主要来自经济理论分析和经验认识。充分利用这些先验的信息,往往有助于解决多重共线性问题。

4.改变解释变量的形式:改变解释变量的形式是解决多重共线性的一种简易方法,例如对于横截面数据采用相对数变量,对于时间序列数据采用增量型变量。

5.逐步回归法:是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。

6.可以做主成分回归:利用主成分提取的原理(比如变量间方差最大等)提取新的变量,新变量间一般不存在线性相关(但也会存在如何给新变量命名的问题),这是比较常用的一种降维方式。 

特别注意: 

•逐步回归不解决多重共线性,只是通过对比显著程度来挑选变量。优点就是可以保证所有的系数都是显著的,当然显著的标准可以自定。 

•岭回归因为是一种稳健的估计,所以说可以非常有效的解决多重共线性问题。普通最小二乘是不稳健的,原因就在于当变量存在共线性的时候,求逆就变成了一件非常坑爹的事情。两者好坏取决于个人,在统计问题中,没有最好的只有最合适的,当然在解决共线性这一块,毫无疑问岭回归,当然很多时候是可以几种方法结合在一起使用的,一般来说我处理问题的话都是先用逐步回归过一遍所有的变量,当变量很多的时候。



Q7:如何判断数据是否存在异方差问题?


判断异方差的检验有很多,比如G-Q检验啦,怀特检验啦……个人较为推荐怀特,因为它对异方差的表现形式限制最少(G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况) 

步骤: 

1.对原模型进行OLS回归,得到残差ei 

2.以ei²为被解释变量,以各种解释变量、各解释变量的平方项、解释变量之间两两交叉项为解释变量建立辅助回归方程 

3.根据辅助回归方程估计结果构造并计算统计量 nR²,它服从卡方分布(自由度为辅助回归式中解释变量个数) 

4.根据临界值判断,若大于临界值,拒绝同方差假定;小于临界值,则不拒绝同方差假定 

注意: 

(1)辅助回归中可引入解释变量的更高次幂 

(2)在多元回归中,由于解释变量个数太多,可去掉辅助回归式中解释变量间的交叉项



Q8:怎么修正异方差? 


1.WLS(加权最小二乘估计)是一种特殊的广义最小二乘估计,其思想就是对于误差越大的关系额赋予更加大的权重。可以得到关于GLS的稳健的统计量。GLS系数的解释要回到原先的方程中去。如果分析的问题不是个体的数据,而是一个组或者是一个地区的数据平均值,那么就会出现系统性的异方差性。 

2.FGLS(可行的最小二乘估计),当我们不知道误差函数的时候,可以采用相应的模型,然后使用数据来估计相应的参数,得到相应的函数形式,最后替代GLS估计中的函数,后面的操作就不变。 



Q9:自相关检验重要么? 


一般情况下时间序列数据都存在自相关,截面数据都存在异方差。所以大多情况下在研究时间序列时自相关检验是十分重要的一步。当样本容量足够大时,残差可以取代随机误差项,所以一般认为只要残差之间存在自相关时,说明原来的回归模型存在自相关。可用Ljung-Box test, LM test来检验,随软件输出的DW值只可检验一阶自相关。



Q10:怎么修正自相关问题? 


可以用广义差分法,科克伦—奥克特迭代法,一阶差分法,德宾两步法……





计量经济学
计量交流,做中国最大的计量软件交流社群
 最新文章