Stata:线性与对数线性函数形式选择-imfreg

文摘   教育   2024-11-21 22:00   山西  

👇 连享会 · 推文导航 | www.lianxh.cn

作者:陈宇灿 (中山大学)
邮箱:chenyc56@mail2.sysu.edu.cn

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

编者按:本文主要参考自下文,特此致谢!
Source:Shehata E, Mickaiel S. LMFREG: Stata module to Compute OLS Linear vs Log-Linear Functional Form Tests[J]. 2012. -Link-


目录

  • 1. 简介

  • 2. 模型选择指标介绍

    • 2.1 R-squared

    • 2.2 Log Likelihood Function (LLF)

    • 2.3 Antilog R-squared

    • 2.4 Box-Cox Test

    • 2.5 Bera-McAleer (BM) Test

    • 2.6 Davidson-Mackinnon(DM) Test

  • 3. lmfreg 命令介绍

    • 3.1 lmfreg 命令安装

    • 3.2 lmfreg 命令语法

    • 3.3 lmfreg 命令示例

  • 4. 参考资料

  • 5. 相关推文



1. 简介

在利用 Stata 进行 OLS 回归分析时,模型设定常常有水平—水平、水平—对数、对数—水平、对数—对数四种形式。其中在对数形式的函数设定中,回归系数有弹性与半弹性的经济学含义。在实证研究中,研究者经常苦恼于如何选择合适的函数形式。

对于非嵌套模型,我们常常采用 RESET 检验以及比较调整 R-Squared 的方法来选择模型;而对于嵌套模型,我们常常利用 F 检验来进行模型选择。本文将结合 lmfreg 命令,全面地介绍 Linear Model 与 Log-Linear Model 模型设定的检验原理与 Stata 实操。

2. 模型选择指标介绍

本文中研究的 Linear Model(Model I)为常规的线性模型,即回归方程如下所示:


Log-Linear Model(Model II)由下述方程所示:


假定以上模型均满足 Gauss-Markov 假定,扰动项 服从正态性假定,即:


2.1 R-squared

该方法的核心思想是比较两个模型的拟合优度,并选取模型拟合优度较大的作为最优选择。其中,拟合优度可由统计指标 (R-Squared)表示:


如果考虑模型中解释变量 的数目对拟合优度 R-Squared 的影响,我们还可以对其变量个数 施加“惩罚”,利用 (adj-R-Squared)来比较:


在解释变量个数不同的非嵌套模型中,常常使用 进行模型选择。由于本文中两个模型的解释变量个数相同,因此可以只使用 。基本思路是分别对 (1)、(2) 进行 OLS 估计,选择两个模型中 更大的一个作为真实模型数据的生成过程。

2.2 Log Likelihood Function (LLF)

对数似然函数 (LLF) 源于极大似然估计 (Maximum Likelihood Estimation,MLE)。对于线性模型 (Model I),根据有关计量理论可以知道:当扰动项服从正态分布时,根据正态分布理论,在给定 的条件密度函数为:


进而根据似然的定义,我们可以得到对数似然函数 (LLF):


通过极大似然估计可以得到模型的 ML 估计量 ,将估计量代入上式中可以得到模型的极大对数似然。其中 Model I 的对数似然为:


对于具有对数形式被解释变量,Model II 的对数似然为:


基于 MLE 最大化似然函数的思想,我们可以从比较 LLF 的角度进行模型选择。基于更优的模型应具有更大的 LLF 这一推断,我们通过选择 LLF 较大的模型作为回归模型。

2.3 Antilog R-squared

Antilog 顾名思义为反对数,换言之也就是指数 (exp)。从直观上看该方法的思想为利用 exp 与 log 的互逆关系构造相同水平上的回归方程进而计算拟合优度 。模型 (1)、(2) 的 Antilog- 可以通过下面流程得到:

2.3.1 线性模型(Model I)

基于 Model II 的拟合值,用 进行无常数项的回归,将得到的 定义为 Model I 的 Antilog R-Squared。

2.3.2 对数模型(Model II)

基于 Model I 的拟合值,用 进行无常数项的回归,将得到 定义为 Model II 的 Antilog R-Squared。

再根据 2.1 中的思想,从备选模型中选择 Antilog- 更大的模型作为我们的回归模型。

2.4 Box-Cox Test

Box-Cox Test 源于统计分析中著名的 Box-Cox 变换:。其中


参数 代表了不同的变量代换。本文研究的 Model I 与 Model II 的区别正是 Box-Cox 变换中 =0 的特例,我们可以通过假设检验构造统计量来进行模型选择:Box 与 Cox 在 1964 年基于 Box-Cox 变换提出了 Box-Cox 检验。

该检验的原假设为:。该条件对应的是选择 Model II 中的对数形式模型,Box-Cox 检验统计量由下式给出:


在大样本的情况下,Box 与 Cox 提出当 成立时,该统计量服从自由度为 1 的卡方分布。基于上述构造,当我们拒绝原假设时,我们应该选择对数模型 Model II,而当我们无法拒绝原假设时,我们应选用线性模型Model I。

更进一步对于具有偏态的被解释变量 时,我们也可以采用 Box-Cox 提出的确定最优 的方法,利用 Box-Cox 变换使 更接近正态分布,此时对于线性模型而言会具有更好的准确度和更小的方差。

也许你已经从 2.3 中隐隐发现了对于两个备选模型,当我们在构造 Antilog R-squared 时,具体的做法是将 Model II 的拟合值的指数对 Model I 的真实值进行回归,同时将 Model I 的拟合值的对数对 Model II 的真实值进行回归。

上述回归方法,在对 Model I 进行验证时利用了 Model II 的水平拟合值,并通过 Antilog R-Squared 反映出来的 Model II 能否捕捉 Model I 原始样本数据 中的大部分信息来进行选择。反之对 Model II 进行验证的方法类似,使用了 Model I 的对数值。

一言以蔽之,Antilog R-Squared 方法是“你中有我,我中有你”交互融合来进行比较。下面将介绍的 Bera-McAleer(BM) Test 与 Davidson-Mackinnon(DM) Test 也具有类似的特点。

2.5 Bera-McAleer (BM) Test

针对 Model I 与 Model II 进行 BM 检验的流程如下:

2.5.1 线性模型(Model I)

  • Step1:将 进行无常数项回归,并记录所得的残差为
  • Step2:将 与 Step1 中所得的残差 进行无常数项回归;
  • Step3:对 Step2 中 的系数 统计显著性进行假设检验。

2.5.2 对数模型(Model II)

  • Step1':将 进行无常数项回归,并记录所得的残差为
  • Step2':将 与 Step1 中所得的残差 进行无常数项回归;
  • Step3':对 Step2 中 系数 的统计显著性进行假设检验。

Bera 与 McAleer 提出在进行上述流程的原始模型更优的原假设下,其系数 的 F 统计量服从第一自由度为 1,第二自由度为 N-K-2 的 F 分布。于是当 Step3 中拒绝原假设时,意味着我们应该选择 Model II;而当 Step3' 中拒绝原假设时,我们应该选择 Model I。

2.6 Davidson-Mackinnon(DM) Test

类似地,Davidson 与 Mackinnon 提出的 DM 检验的流程也可表示如下:

2.6.1 线性模型(Model I)

  • Step1:基于 Model II 定义两个模型拟合值的差异
  • Step2:基于 Model I 的水平值,将 进行无常数项回归;
  • Step3:对 Step2 中 系数 的统计显著性进行假设检验。

2.6.2 对数模型(Model II)

  • Step1':基于 Model I 定义两个模型拟合值的差异
  • Step2':基于 Model II 的对数值,将 进行无常数项回归;
  • Step3':对 Step2' 中 系数 的统计显著性进行假设检验。

与 BM 检验的思路类似,Davidson 与 Mackinnon 指出在上述流程的原始模型更优的原假设下,其系数 的 F 统计量同样服从第一自由度为 1,第二自由度为 N-K-2 的 F 分布。因此当 Step3 中拒绝原假设时,意味着我们应该选择 Model II;而当 Step3' 中拒绝原假设时,我们应该选择 Model I。

3. lmfreg 命令介绍

下面我们将结合上述理论的 Stata 应用,利用 Elmessih Shehata 与 Sahra Khaleel 编写的 lmfreg 命令来选择合适的模型。

3.1 lmfreg 命令安装

ssc install lmfreg, replace

3.2 lmfreg 命令语法

lmfreg depvar indepvars [if] [in], [ noconstant coll]

其中,

  • depvar:模型的被解释变量
  • indepvars:模型的解释变量
  • nonconstant:指定回归为不含有常数项的回归;
  • coll:指定模型在回归时保留共线的变量。

3.3 lmfreg 命令示例

. use "http://fmwww.bc.edu/repec/bocode/l/lmfreg.dta", clear
. lmfreg y x1 x2

==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
y = x1 + x2
------------------------------------------------------------------------------
Sample Size = 17
Wald Test = 273.3662 | P-Value > Chi2(2) = 0.0000
F-Test = 136.6831 | P-Value > F(2 , 14) = 0.0000
(Buse 1973) R2 = 0.9513 | Raw Moments R2 = 0.9986
(Buse 1973) R2 Adj = 0.9443 | Raw Moments R2 Adj = 0.9984
Root MSE (Sigma) = 5.5634 | Log Likelihood Function = -51.6471
------------------------------------------------------------------------------
- R2h= 0.9513 R2h Adj= 0.9443 F-Test = 136.68 P-Value > F(2 , 14) 0.0000
- R2v= 0.9513 R2v Adj= 0.9443 F-Test = 136.68 P-Value > F(2 , 14) 0.0000
------------------------------------------------------------------------------
y | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
x1 | 1.062 0.267 3.98 0.001 0.490 1.634
x2 | -1.383 0.084 -16.50 0.000 -1.563 -1.203
_cons | 130.707 27.094 4.82 0.000 72.595 188.818
------------------------------------------------------------------------------
==============================================================================
*** OLS Linear vs Log-Linear Functional Form Tests
==============================================================================
(1) R-squared
Linear R2 = 0.9513
Log-Log R2 = 0.9711
---------------------------------------------------------------------------
(2) Log Likelihood Function (LLF)
LLF - Linear = -51.6471
LLF - Log-Log = -47.5914
---------------------------------------------------------------------------
(3) Antilog R2
Linear vs Log-Log: R2Lin = 0.9649
Log-Log vs Linear : R2log = 0.9576
---------------------------------------------------------------------------
(4) Box-Cox Test = 4.0556 P-Value > Chi2(1) 0.0440
Ho: Choose Log-Log Model - Ha: Choose Linear Model
---------------------------------------------------------------------------
(5) Bera-McAleer BM Test
Ho: Choose Linear Model = 11.9464 P-Value > F(1, 13) 0.0043
Ho: Choose Log-Log Model = 6.1092 P-Value > F(1, 13) 0.0280
---------------------------------------------------------------------------
(6) Davidson-Mackinnon PE Test
Ho: Choose Linear Model = 11.9462 P-Value > F(1, 13) 0.0043
Ho: Choose Log-Log Model = 6.1092 P-Value > F(1, 13) 0.0280
------------------------------------------------------------------------------

上述结果表明方法 (1)—(6) 均倾向于拒绝选择线性模型,故此时应选择对数模型即 进行回归。

. sysuse nlsw88, clear
. lmfreg wage hours ttl_exp tenure age

==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
wage = hours + ttl_exp + tenure + age
------------------------------------------------------------------------------
Sample Size = 2227
Wald Test = 203.7791 | P-Value > Chi2(4) = 0.0000
F-Test = 50.9448 | P-Value > F(4 , 2222) = 0.0000
(Buse 1973) R2 = 0.0840 | Raw Moments R2 = 0.6764
(Buse 1973) R2 Adj = 0.0824 | Raw Moments R2 Adj = 0.6758
Root MSE (Sigma) = 5.5240 | Log Likelihood Function = -6963.6318
------------------------------------------------------------------------------
- R2h= 0.0840 R2h Adj= 0.0824 F-Test = 50.94 P-Value > F(4 , 2222)0.0000
- R2v= 0.0840 R2v Adj= 0.0824 F-Test = 50.94 P-Value > F(4 , 2222)0.0000
------------------------------------------------------------------------------
wage | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
hours | 0.055 0.012 4.75 0.000 0.032 0.077
ttl_exp | 0.285 0.032 8.97 0.000 0.223 0.347
tenure | 0.037 0.026 1.41 0.159 -0.014 0.088
age | -0.121 0.039 -3.14 0.002 -0.197 -0.045
_cons | 6.714 1.572 4.27 0.000 3.631 9.796
------------------------------------------------------------------------------
==============================================================================
*** OLS Linear vs Log-Linear Functional Form Tests
==============================================================================
(1) R-squared
Linear R2 = 0.0840
Log-Log R2 = 0.1725
---------------------------------------------------------------------------
(2) Log Likelihood Function (LLF)
LLF - Linear =-6963.6318
LLF - Log-Log =-5879.4299
---------------------------------------------------------------------------
(3) Antilog R2
Linear vs Log-Log: R2Lin = 0.0772
Log-Log vs Linear : R2log = 0.1629
---------------------------------------------------------------------------
(4) Box-Cox Test = 1084.2019 P-Value > Chi2(1) 0.0000
Ho: Choose Log-Log Model - Ha: Choose Linear Model
---------------------------------------------------------------------------
(5) Bera-McAleer BM Test
Ho: Choose Linear Model = 0.2863 P-Value > F(1, 2221)0.5926
Ho: Choose Log-Log Model = 7.0295 P-Value > F(1, 2221)0.0081
---------------------------------------------------------------------------
(6) Davidson-Mackinnon PE Test
Ho: Choose Linear Model = 0.2863 P-Value > F(1, 2221)0.5927
Ho: Choose Log-Log Model = 7.0295 P-Value > F(1, 2221)0.0081
------------------------------------------------------------------------------

从上述检验结果比较可以发现方法 (1)—(3) 倾向于选择选择对数模型,(4)—(6) 倾向于选择线性模型。与 lmfreg 自带的数据集结果不同,此时不同方法给出了截然相反的模型选择策略,那么如果遇到这种情况,我们又该作何选择呢?

一般情况下,对工资、成绩、房价等被解释变量取对数能使得该变量的分布更趋近于正态分布,因此方法 (1) 和 (3) 中往往会出现 Log-Linear Model 更优的情况。而当方法 (4)—(6) 显著拒绝选择选择对数模型时,我们应对采用 R-Squared 与 LLF 得到的结论提出一定的质疑,到底是由于对数变换使得数据更加平滑,还是由于真实的模型更倾向于对数形式的解释变量,这一点结合从研究主题的有关理论和文献参考,综合考虑后再做出判断。

例如在研究影响房产价格的特征因素时,在经济学家 Sherwin Rosen 提出的 Hedonic 特征价格模型中,Rosen 对房价给消费者带来的效用建模,推导出消费者对特征房产的出价函数,再结合消费者效用最大化的一阶条件求解出均衡条件位于消费者出价曲线与特征价格函数相切处,此时模型均衡如下图所示:

从上述图像的性质可以发现,房产价格 P 与其特征向量集 Z 的函数关系应符合对数价格的变动,因此在研究 Hedonic 模型时应该采用对数 ln(price) 作为模型的被解释变量。

总而言之,利用 lmfreg 得到的检验结果仅仅是为模型选择提供了参考,在进行实证研究设定模型形式时不能忘记的是模型背后支撑的理论基础,同时我们在操作时也应适当参考有关论文的做法,以选择最合适的函数形式。

4. 参考资料

  • MacKinnon J G, White H, Davidson R. Tests for model specification in the presence of alternative hypotheses: Some further results[J]. Journal of Econometrics, 1983, 21(1): 53-70. -PDF-
  • Box G E P, Cox D R. An analysis of transformations[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1964, 26(2): 211-243. -PDF-
  • Baltagi B H. Testing linear and loglinear error components regressions against Box-Cox alternatives[J]. Statistics & probability letters, 1997, 33(1): 63-68. -PDF-
  • Godfrey L G, Wickens M R. Testing linear and log-linear regressions for functional form[J]. The Review of Economic Studies, 1981, 48(3): 487-496. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 模型, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:面板数据
    • FE!FE!面板固定效应模型:你用对了吗
    • Stata:双向固定效应模型中是否要控制公司年龄?
    • 因果面板数据模型的矩阵补全方法
    • Stata:如何处理固定效应模型中的单期数据-xtfesing
    • Stata:动态面板数据模型与xtabond2应用
    • Stata:如何估计包含非时变变量的动态面板模型-xtseqreg
    • xtdpdgmm:线性动态面板模型的GMM估计及Stata实现
    • xtheckmanfe:面板Heckman模型的固定效应估计
    • regife:面板交互固定效应模型-Interactive Fixed Effect
    • 异质性分析:系数平滑可变模型
    • 引力模型-高维固定效应面板泊松模型
    • 面板数据模型-xtdcce2:动态共同相关和截面相关
    • Stata:动态面板数据模型OLS估计的偏差
    • ocmt:高维固定效应模型的变量筛选问题
    • 面板变系数模型:每家公司都有一个斜率
    • Stata实操陷阱:动态面板数据模型
    • xtseqreg:面板模型如何估计不随时间变化的变量
    • Stata新命令:ppmlhdfe-面板计数模型-多维固定效应泊松估计
    • Stata:非对称固定效应模型
    • Stata: 面板数据模型一文读懂
    • Stata: 动态面板门槛模型
  • 专题:Probit-Logit
    • 全面解读Logit模型
    • Stata:logistic 回归模型中的 ROC 与 AUC-lroc
    • Stata:面板混合选择模型-cmxtmixlogit
    • Logit-Probit:非线性模型中交互项的边际效应解读
    • reg2logit:用OLS估计Logit模型参数
    • feologit:固定效应有序Logit模型
    • ZIP-too many Zero:零膨胀泊松回归模型
    • Stata:多元 Logit 模型详解 (mlogit)
    • Stata:Logit模型一文读懂
    • 详解 Logit/Probit 模型中的 completely determined 问题
    • Stata:Logit 模型评介
    • 二元选择模型:Probit 还是 Logit?
    • Stata:何时使用线性概率模型而非Logit?
    • Stata:嵌套 Logit 模型 (Nested Logit)
    • Stata:二元Probit模型
    • 司继春:二元选择模型与计数数据
    • 动态 Probit 模型及 Stata 实现



尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章