面板数据存在衡量偏误或测量偏误时如何估计?-xtewreg

文摘   教育   2024-10-10 22:01   山西  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。  


作者: 谢雁翔 (南开大学)
邮箱: xyxmask1995@163.com

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 引言

    • 1.1 托宾 Q 理论

    • 1.2 边际 Q 还是平均 Q ?

    • 1.3 高阶矩的争论

  • 2. 模型与估计

    • 2.1 模型

    • 2.2 估计方法

    • 2.3 矩 (Moments)

    • 2.4 累积量 (Cumulants)

  • 3. 识别假定与检验统计

    • 3.1 识别假定及应用范围

    • 3.2 其他估计量与统计检验

  • 4. xtewreg 命令

    • 4.1 安装及语法结构

    • 4.2 储存结果

  • 5. 案例运行——债务与投资的例子

    • 5.1 OLS 与 XTEWREG 的对比

    • 5.2 bootstrap 自举法

  • 6. 参考文献

  • 7. 相关推文



编者按:测量误差」 (Measurement Error,亦称「衡量偏误」) 是内生性的主要来源之一。相对于另外两种文献中经常提及的内生性来源——「遗漏变量」、「互为因果」,大家对「测量误差」的关注非常有限。在实证研究过程中,若解释变量存在测量误差,往往会使得研究者无法一致地估计解释变量的系数。

在此前的推文 第三种内生性:衡量偏误(测量误差)如何检验-dgmtest? 中,我们介绍了如何检验是否存在衡量偏误。今天这篇推文,将为大家分享如何应对衡量偏误问题,即「模型中核心变量存在衡量偏误时的估计方法」。

在连玉君老师此前的一份幻灯片中,也提及了本文的方法,参见 内生性:来源及处理方法-幻灯片下载

本文部分内容参考如下内容,特此致谢!

Timothy Erickson, Robert Parham, Toni M. Whited, 2017, Fitting the Errors-in-variables Model Using High-order Cumulants and Moments, Stata Journal, 17(1): 116–129. -PDF-, -PDF2-

第三届“Stata 中国用户大会”-Stata 在公司投融资研究中的应用-覃家琦. -Link-

1. 引言

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」

1.1 托宾 Q 理论

托宾 (Tobin) 于 1969 年提出了著名的投资(托宾) q 理论,他指出新增资产预期利润的净现值与重置成本的比率将是决定投资的重要因素,这便是著名的托宾 q 值,由此便引出了企业资产的边际 q 值。随后,Summers (1981)和 Hayashi (1982) 进一步发展了托宾 q 理论并推导出托宾 q 理论的具体投资函数,即投资与资本存量的比率是 q 的增函数。自此,托宾 q 理论逐步成为投资理论的一个重要分支。为检验托宾 q 理论 , 对于边际 q 值的计算至关重要, 边际 q 值的高低在一定程度将决定公司所拥有的投资机会的多寡,但其本身却具有不可观测性。

1.2 边际 Q 还是平均 Q ?

为解决这一问题, Furstenberg (1977) 、Lindenberg 和 Ross (1981) 、 Lang 和 Litzenberger (1989) 、Chung 和 Pruitt (1994) 等学者分别提供了使用平均 q 值来代替边际 q 值的详细计算方法,即公司市场价值对其资产重置成本的比率。但 Hayashi (1982) 指出上述替代是有条件的,若企业拥有一定的市场势力而非完全的价格接受者, 平均 q 值就会高于边际 q 值。由此会产生内生性问题。

内生性问题的来源主要有 「遗漏变量」「互为因果」「测量误差」。然而,相对于另外两种问题,现有文献对于 「测量误差」 (Measurement Error,也称为「衡量偏误」) 的关注非常有限。在实证研究分析中,Erickson 和 Whited (2000) 指出证券市场有效性的缺乏会使托宾 q 值不可避免地存在严重的衡量偏误,连玉君等 (2007, 2008) 也指出在中国股市仅接近甚至尚未达到弱势有效的背景下,平均 q 值的衡量偏误,将导致统计推断失效。

假设存在以下一元线性回归模型为真实模型:



通常,由于无法直接观测到真实值 ,故会以观测值 作为真实值 的度量,从而有 。但因为存在测量偏误 ,即:



因为潜在的 会导致 违反经典假设,从而得到有偏估计。对于测量误差的检验,详见连享会推文 「第三种内生性:衡量偏误(测量误差)如何检验-dgmtest?」。

1.3 高阶矩的争论

鉴于托宾 q 理论在投资理论与实证中的重要地位,JFE 的联合主编 Toni Whited 教授从 1992 年就对平均 q 值的度量误差问题进行了持续的关注,并发表了一系列论文对此问题进行缓解。最后,在 2002 年提出了高阶矩(high-order moments)方法,并相继推出了 Stata 命令 ewregxtewreg ,专门用来处理托宾 q 在投资理论中的度量误差问题。然而 Almeida et al. (2010) 对 EW 提出高阶矩(high-order moments) 方法进行了否定,认为与简单 IV 法和 AB 动态面板估计相比,EW 方法估计效果最差。对此,EW (2012) 基于 Almeida 的数据和程序,对比了 Higher Order Moments GMM (HGMM), Dynamic Panel Data, IV 三种方法,并认为在正确的设定下,三种方法都表现良好,但高阶矩估计最容易检测出测量偏误。 Stata 官方在 2017 年对 xtewreg 进行了更新。

2. 模型与估计

借鉴 Erickson 和 Whited (2002) 和 Erickson、Jiang 和 Whited (2004) 提出的 EIV 模型以及高阶矩和累积量估计。

2.1 模型

假设存在一组可观测的向量序列 有: 同时假设存在一组不可观测的向量序列 ,有 借鉴经典的 EIV 模型中的多元估计,存在未知参数 ,使得 相关。即:



(1)式中包含 个回归变量 ,根据(2)式,其由测度存在偏误的变量 替代,同时(1)式中包含 个完美测度无偏误的回归变量 。在(2)式中,我们假设 之间是单位斜率关系且不存在截距项,进而估计(1)式。此外,我们对(1)式和(2)式中的变量做出如下假设:① 是独立同分布的向量序列;② 的各阶矩均为有限的; ③ 独立于 中的个体元素相互独立;④ 是正定的.

在进行估计之前,将完全测量的变量进行了部分划分,并根据总体残差重写了模型。 上的总体线性回归的 残差为 其中:



的总体线性回归对应的 残差为:



之所以出现 是因为(2)式以及 的独立性,进而有:



从(2)式的两边减去 得到:


与此类似, 的总体线性回归的残差形式是


式(1)中 相互独立,意味着:



因此,从式(1)的两边都减去 ,有:


2.2 估计方法

累积量和矩估计量都是基于两步估计法,第一步是用最小二乘估计值替代:



在(3)式和(5)式,第二步是使用样本累积量或矩 的关系估算

关于此步骤的实际操作,应将所有可能误测的变量归为向量 而不是向量 正确的分类很重要,即使一个或多个错误计量的变量将导致统计推断丧失主要的经济意义。如果将任何错误度量的回归变量归类为完全度量,则 OLS 估计值 将产生偏误。 在这种情况下,(3)式和(5)式将被错误指定。

2.3 矩 (Moments)

高阶矩估计基于(3)式和(5)式得出的矩条件,通过将这两个方程的乘方取幂,将结果相乘,然后取双方的期望。 所得方程将数据的可观测高阶矩和交叉矩表示为 的非线性函数和不可观测变量的矩。 这些方程式将这些高阶矩视为参数。这些矩方程的一般形式为:



其中, and 是非负整数的向量, 可以得到:


然后,可以使用上述矩条件的子集构造一个广义矩估计(GMM),其中权重矩阵只是(6)式左侧可观测矩的协方差矩阵,并对其进行调整以考虑样本中 估算值的变化问题。正如在 Erickson 和 Whited(2002)更详细地解释的那样,由此很自然的考虑基于直到一定阶数 的矩的方程组,因此 xtewreg 命令考虑了基于阶数为 3、4、5 等高阶矩的方程组。

描述(6)式的一个简单示例,可用于构造一个估计量。考虑单个回归度量存在偏误的情况,因此 。 首先,将(5)式平方并将结果乘以(3)式,取双方的期望,得到:


类似地,如果将(3)式平方并将结果乘以(5)式,然后取期望值,则可以得出:



如果 然后将(7)式除以(8)式得到一个 的一致估计:



通过用样本矩代替总体矩,可以从(9)式推导出一个估计量。

2.4 累积量 (Cumulants)

正如 Erickson,Jiang 和 Whited(2014)所示,累积量估计为矩估计的渐近估计,它们具有方便的闭合形式。 以下估算方法的形式来自 Erickson,Jiang 和 Whited(2014)。 令 中的 阶和 中的 的累积量。累积量估计基于 Geary(1942)的结果,即对于任何 包含两个或多个正元素,累积量之间存在以下关系:



无穷多个方程式由(10)式给出,对于每个课允许的向量 。有方程:



表示(10)式的系统 M 方程组)。 如果 那么 就有可能求解。

考虑到 的估计量可能过度识别,即 。 假设 的一致估计,且令 是对称正定矩阵。则 的估计量为:



因为在 中$\boldsymbol{b}是线性的,所以(11)式有解:



具有完整的列秩时,与矩估计的情况一样,考虑基于累积量方程组的估计,该累积量方程组直到某个整数阶

3. 识别假定与检验统计

3.1 识别假定及应用范围

累积量和矩估计量均从回归变量的三阶和更高阶矩或累积量中得以识别。特别是,如 Erickson 和 Whited(2002)所示,对于每个常数向量 的识别要求至少应具有一个非零元素,其 的分布满足 。对于实际问题,此要求归结为具有非正态分布的偏误度量的回归变量。_

可以在(9)式中直观地看到此要求的一个示例,其中包含分母中的 $\boldsymbol{\eta}{i}$ 的第三阶矩。如果没有偏态分布,则该特定的三阶矩估计量是不确定的。非正态性的假设显然限制了这些估计量的适用性。例如,资产收益率通常近似呈正态分布,许多聚合变量通常近似呈对数正态分布,通常表示为自然对数。在这两种情况下,累积量或矩估计量不太可能有用。然而,在许多微观计量经济学环境中,尤其是在公司财务和会计领域,许多回归变量似乎是非正态分布的。累积量和矩估计量均从回归变量的三阶和更高阶矩或累积量中获得标识。

3.2 其他估计量与统计检验

矩估计和累积量估计都可以估计(1)式中完美测量变量 的系数,这可以从恒等式(4)中计算。 估计量还可以产生(1)式中总体确定系数的估计,可以写成:



类似地,矩估计和累积量估计可以针对(2)式中得出确定的总体系数的估计:



在(12)中, 下标是指第 个度量存在偏误的回归变量。 的标准误差是通过将各个分量的影响函数堆叠叠加以获得这些分量的协方差矩阵,然后使用增量法来计算的。 最后,除了三阶矩估计量带有一个不确定估计的回归量外, xtewreg 中包含的所有估计量都被过度标识。对于过度识别的限制,累积量和矩估计量都通过包含标准的 Hansen-Sargan 检验统计量检验。

4. xtewreg 命令

4.1 安装及语法结构

命令 xtewreg 估计了经典线性变量误差模型,其中面板数据上有任意多个错误测量的回归变量和完美测量的回归变量。它使用可观察变量的高阶累积量/矩中的信息来确定回归系数。

该程序实现了 Erickson 和 Whited (2000, 2002) 以及 Erickson,Jiang 和 Whited (2014) 的估计。可通过使用聚类加权矩阵 (推荐使用 panmethod = CLS) 或最小距离程序 (panmethod = CMD) 来分析面板数据,对于非平衡面板的估计可以对面板中的每个横截面进行估算,然后使用经典最小距离合并 (Erickson 和 Whited, 2012) 。

由于 xtewreg 需要去均值的数据(并且不会在内部计算固定效果),因此必须在使用 xtewreg 之前适当地对数据去均值化。注意:如果错误度量的回归系数等于零,或者错误度量的回归系数呈正态分布,则无法确定 Erickson-Whited 估计量。

安装方式:

. ssc install xtewreg
checking xtewreg consistency and verifying not already installed...
all files already exist and are up to date.
*也可以输入 findit xtewreg 并选择 SJ17-1 安装包安装

语法结构:

help xtewreg
*xtewreg depvar misindepvars [indepvars] [if] [in] , maxdeg [options]

上述语法中,misindepvars 是假设被测错的自变量,而 indepvars 是假设被完美测量的自变量。 对于多个误测变量,使用选项mismeasured() 指定误测自变量的数量。

  • (1)maxdeg (#) 表示设置要使用的累积量或矩的最高阶数。命令不提供 maxdeg () 的默认值,其设置是必须条件。最小值为 3,对应于精确识别的 Geary (1942) 估计量。不建议使用过高的阶数 (高于 8),因为模型的计算时间随着 maxdeg () 的增加而急剧增加。一般来说,数据量越大,可以使用的阶矩或累积量就越高。 建议合理起始值为 maxdeg (5) ,但应根据具体情况探索估计对 maxdeg () 不同值的敏感性。

  • (2)mismeasured (#) 声明模型中错误度量的自变量的数量。默认值为 1。使用此选项来区分 misindepvars 和 indepvars。例如,如果指定了 mismeasured (2) ,则将列出的前两个变量视为 misindepvars,将其余变量视为 indepvars。

  • (3)method (string) 指定是使用高阶累积量 (cml,默认) 还是使用高阶矩 (mom) 。尽管 xtewreg 支持两种方法,但不建议使用高阶矩估计器。这是因为在计算 GMM 目标函数时,高阶矩估计器需要数值最小化过程,而基于累积量的估计与闭式解是线性的。

  • (4)panmethod (string) 指定是通过使用用于累积量或矩估计量的聚类权重矩阵 (cls,默认) 还是通过使用最小距离估计量 (cmd) 组合横截面来执行面板估计。尽管 xtewreg 这两种方法中都支持面板数据,但传统的最小距离对于具有较大时间维度的面板可能需要较长的计算时间。不建议使用经典的最小距离,因为计算成本的消耗和模型的有限样本性质。

  • (5)bxint (numlist) 指定 misindepvars 上系数的起始值,此选项需要设置 method (mom) 。高阶矩估计器需要非线性目标函数的数值最小化,因此需要起始值。默认值是同时使用 OLS 系数和 maxdeg () 中的系数作为起始值。如果存在 个误测变量且希望提供 组可能的起始值,则 numlist 的阶数应为 。默认是同时使用 OLS 系数和 maxdeg = 3 起的系数起始值。

  • (6)centmom (string) 指定一个命令,该命令支持以中心矩来进行 检验的自举计算 (Bootstrap) 、判别过度识别检验的临界值并估计标准误差。string 可以设置,使用或重置。 centmom (set) 保存整个样本的矩条件值,应在使用 bootstrap 命令之前使用它。 与 xtewreg 一起使用 bootstrap 时,应指定 centmom (use) 。 centmom (reset) 重置保存的矩条件值,很少使用。为避免不必要的计算, xtewreg 保存了问题的结构 (与给定 maxdeg 相关的估计方程式) ,并且在两次执行之间测量误差。这在使用引导程序时特别有用,以避免为每次引导程序迭代构造方程式。此过程需要 Stata 12 或 更高版本

  • (7)hascons 指示 indepvar 已经包含一个常数变量,因此,估计过程不应添加常数。

  • (8)nocons 指定估算程序不添加常数。 使用此选项时,应验证估计中包括的所有变量的均值为 0,否则回归结果将不一致。

  • (9)noprn 表示不显示结果表。

4.2 储存结果

如同其他 Stata 中的估计,xtewreg 命令储存回归系数,标准误差和回归 R2 的估计值,在此表示为 rho2。 此外,该命令还返回每个测量方程式的 R2(表示为 tau2),它是测量质量的指标。tau2 指数的范围介于零和一之间,零表示无用的代理,而一则表示完美的代理xtewreg 命令还提供了对模型的过度识别限制的检验(Sargan-Hansen J 统计量)。xtewreg 将运行结果存储在 e()中:

Scalars
e(N) 观测值数量
e(rho) rho^2估计量
e(SErho) rho^2标准误
e(Jstat) Sargan–Hansen J统计量,用于过度识别检验
e(Jval) Jstat的p统计量
e(dfree) Jstat的自由度
e(obj) GMM目标函数的最小值
Macros
e(bxint) β的初始猜测数值
e(method) 使用估算方法 (CML or MOM)
e(panmethod) 使用估算方法 (CMD or CLS)
Matrices
e(b) 回归估计系数
e(V) 估计量的e(V)方差-协方差矩阵
e(serr) e(b)的e(serr)标准误
e(tau) e(tau)τ2的估计,代理准确性指标
e(SEtau) τ2的e(SEtau)标准误
e(vcrhotau) ρ2和所有τj2的e(vcrhotau)方差-协方差矩阵
e(w) e(w)加权矩阵,用于GMM估算

此外, xtewreg 设置了两个全局 Mata 变量:

EWSAVEDprb 保留给定数量的错误测量的独立变量 和给定的最大累积量或矩度 的问题结构 (即,符号估计方程式) 。生成这些方程式的计算量很大,并且 xtewreg 将最后一个估计的问题结构保存到 优化相同问题结构的重复估计。例如在使用 bootstrap 程序时,调用具有与上次使用的问题结构不同的问题结构的 xtewreg 将导致它输出消息“Problem structure different from last executed. Rebuilding problem”xtewreg将重建并保存新的符号估计方程式。

EWSAVEDfCent 保存通过指定 centmom (set) 生成并在指定 centmom (use) 时使用的中心矩条件。

5. 案例运行——债务与投资的例子

该案例来自 Compustat 的公司负债率数据集。 它包含对大约 11,000 家公司的超过 121,000 个公司—年读观测值。 变量名称定义如下:

  • gvkey—Compustat 唯一的公司识别代码。
  • fyear—公司会计年度。
  • lever—公司负债率, 定义为(流动负债中的长期债务总额)/总资产。
  • mtb—托宾 q 值,市场价值与重置成本之比。
  • tangib—固定资产,定义为总资产,厂房和设备(净值)/总资产。
  • logsales—公司销售额的自然对数(销售-周转净额)。
  • oi—公司营业收入,定义为折旧前的营业收入/总资产。

上述所有涉及金额的变量均以偏离公司平均值和年度平均值的方式提供,即做去均值处理。

use epw.dta,clear    //此处注意在下载命令包时应当一并下载案例数据
xtset gvkey //声明面板数据结构,bootstrap确保观测值,不声明year
*xtset gvkey fyear //运行此选项bootstrap会因为样本量过小而无法估计
summarize fyear gvkey lever mtb tangib logsales oi
*数据结构描述性统计,可知已经进行去均值化处理
. xtset gvkey fyear
panel variable: gvkey (unbalanced)
time variable: fyear, 1970 to 2011, but with gaps
delta: 1 unit

. summarize fyear gvkey lever mtb tangib logsales oi //数据结构描述性统计,可知lever mtb tangib logsales oi进行去均值化处理,均值趋近于0

Variable | Obs Mean Std. Dev. Min Max
-------------+---------------------------------------------------------
fyear | 121,739 1991.062 11.70284 1970 2011
gvkey | 121,739 21854.71 35328.36 1000 287462
lever | 121,739 -1.01e-10 .1494233 -1.026285 .973395
mtb | 121,739 -1.13e-09 .6857594 -9.139131 13.01658
tangib | 121,739 6.95e-11 .117365 -.811579 .7076536
-------------+---------------------------------------------------------
logsales | 121,739 -2.13e-09 .5327631 -6.374496 4.558432
oi | 121,739 -4.09e-11 .094446 -1.023534 .6764148

5.1 OLS 与 XTEWREG 的对比

进一步对比 OLS , FE , RE , XTEWREG 回归结果,在公司级别对标准错误进行聚类,并在回归中使用 nocons 选项,因为因变量被去均值化处理,将这些结果与 xtewreg 的结果进行比较,假设两个回归变量都是存在误差测量的(如 mismeasured(2)选项所示)::

cls
*OLS
regress lever mtb tangib, vce(cluster gvkey) nocons
*FE
xtreg lever mtb tangib,fe vce(cluster gvkey) //固定效应组内去心相当于去均值化处理
*RE
xtreg lever mtb tangib,fe vce(cluster gvkey)
*xtewreg
xtewreg lever mtb tangib, maxdeg(5) mismeasured(2) nocons
*est store EW 此处注意est store 无法存储回归结果,可以使用logout2
. regress lever mtb tangib, vce(cluster gvkey) nocons

Linear regression Number of obs = 121,739
F(2, 10801) = 497.08
Prob > F = 0.0000
R-squared = 0.0382
Root MSE = .14655

(Std. Err. adjusted for 10,802 clusters in gvkey)
------------------------------------------------------------------------------
| Robust
lever | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.0240716 .0010918 -22.05 0.000 -.0262117 -.0219315
tangib | .2011255 .009791 20.54 0.000 .1819333 .2203178
------------------------------------------------------------------------------

. xtreg lever mtb tangib,fe vce(cluster gvkey) //固定效应组内去心相当于去均值化处理

Fixed-effects (within) regression Number of obs = 121,739
Group variable: gvkey Number of groups = 10,802

R-sq: Obs per group:
within = 0.0382 min = 1
between = 0.0000 avg = 11.3
overall = 0.0382 max = 42

F(2,10801) = 497.08
corr(u_i, Xb) = -0.0000 Prob > F = 0.0000

(Std. Err. adjusted for 10,802 clusters in gvkey)
------------------------------------------------------------------------------
| Robust
lever | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.0240716 .0010918 -22.05 0.000 -.0262118 -.0219315
tangib | .2011255 .0097911 20.54 0.000 .1819332 .2203178
_cons | -1.42e-10 1.27e-12 -111.81 0.000 -1.45e-10 -1.40e-10
-------------+----------------------------------------------------------------
sigma_u | 9.259e-09
sigma_e | .15351484
rho | 3.637e-15 (fraction of variance due to u_i)
------------------------------------------------------------------------------
. xtreg lever mtb tangib,re vce(cluster gvkey)

Random-effects GLS regression Number of obs = 121,739
Group variable: gvkey Number of groups = 10,802

R-sq: Obs per group:
within = 0.0000 min = 1
between = 0.0000 avg = 11.3
overall = 0.0382 max = 42

Wald chi2(2) = 994.16
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

(Std. Err. adjusted for 10,802 clusters in gvkey)
------------------------------------------------------------------------------
| Robust
lever | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.0240716 .0010918 -22.05 0.000 -.0262115 -.0219318
tangib | .2011255 .0097911 20.54 0.000 .1819354 .2203157
_cons | -1.42e-10 9.14e-11 -1.56 0.120 -3.21e-10 3.69e-11
-------------+----------------------------------------------------------------
sigma_u | 0
sigma_e | .15351484
rho | 0 (fraction of variance due to u_i)
------------------------------------------------------------------------------

. xtewreg lever mtb tangib, maxdeg(5) mismeasured(2) nocons

5(2) EIV results N = 121739
Rho^2 = 0.166
(0.009)
------------------------------------------------------------------------------
lever | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.0324323 .0037368 -8.68 0.000 -.0397562 -.0251084
tangib | 1.179919 .0374758 31.48 0.000 1.106468 1.25337
------------------------------------------------------------------------------
Tau1^2: 0.595 (0.088)
Tau2^2: 0.169 (0.010)
Sargan-Hansen J statistic: 207.874 (p=0.000, d=20)

tangib —固定资产投资系数提高了 6 倍,模型的确定系数 (ρ2) 显著上升。 这些是由托宾 q 值和固定资产投资的误差估计来解释的,这些误差是由 τ12 和 τ22 系数来衡量的。 这些误差在 OLS 中被忽略时,会导致偏差。 需要注意的是,估计中使用累积量和聚类加权矩阵 (默认值) 并将 maxdeg (5) 设置为基于累积量的估计量,最高可达五阶。接下来,添加完全测量的控制变量,并使用 OLS 回归拟合模型,再次将标准错误集中在公司级别。

. regress lever mtb tangib logsales oi, vce(cluster gvkey) nocons

Linear regression Number of obs = 121,739
F(4, 10801) = 514.54
Prob > F = 0.0000
R-squared = 0.0691
Root MSE = .14417

(Std. Err. adjusted for 10,802 clusters in gvkey)
------------------------------------------------------------------------------
| Robust
lever | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.0154412 .0010979 -14.06 0.000 -.0175932 -.0132892
tangib | .1923658 .0098912 19.45 0.000 .1729772 .2117543
logsales | .0358581 .0024768 14.48 0.000 .0310032 .040713
oi | -.2300602 .0094379 -24.38 0.000 -.2485602 -.2115603
------------------------------------------------------------------------------

.
. xtewreg lever mtb tangib logsales oi, maxdeg(5) mismeasured(2) nocons

5(2) EIV results N = 121739
Rho^2 = 0.189
(0.009)
------------------------------------------------------------------------------
lever | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.028804 .0043148 -6.68 0.000 -.0372609 -.0203472
tangib | 1.194522 .0376586 31.72 0.000 1.120713 1.268332
logsales | .0529291 .0036268 14.59 0.000 .0458208 .0600374
oi | -.0411052 .0159947 -2.57 0.010 -.0724542 -.0097562
------------------------------------------------------------------------------
Tau1^2: 0.544 (0.095)
Tau2^2: 0.184 (0.010)
Sargan-Hansen J statistic: 249.369 (p=0.000, d=20)

用于测试过度识别限制的 Hansen J 统计量相当大。 这一结果表明违反了第 2.1 节中假设中的一个条件,可能的原因是一个与回归变量 无关的回归错误 。 我们选择的负债率回归作为一个例子,虽然广泛使用,可能存在遗漏变量的问题。用 maxdeg (8) 重复估计,由此使用到 8 阶的所有矩条件,产生以下结果:

. xtewreg lever mtb tangib logsales oi, maxdeg(8) mismeasured(2) nocons
Problem structure different from last executed. Rebuilding problem.

8(2) EIV results N = 121739
Rho^2 = 0.196
(0.008)
------------------------------------------------------------------------------
lever | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mtb | -.0233124 .0009073 -25.70 0.000 -.0250906 -.0215342
tangib | 1.27339 .0078097 163.05 0.000 1.258083 1.288696
logsales | .0550052 .0036894 14.91 0.000 .0477742 .0622362
oi | -.0374424 .0123763 -3.03 0.002 -.0616995 -.0131853
------------------------------------------------------------------------------
Tau1^2: 0.657 (0.069)
Tau2^2: 0.175 (0.008)
Sargan-Hansen J statistic: 1325.454 (p=0.000, d=96)

注意 xtewreg 输出的关于重建问题的消息“Problem structure different from last executed. Rebuilding problem.”;问题的参数与最近调用 xtewreg 时使用的参数不同。

5.2 bootstrap 自举法

为了计算检验统计数据的 bootstrap 临界值,需要更新每次 bootstrap 迭代的矩条件 (详见 Hall 和 Horowitz[1996])。 为此,首先在整个数据集上执行 xtewreg ,同时指定 centmom (set)。 接下来,用 bootstrap 命令前缀 xtewreg ,同时指定 centmom(use):

cls
xtewreg lever mtb tangib logsales oi, ///
maxdeg(5) mismeasured(2) centmom(set) nocons

bootstrap t_mtb=(_b[mtb]/el(e(serr),1,1)) ///
t_tangib=(_b[tangib]/el(e(serr),2,1)) ///
t_logsales=(_b[logsales]/el(e(serr),3,1)) ///
t_oi=(_b[oi]/el(e(serr),4,1)), ///
rep(100) seed(1337) cluster(gvkey) notable: ///
xtewreg lever mtb tangib logsales oi, ///
maxdeg(5) mismeasured(2) centmom(use) nocons

结果如下:

. xtewreg lever mtb tangib logsales oi,  ///
maxdeg(5) mismeasured(2) centmom(set) nocons

5(2) EIV results N = 121739
Rho^2 = 0.189
(0.009)
--------------------------------------------------------------------------
lever | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+----------------------------------------------------------------
mtb | -.028804 .0043148 -6.68 0.000 -.0372609 -.0203472
tangib | 1.194522 .0376586 31.72 0.000 1.120713 1.268332
logsales | .0529291 .0036268 14.59 0.000 .0458208 .0600374
oi | -.0411052 .0159947 -2.57 0.010 -.0724542 -.0097562
--------------------------------------------------------------------------
Tau1^2: 0.544 (0.095)
Tau2^2: 0.184 (0.010)
Sargan-Hansen J statistic: 249.369 (p=0.000, d=20)


. bootstrap t_mtb=(_b[mtb]/el(e(serr),1,1)) ///
t_tangib=(_b[tangib]/el(e(serr),2,1)) ///
t_logsales=(_b[logsales]/el(e(serr),3,1)) ///
t_oi=(_b[oi]/el(e(serr),4,1)), ///
rep(100) seed(1337) cluster(gvkey) notable: ///
xtewreg lever mtb tangib logsales oi, ///
maxdeg(5) mismeasured(2) centmom(use) nocons
(running xtewreg on estimation sample)

Bootstrap replications (100)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
.................................................. 50
.................................................. 100

Bootstrap results Number of obs = 121,739
Replications = 100

command: xtewreg lever mtb tangib logsales oi, maxdeg(5) mismeasured(2) centmom(use) nocons
t_mtb: _b[mtb]/el(e(serr),1,1)
t_tangib: _b[tangib]/el(e(serr),2,1)
t_logsales: _b[logsales]/el(e(serr),3,1)
t_oi: _b[oi]/el(e(serr),4,1)

. estat bootstrap, p

Bootstrap results Number of obs = 121,739
Replications = 100

command: xtewreg lever mtb tangib logsales oi, maxdeg(5) mismeasured(2) centmom(use) nocons
t_mtb: _b[mtb]/el(e(serr),1,1)
t_tangib: _b[tangib]/el(e(serr),2,1)
t_logsales: _b[logsales]/el(e(serr),3,1)
t_oi: _b[oi]/el(e(serr),4,1)

(Replications based on 10,802 clusters in gvkey)
------------------------------------------------------------------------------
| Observed Bootstrap
| Coef. Bias Std. Err. [95% Conf. Interval]
-------------+----------------------------------------------------------------
t_mtb | -6.6756234 1.804762 1.0044294 -6.722429 -2.845049 (P)
t_tangib | 31.71981 -8.089663 1.4164678 21.18697 26.62364 (P)
t_logsales | 14.594014 -4.086213 .81485266 8.966687 12.14323 (P)
t_oi | -2.569932 .3160029 .91587601 -3.925316 -.4187025 (P)
------------------------------------------------------------------------------
(P) percentile confidence interval

我们使用 bootstrap 自举法计算 t 统计量的临界值,因为它是渐近的 (详见 Horowitz[2001] )。 此外,我们使用百分位数方法导出置信区间和 p 值(通过执行 estat bootstrap, p)。

6. 参考文献

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」

  • Timothy Erickson, Robert Parham, Toni M. Whited, 2017, Fitting the Errors-in-variables Model Using High-order Cumulants and Moments, Stata Journal, 17(1): 116–129. -PDF-, -PDF2-
  • Erickson, T., C. H. Jiang, and T. M. Whited. 2014. Minimum distance estimation of the errors-in-variables model using linear cumulant equations. Journal of Econometrics 183: 211–221. -PDF-
  • Erickson, T., and T. M. Whited. 2000. Measurement error and the relationship between investment and q. Journal of Political Economy 108: 1027–1057. -PDF-
  • Erickson, T. and T. M. Whited. 2002. Two-step GMM estimation of the errors-in-variables model using high-order moments. Econometric Theory, 18(3): 776-799. -PDF-
  • Erickson, T. and T. M. Whited. 2012. Treating measurement error in Tobin’s q. Review of Financial Studies25: 1286–1329. -PDF-
  • Geary, R. C. 1942. Inherent relations between random variables. Proceedings of the Royal Irish Academy, Section A 47: 63–76.
  • Hall, P., and J. L. Horowitz. 1996. Bootstrap critical values for tests based on generalized-method-of-moments estimators. Econometrica 64: 891–916.
  • Horowitz, J. L. 2001. The bootstrap. In Handbook of Econometrics, vol. 5, ed. J. J. Heckman and E. Leamer, 3159–3228. Amsterdam: Elsevier.
  • Whited, T. 1992. Debt, Liquidity Constraints, and Corporate Investment: Evidence from Panel Data. Journal of Finance, 47(4): 1425-1460.
  • Whited, T. 1994. Problems with Identifying Adjustment Costs from Regressions of Investment on q. Economics Letters, 46: 327-332.

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 衡量偏误 Bootstrap 面板数据模型一文读懂
安装最新版 lianxh 命令:
ssc install lianxh, replace

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」

  • 专题:Stata 程序
    • Stata: Bootstrap-自抽样-自举法
  • 专题:面板数据
    • Stata: 面板数据模型一文读懂
  • 专题:内生性-因果推断
    • 第三种内生性:衡量偏误(测量误差)如何检验-dgmtest?


🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。 请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。 我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章