检验模型是否靠谱 3

文摘 2024-08-12 04:25 英国

这里讨论下实际应用方法。

估计步骤

给定一个模型，并且估计完了所有模型参数，本文的实际操作步骤如下

问题： 先确定一下问题，即定义一下需要假设检验的null hypothesis。一般是判断模型预测的一个政策冲击对于关心的变量的因果影响是否正确：

null hypothesis为以上模型计算的值就是真实的因果效应。

第一步：选择shifter , 这些shifter需要与我们关心的政策冲击之外的其他shock无关。这些shifter也可以是用于参数估计的那些shock。

第二步：选择share 在其他条件相同的情况下，优先选择具有经济学解释的（比如使用Proposition 3的share），并且test power大的（比如使用模型的Jacobian、在控制变量的基础上进行残差化，或使用那些包含信息与用与参数估计的moment不太相关的share）。

第三步: 计算检验统计量 ，先计算对应的SSIV 再使用该SSIV计算：

第四步：计算检验统计量variance ，这里使用Proposition 2的公式即可，不过当存在参数估计时需要修改式子（ref 原文附录公式）。

第五步：构建置信区间 有了variance就可以计算P值了，在null hypothesis 是正确的假设下，得到：，其中

到这里为止就已经完成了对于原问题的回答。进一步的，可以选择进行一下经济意义的讨论。

第六步：经济含义讨论 根据 Proposition 3构造的SSIV得到的检验统计量是具有经济学含义的，表示模型预测的W的值与实际W的值的差。因此可以讨论一下这个值的大小。

Simulation

这里使用Fajgelbaum et al. (2020) (FGKK)的模型，参数，和shock来做一些Simulation，说明一下本文SSIV的优越性质。FGKK模型设置形式在这里并不重要，下面的检验步骤都是一样的，这里不写模型形式了。

问题： 模型回答的问题是，关税增加后，美国福利下降多少。

参数： 模型的主要参数为一系列进口，出口弹性以及需求弹性。

shock： 关注的shock为本国和外国关税增加。对于其他shock，模型的处理为给定参数和关税，使得模型完全match2016年的数据，得到其他shock在2016的值。

Simulation Procedure

Simulation： 每一组参数设置（是否进行了参数估计，以及如何进行的），IV设置（shift以及share的设定），和模型设置（是否是真实模型，如果不是则给定真实模型形式）对应一个特定的simulation。每个特定的simulation下进行2500次拟合，每一次拟合对应一组随机的shock。

shock： 每一次拟合需要随机一组shock，假设关税增加以及其他shock （这里假设是productivity and preference shock）分别来自iid的正态分布 N(0.2,0.7) 以及 N(0,0.7). 我们关心的美国的关税 shock 这里在国家 i 商品 v 和进出口层面。表示美国进口 i 国家商品 v的关税增加。

outcome： 我们需要定义一下要检验的因果效应的形式，这里为美国整体welfare（GDP）的变化，这里是一阶近似的形式

outcome related variable： 注意到这里有三个，分别表示

, , 分别表示与出口、进口和关税收入相关的结果。

表示美国对产品在国家的出口价格对数变化，其中为2016年美国GDP中与出口收入相关的百分比。
表示美国从国家进口的产品的进口价格对数变化，其中为2016年美国GDP中与进口支出相关的百分比。
表示美国从国家对产品的关税收入变化，按初始进口支出的比例计算，其中

构造shift： 我们使用关税增加，标准化后作为shift，因为按照shock的生成过程，这一定是与其他shock无关的

构造share： 这里使用Proposition 3的方法构造share：

表示研究者模型的Jacobian，这样做好处在于，其几乎一定会有first state，即与shock相关，可以增加test power；并且这样还能考虑到模型的general equilibrium的影响。
表示Proposition 3中的调整，这样做能够使得SSIV有经济学含义。
表示与控制变量向量相关的residual projection matrix。可以使得variance减小

构造SSIV： 结合起来就得到了本文核心使用的SSIV：

构造检验统计量：

这里的表示真实模型下的结果。需要根据每个simulation假设的真实模型形式进行计算。

计算variance：

拒绝原假设： 这里采用 5% 的置信区间，即 P>0.05就拒绝原假设，表示模型得到的福利效果不是真实的福利效果。

以下讨论在不同的simulation下得到的结果，并且与文献常用判断做个对比。

其他shock variance影响

simulation设定： 这组simulation假设研究者模型就是真实模型，并且参数也都是给定的不需要估计。只不过每个simulation下其他shock的variance逐渐变大。在每个variance设定下拟合2500次，计算其中拒绝原假设的比例。由于我们假设研究者模型就是真实模型，那么这个拒绝原假设的比例应该就刚好等于5%（type II error）。

图a蓝色表示每个variance下，使用SSIV拒绝原假设的比例，刚好就是5%，并且不随着其他shock variance变化而变化。这说明本文的SSIV检验原假设不会受到其他shock variance的影响。

但是如果表示出来模型结果与实际数据结果的相关性，红色线所示，随着其他shock variance增加而降低。即使实际上我们的模型就是真实模型，得到的结果就是因果效应。

模型错误

simulation设定： 这组simulation假设研究者模型就是不是真实模型，实际上的真实模型中关税的影响为倍：根据每个的值，拟合2500次，判断每次拒绝的比例。由于我们假设研究者的模型不是真实模型，得到的关税影响在真实模型中应当扩大倍（A3'的情况），所以我们期待拒绝原假设的比例随着的增大而增大。

图b可以看到结果却是如此。横坐标是实际福利影响与模型结果的差。在0处依然只有5%的拒绝率。同时看到数据和模型的相关性逐渐增大，从负变正，并不能反应模型结果是否正确。

选择IV

我们依然在之前模型错误的simulation设定下，来判断不同的IV对于判断原假设的test power的影响，以此来说明之前定义的IV的优越性。定义一个naive IV，shifter不变，其share如下：

这个与之前相比，首先将Jacobian换为了单位矩阵，与之前相比相当于只使用了关税变化的直接值构造IV，而不考虑GE影响。另外将比例换为了welfare计算使用的比例。这个share看起来很合理，也是文献中常用的SSIV形式，不过将其与本文构造的做个对比会发现并不好。

test power对比：

首先画一个与之前图b相同的上图图a，分别计算这个新定义的naive IV与之前定义的IV的拒绝率，可以看到在任何情况下，naive IV的拒绝率都更低。说明他的test power并不是最大的。

经济含义对比

我们可以比较一下二者的检验统计量的均值随着模型错误程度的关系。可以看到naive IV虽然构造上与福利形式差不多，但是他的大小与模型实际错误程度却是负相关的，说明这个值本身并不能反应模型估计与实际效果的差值大小。而本文定义的IV的是正相关，因为满足 A3'的条件下，这个构造的IV计算的检验统计量均值就是模型与实际结果的差值。

真实模型与研究者模型只有一部分不同： 之前假设的情况是所有的关税影响在真实模型中都是倍，这里假设只有出口的影响是倍。此时重新画出以上两个图：可以看到naive IV几乎就没办法判断了，这是因为在naive IV并不会根据每个影响程度来调整权重。实际上出口价格的variation相比于进口和关税收入要低很多，其对应的权重在naive IV过低。

Estimation

最后讨论一下在模型分析之前使用了shock进行参数估计，会怎么影响SSIV的判断。

参数估计下的模型：这里我们假设真实模型依然是与研究者模型不同。其关税影响依然是研究者模型的倍。那么reduced form的弹性估计结果就应当是是而不是，只不过研究者并不知道这个，在研究者模型中，会把设置为。

真实模型： 此时真实模型的。文章假设。FGKK的估计结果为。所以我们将真实模型设置为。

没有参数估计下的模型： 如果没有进行参数估计，我们假设研究者直接从文献中设置

由于我们假设真实模型与研究者模型中的关税效果不同，在任何情况下，我们都期待SSIV会有大概率拒绝原假设。

naive SSIV： 作为对比，这里定义一个与用于估计参数的moment更加接近的naive IV来说明如果有参数估计的话，会对SSIV的选择以及假设检验有什么影响：

这里Id也是单位矩阵，这个新的share表示只使用shift对于一些控制变量回归的残差来构造SSIV。

有无estimation下的对比：

左边两个值表示在没有estimation时，两个IV的拒绝率，二者差不多，都有大概率拒绝原假设。没有任何问题。

中间两个值表示有estimation下，之前定义的IV依然大概率拒绝原假设，而naive IV却很难拒绝了。

造成这个结果的原因在于，naive IV本身包括的信息已经用于参数估计了。因为估计弹性是直接使用价格出口量变化对于关税变化做回归，也就意味着关税变化对于影响已经作为一个moment在参数估计中match了。而最后再使用相同的shock不做任何share上的修改，其包含的信息与用于参数估计的moment十分接近，因此很容易得到满足，也就很难拒绝原假设了。

为了说明该问题，右边两个值表示参数估计的moment与最后SSIV test的moment的相关程度，可以看到naive IV的相关程度非常大。但是之前构造的SSIV相关程度很低，因此不会存在从构造上使得最后检验总是通过的问题。

最后可以使用这两个IV的一个线性组合来进行检验：

可以看到随着naive IV的权重增大，检验越难拒绝原假设，同时包含的信息越与用于参数估计的moment相关。

Trump’s Trade War

接下来将其应用到判断FGKK的模型结果是否靠谱。判断方法与之前simulation完全相同。区别只在于，我们不知道真实模型了，此时来自于实际数据变化而不是假设的真实模型。关税变化的shock来自于实际数据。结果如下：

看到无论使用哪个IV，无论是否假设存在估计上的不确定性，都无法拒绝原假设，即FGKK的降低-0.04% GDP的影响就是实际因果影响。

检验统计量的经济解释：最后一列-0.09的结果表示，实际关税下降的效果，平均来讲比FGKK的估计效果要大0.09%。

机制分析

虽然说在总的福利问题上，本文的检验并没有拒绝原假设。我们也不能排除在其他问题上，FGKK模型给出错误答案的可能性。

根据之前的公式，福利影响来自三部分，进口出口和关税收入。那么分别分析一下三部分的变化。如果说模型是真实模型，那么我们理论上能够发现每一个变量的变化在这个SSIV上的投影都是一样的，换句话说，数据（进口出口关税收入的变化）中每个变量关于SSIV的斜率应当与模型对应的预测值关于SSIV的斜率相同。

分别画出三个变量，模型预测值与实际数值关于SSIV的关系，可以看到出口价格的的两条线斜率非常接近，但是进口价格和关税收入则相差较大。

这说明尽管模型在一部分问题上的回答并不是实际值，但是加总后的结果依然可能是正确的。虽然这个模型不能用于回答关税使得进口价格和关税收入变化的程度，但是可以回答三个变量加总引起的总的福利变化的程度。

http://mp.weixin.qq.com/s?__biz=Mzk0ODMxMjQ5Mw==&mid=2247492604&idx=1&sn=a8be349133eccfdee88226b79cc4234b

一名搬砖工的日常

个人树洞，记录学习和生活，脚踏实地，迷途未远，来者可追。