检验模型是否靠谱 1

文摘   2024-08-10 08:00   英国  

Putting Quantitative Models to the Test: An Application to Trump’s TradeWar

众所周知

all models are wrong, but some are useful

不过问题是,我们怎么知道模型是不是有用的?Rodrigo Adão,Arnaud Costinot,Dave Donaldson 2024 回答了这个问题。

首先需要定义一下有用的模型:指的是能够回答我们关心的问题的模型。而关心的问题一般是某些特定shock对于某些特定变量的因果影响,比如关税对于福利的影响。

一个经常用到的方法是,建完模型后首先使用模型模拟一下之后几年或者之前几年的数据,然后与没有用与模型估计的其他数据做一个对比。如果模型预测数据和实际数据差不多,那就继续之后的counterfactual的分析。或者说,与untargeted moment做个对比。

不过是否可以说如果模型预测和实际数据差别大,就说明模型没办法回答我们关心的问题呢?实际情况是,模型中我们感兴趣的shock可能只有一种,但是实际数据反应的shock有无数个。那么模型预测与实际数据的差值就会来自于两部分,一部分是我们关心的shock的影响,一部分是所有其他shock的影响。比如如果模型发现关税增加导致福利下降2%,但是实际数据计算发现关税增加前后福利上升1%,此时不能说模型是错的,因为可能没有考虑的shock导致了同时间福利上升,但是关税增加的影响本身依然是下降2%福利。

模型是否能够回答我们关心的问题,本质上是在问,模型对于我们关心的shock的影响的估计是否准确。实际上其他shock的影响是什么样的我们并不关心。因此即使实际数据和预测值差别很大,我们也不能断定这个模型回答不了关心的问题,因为差值有可能来自于其他shock。

文章使用IV方法判断模型是否有用。即找到一些与其他可能的shock无关的IV,如果说模型给出的shock的影响就只是这个shock实际的因果效应,那么实际数据与模型给出的结果的差就只会来自于其他shock的影响。那么根据IV的定义,这个差值与IV的相关性就是0.通过判断这个相关性是否为0,就可以知道模型给出的shock的影响是否是实际的因果效应。

设定

研究者模型: 研究者构建了一个模型,其包含 n 个内生变量,以及两组shock

其中 ,表示一组内生变量。比如每个地区的价格,需求等。 表示我们关心的一组shock,这个shock在行业 k 层面。 表示其他所有的可能shock。比如需求冲击,技术进步等。

问题: 求解我们关心的shock   对于一些变量的影响,如welfare。

研究者模型估计: 上述研究者模型直接去估计将会非常的复杂,因为有general equilibrium的影响,任何行业的shock都会影响所有地区所有变量,也就是说有多少行业和地区,那么自由度就至少估计行业乘以地区数量。如果使用non-parametrically去估计,能用到的variation只来自时间层面,数据量几乎不支持将f估计出来。如果假设是最简单的线性形式,参数数量也至少是自由度的数量。因此一般情况下研究者都是写好消费者问题,生产者问题,将模型简化到有限的结构参数就可以估计。也就是说此时的f是基于一堆模型函数假设,推导后的结果,他和真实的模型一般是有区别的。

真实模型: 记真实世界的模型为

指标都用 表示。 这个模型是我们永远观测不到的,不过我们要研究的实际因果效应是这个模型给出的结果。我们的问题在于,怎么检验这两个模型给出的因果效应是否相同。

因果效应: 根据定义,使用研究者模型得到的 的因果影响为

使用真实模型得到的为

我们关心的结果是福利影响,而福利是价格需求等的一系列加权平均:

我们的问题就在于使用研究者模型得到的这个W和真实世界模型得到的W是否相同。

实际数据差别: 实际上我们看不到真实模型中 的因果影响,我们只能看到真实世界在所有shock下的结果,那么就有

这里可以看到实际数据的差值 由两部分组成,一部分为我们关心的shock的影响,另一部分来自其他shock的影响。那么将研究者模型得到的预测值与实际数据差值作差就有

这里就可以看到研究者模型的预测值与实际数据的差异虽然一部分来自真实的因果效应,但是也来自于其他所有shock的影响,而这部分影响很难为0.所以直接比较数据变化和模型预测并不是很靠谱。

Exact hat: 很多模型使用exact hat来作counterfactual,这本质上是假设研究者模型就是实际模型的基础上(),将观测到的 y 的变化用于识别实际的其他shock的变化影响。

IV识别:  那么有什么办法识别是否 ?,只需要一个与其他shock无关的一个IV 即可。因为根据数据和模型,我们可以计算得出 ,如果 ,那么 ,即只是由其他shock影响的部分,根据IV我们有 与   不相关。

直观表示: 在两个变量情况下,将以上变量画为向量图如下

实际数据的变化 来自两部分, 。模型识别的shock效果为 ,可以看到 相差甚远。但是这并不意味着识别的效果就是错的,相反识别的是没有任何问题的。使用IV检测也很直接,找到一个垂直于其他shock的IV向量 ,然后检验 在   方向上的投影是否相同。

上述是相同的情况,对于不同的情况,比如图b,虽然此时   似乎更接近了,但是可以看到识别的效果根本不是实际的因果影响 。 使用IV可以直接检测出来, 在   方向上的投影是不同的。

检验统计量: 基于以上原理,可以构造检验统计量如下

在本文的所有分析中,shock的形式为行业层面的政策shock ,均值为0

为了讨论这个统计量的性质,需要给一点假设:

假设 A1: 政策shock与其他shock无关

假设 A2:  IV是sihft share形式

这个share 可以是 t 时期与政策和其他shock有关的变量。

假设 A3:

基于以上三个假设,那么就有以下 的性质用于假设检验:

Proposition 1: 任何满足 A1 和 A2 的工具变量 。如果 A3 成立,那么

Proposition 2: 满足一系列条件下(ref 原文), 服从分布


一名搬砖工的日常
个人树洞,记录学习和生活,脚踏实地,迷途未远,来者可追。