审稿人: 不要说你R2高, 我就觉得标准误比R2更好

学术 2024-09-04 19:49 中国香港

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

①有意思的实证计量讨论帖, 熬夜肝完了一直的计量困惑！②QA: 平方项的IV, 加时间固定符号相反, 滚动窗口回归, 面板分位数输出图, 机制分析中IV, pre5显著咋办，③主回归不显著, 分组回归却异常显著的研究来了！④城市*年份联合的FE与他们分开的FE有什么区别? FE如何从一维进化到二维, 三维的? ⑤审稿人: 你这个文章实证结构已经过时了！过时了！⑥当把交互项加入后, 主项的系数符号竟变相反了, 这是咋回事? 如何处理呢？⑦DID可以有2个处理组和1个对照组么? 有相关的参考文献吗? ⑧12年试点, 15年推广到全国的政策, 回归时是否包括16和17年数据？

当回归模型的R2值过高时，人们往往会认为这是一个积极的信号。毕竟，谁不想要一个高R平方值呢？

然而，正如下面将要阐述的，过高的R2有时可能暗示模型存在问题。

我们会探讨导致R2过高的5个常见原因，并告诉你如何判断这些因素是否对回归模型产生了影响。

R2并不总是那么直观。

一个较低的R2并不一定意味着问题，同样，一个较高的R2也不一定是好事。实际上，询问“R2应该多大”本身就是一个错误的问题。

在某些情况下，我甚至认为回归的标准误差而不是R2是衡量模型拟合优度的更好指标。

以下是导致R2过高的5个常见原因：

原因一：R2是有偏估计

这可能会让你感到意外：在回归分析的输出中，R2往往被高估。

这是因为R2是基于样本数据计算的，而这种计算方式本身存在偏差。在统计学中，所谓的“有偏估计”指的是系统性地高于或低于真实总体值的估计结果。R2的估计值通常都会比实际的总体值要大。

这种偏差导致一些研究者更倾向于使用调整后的R2，而不是原始的R2。

统计学家们早已认识到，线性回归模型可能会因为样本中偶然出现的关联性而产生误导，从而导致R2的膨胀。

这就好比你的浴室体重秤读数总是偏高，你需要对其进行校准，以便它能准确地显示你的体重。调整后的R2正是为了解决这个问题而设计的。它通过调整原始的R2，使其更接近于无偏的总体估计值。统计学界将这一过程称为“R2的收缩”。

为了确定合适的收缩幅度，需要将样本量与模型中变量的数量进行比较。

原因二：模型过拟合

过拟合是指统计模型开始捕捉数据中的随机噪声，而非变量之间真正的关系。这种情况通常发生在模型过于复杂时。不幸的是，过拟合的一个明显标志就是R2异常高。

虽然高R2看似令人满意，但过拟合的模型却可能隐藏着严重的问题。一方面，模型中的回归系数可能捕捉到了噪声而非真实的总体关系。另一方面，过拟合的模型往往是为了适应特定样本的随机特性而量身定制的，这使得它们在面对其他样本时难以复制同样的拟合效果。因此，过拟合的模型在原始数据集之外的泛化能力会大打折扣。

调整后的R2并不是为了检测过拟合而设计的，但预测的R2却可以作为过拟合的警示。通过比较模型在训练集和测试集上的表现，预测的R2能够帮助我们识别模型是否过度拟合。如果模型在训练集上的R2远高于测试集上的值，这可能意味着模型已经过拟合。

原因三：数据挖掘与偶然关联

数据挖掘往往涉及尝试多种模型，探索众多自变量，主要依据统计显著性来构建最终模型，而往往缺乏理论的指导。这种方法可能会带来一系列问题，比如误导性的系数和过高的R平方值。

在进行假设检验时，无论是对回归系数的检验还是其他类型的检验，都存在一定的概率错误地拒绝实际上成立的零假设，这种现象被称为第一类错误。这种错误发生的概率通常与你所设定的显著性水平相等，而这个水平通常设定为5%。这意味着在100次正确的零假设中，可能会有大约5次错误地被拒绝。

将这一概念应用于回归分析的实践中，当你尝试构建多个模型时，实质上是在对模型中的所有系数进行大量的假设检验。特别是当你采用如逐步建模或最佳子集回归等自动化模型构建技术时，可能会对数据样本进行成百上千次的假设检验。在如此大规模的检验过程中，出现误报几乎是不可避免的。如果仅根据统计显著性来选择变量，那么这些在偶然中显著的变量就会被错误地纳入模型之中。

这个问题的严重性不容小觑。数据挖掘有时竟能从完全随机的数据中挖掘出具有统计显著性的变量，并且得到一个看似合理的R2。然而，这些统计过程往往无法揭示背后的真相，最终构建的模型可能并没有真正的过拟合问题，而是缺乏实际意义。通常，这种情况不会有任何明显的警示信号。面对这样的挑战，我们该如何应对呢？

关键在于在着手数据分析之前，进行充分的领域研究。深入的领域知识可以帮助我们更有针对性地选择模型，避免盲目的数据挖掘。同时，将分析结果与理论相联系，可以为我们提供更可靠的指导，确保模型的科学性和实用性。

原因四：面板数据的时间序列趋势

当你处理的是面板数据，并且因变量和自变量都表现出随时间变化的趋势时，这可能会导致R2的膨胀。这是因为时间趋势本身可能与模型中的其他变量相关联，从而在回归分析中产生误导性的高R2。

为了解决这个问题，你可以尝试采用时间序列分析方法，或者在回归模型中引入与时间相关的变量。例如，可以考虑使用滞后变量或差分变量来捕捉时间趋势的影响。通过这种方式，你可以更准确地评估模型中其他变量的效应，避免因时间趋势而产生的R平方值膨胀。

原因五：变量的形式选择

在回归分析中，如果因变量和自变量包含了同一变量的不同表现形式，可能会导致R2被人为地夸大。

例如，如果因变量是摄氏温度，而模型中包含了以不同比例或单位表示的温度作为自变量，那么得到的R2可能会接近100%。这是一个比较明显的例子，但在实际应用中，这种情况可能会以更微妙的形式出现。比如，如果因变量是贫困率，而模型中的自变量之一是人均收入，那么可以预见R2会较高，因为贫困率本身就是根据收入来定义的。

一些讨论，①七大常见计量问题讨论汇总, 涉及控制,异质,机制,DID,DDD,调节,固定,平行,安慰等、②关于双重差分DID政策评估中的控制变量选取标准？③在平行趋势检验中对政策前后系列年份进行缩尾处理？④使用异方差稳健而不是聚类稳健标准误, 在固定效应模型中能接受吗？⑤平行趋势通不过, 该采取什么方法来更好地满足平行趋势呢？⑥QA: 基尼太美, 农业数据, 机制检验, 组间差异, 博士论文创新, 控制函数, FM回归

控制变量问题，1.什么时候应该使用回归分析？控制变量意味着什么？2.如何选择正确的因变量(控制变量)，让你的计量模型不再肮脏，3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量，系说，5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了？6.被解释变量比解释变量的层级更高的模型设定合理么？7.审稿: 协变量何时重要? 哪个重要, 有多重要？8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系，9.因果推断专题：6.再谈混淆变量，10.什么时候需要标准化回归模型中的变量？11.因果推断专题：1.混淆变量，12.虚拟变量回归模型是什么? 政策评估的前件，13.11种与机器学习相关的多元变量分析方法汇总，14.回归中各变量的数值相差过大有事, 又有什么问题？15.哦, 不, 回归符号反了, 我们该怎么办？16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些？17.显著不显著的后背是什么, 非(半)参估计里解决内生性，18.在什么情况下多增加一个自变量后, 回归的R方会变小呢？19.控制变量选择问题: 如何鉴别好或不好的控制变量？附上14篇相关文章！20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来！21.如何选择合适的工具变量, 基于既有文献的总结和解释！22.如何选择合适的工具变量, 基于既有文献的总结和解释！23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来！24.社会网络计量经济学是什么？测度社会关系网中的同伴效应！25.社会网络分析最新文献和软件学习手册，26.添加一个新变量能使以前不显著的变量变得显著了？27.加入其他控制变量后, 估计系数的符号相反了？28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量？29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果，30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗？31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢？32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章！

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

http://mp.weixin.qq.com/s?__biz=MjM5OTMwODM1Mw==&mid=2448121155&idx=1&sn=e6d3b517be847e79270775c052d608b9