经济学家知错必改吗？AER复现类论文的影响

文摘 2024-09-15 22:03 中国

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

课程特色 · 2024空间计量：

👉 一、从“零基础”到“高水平”的课程设计

兼顾基础知识、主流模型与前沿模型
既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授，更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。

👉 二、“保姆级”的空间计量代码

编写与校准所有模型的MATLAB代码，简化实操环节
模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据，即可一次性出结果并作图。

👉 三、“最多上新” 的内容体系

新增矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等
新增前沿应用案例，包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究，阐释基于空间计量的产业空间结构优化评价方法。
新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容，阐释现实研究中对空间收敛性的应用“谬误”。

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

作者: 匡宇驰 (西安交通大学)
邮箱: kuangyuchi@163.com

source: Ankel‐Peters, J., Fiala, N., & Neubauer, F. (2023). Is economics self‐correcting? Replications in the American Economic Review. Economic Inquiry. -PDF-

1. 简介

本文回顾了 2010 年至 2020 年间在《美国经济评论》（AER）上发表的复现研究及其对原文的影响。作者分析了这些复现类文章的引用情况以及它们对原始论文后续引用情况的影响。结果表明，这些复现类文章的引用率很低，即使这些论文明确指出了原文的实质性问题，也未对原文的引用产生实质性影响。此外，文章还对复现者和原文作者进行了问卷调查，发现双方在对原文贡献的持续性认识上往往存在分歧。最终，作者认为：经济学文献缺乏自我纠正的机制，且经济学研究中的稳健性和可重复性难以明确界定。

2. 研究背景

Karl Popper 的证伪主义是经济学中科学方法的主流观点，而复现是他的科学哲学的核心。文章复现和相互监督是使科学家保持城市和无私的重要工作，这被称为科学的自我纠正 (scientific self-correction)。在过去的几十年里，经济学中对复制的必要性一直存在争议。最近，该行业在预注册和数据共享政策方面取得了显著进步，但复现研究仍然很少。与此同时，新的证据表明存在各种形式的可复制性问题，因此强调需要更多的复现。

本文关注的是作为评论 (Comments) 发表在 AER 上的复现研究，这类评论主要基于对原文的稳健性复现来对原始论文提出质疑。因此本文首先追踪评论的发布时间，并展示了对任职于 1985 年以后的 AER 编辑进行的简短调查结果。

以下是修改后的版本，更符合中文表述习惯：

3. 数据与方法

文章调查了 2010 至 2020 年间发表的所有 56 篇评论，其中有 37 篇得到了原作者的回复。通过 Google Scholar (GS) 的引用率来分析这些论文和评论的引用频率，以及评论发表后被复现论文的引用趋势变化。文章的基本假设是，引用率反映了文章在学术界的影响力和认可度。研究发现，部分原文的高引用率显示了它们的显著影响力。

关于自我纠正机制，文章假设评论应该引发文献引用的强烈反应，特别是针对原文提出了实质性问题的评论。如果没有出现明显的反应，则可以认为原文的影响力依然存在。本文的研究主要回应了两个问题：

(1) 评论的引用频率与评论发表后原文的引用频率相比如何；
(2) 评论是否对原文的年度引用产生了影响。

文章的主要分析未进行正式的统计检验，而是对上述两个指标进行描述性分析。有效的自我纠正应当表现为评论的高引用率（因为在引用原文时，评论大多数情况下也会被引用），或对原文的年度引用产生明显影响。为此，文章检查了评论发表前后原文的年度引用变化情况。如果在评论发表后，原文的引用率没有明显下降，尤其是针对实质性评论而言，那么可以否定自我纠正的假设。

同时，文章考虑到并非所有评论都涉及实质性问题，因此科学文献的自我纠正需求因评论的不同而异。文章通过阅读并评估所有评论，判断这些评论是否应当在引用原文时一并引用。此外，文章对原文和评论的作者进行了简短调查，以确认他们是否认为评论应当与原文一同被引用。

以下是更符合中文表述习惯的修改版本：

4. AER 政策：复现与评论

4.1 AER 评论的指导方针

《美国经济评论》 (AER) 在评论发布方面有着悠久的历史，并且对评论的作用及其处理方式有明确的指导方针：

提交给 AER 的评论会由被评论文章的作者和其他审稿人共同审阅。评论的回复也会发送给评论的作者和其他审稿人。并没有自动回复的权利；作者必须对所涉问题进行实质性的讨论。仅在 AER 网站上发布的评论和回复有时也会被考虑。这些论文与所有评论和回复都经过相同的评审过程，但可能更适合在线发布，而不是在 AER 的印刷版中发表。

在 20 世纪 80 至 90 年代，AER 发表的论文中有超过 10% 是评论。但随着时间的推移，这一比例大幅下降，如今已降至 2%-3%。图 1 展示了这一趋势：

4.2 AER 编辑的回应

Orley Ashenfelter: 评论/回复格式是一种冗长乏味的审查方式。此外，我认为，在终身教职评审中，评论没有获得与其他出版物相同的“分数”。从 20 世纪 80 年代开始，用记分制来评判出版物的做法可能减少了作者撰写评论的动机。

Ben Bernanke: 令人惊讶的是，现在的评论变少了，因为 AER 旗下有 12 本期刊加上 4 本领域期刊，意味着有更多的可用空间。也许以前的评论现在更有可能被扩展并接受为常规论文。另外，新创刊的《经济洞察》(Economic Insights) 也发表较短的论文。

Robert Moffitt: 我了解到，现在许多人认为，提交评论存在一个问题，即如果评论是批评性的，原文作者几乎一定会回复，导致双方几个月的来回辩论。[…]如果很多人不认为评论对简历有特别重要的作用，我也不会感到惊讶。我怀疑许多人认为撰写一篇新的、原创的论文，比提交一篇评论更有价值，哪怕这篇新论文暗中批评了原论文。

Pinelopi Goldberg: 一种可能的解释是，已发表的研究变得更加复杂和严谨。许多人抱怨论文变得越来越长[…]。或许，较长的论文反映了它们涵盖了更多的领域，提供了更可靠的验证，留下了更少的悬而未决的问题。

Esther Duflo: 当某个观点引起了广泛读者的极大兴趣时，我们会发表评论，因此，评论要么推翻了非常有影响力的论文的结果，要么在方法上有重要贡献（前提是我们确信评论是正确的）。

4.3 AER 复现工作的分类

作者, 年份	分类	相同... 的论文	相同... 的论文	相同... 的论文
		规范	群体	样本
Institute for Replication (I4R)	计算复现
Dreber and Johanneson (2023)	二次复现	/
	稳健性复现
	直接复现		/
	概念性复现		/

Notes:
a Dreber and Johanneson (2023) 引入了这个额外的类别，它与“计算复制”的不同之处在于它强调原始数据的使用，而不是原始论文的分析代码。这个类别不包括在 I4R 定义中。
b 复制中的规范并不总是与原始论文相同，因为复制器无法访问原始代码，而是试图根据原始论文中的给定信息重新创建分析。
c I4R 对直接复制和概念复制的定义只需要新的数据，但数据是否来自相同的群体并不重要。Dreber and Johanneson (2023) 进一步细分了相同、相似和不同的人群。

2005 年起 AEA 启动了强制数据共享的新政策；2018 年，他们任命了一名数据边际，负责对每一篇被接受的论文进行严格的计算重现。主要目的在于检查数据和代码是否可访问和完整，并确保代码复现。

5. 研究结果

5.1 评论和原文的引用部分

	原文作者		评论作者
文章数量	53		56
作者数量	117		111
团队平均规模	2.21		1.98
	团队平均	最大值	团队平均	最大值
t-1 年是自博士以来的平均年数	15.3	20.0	9.0	13.6
t-1 年 top5出版物数量	6.0	10.3	1.4	2.3
在 t-1 年谷歌学术被引量 <100 占比	0.22	0.47	0.63	0.84
谷歌学术总被引量	16130	29930	5471	10739
谷歌学术2021 年被引量	1426	2675	463	855
谷歌学术t-1 年被引量	855	1492	277	542

Notes:
a t-1 是评论公开的前一年。
b 97%的作者拥有博士学位。由于缺少数据，“自博士以来的平均年数”指标的观测次数不同。

表 2 显示了一些作者特征，以检验评论作者在职业地位和影响力方面是否与原作者不同。描述性统计显示，原文作者比评论作者更资深和具有影响力。即使一些评论者同样是成熟的研究人员，但在撰写评论时，许多人刚开始职业生涯。

下图展示出了原文和评论的年平均被引量差异很大：原文的总平均被引量是评论的 15 倍，而且年平均被引量是评论的 10 倍。另外虽然评论在很大程度上被一般文献忽略，但至少原作者在随后产出中引用自己的原文时可能会考虑评论。因此文章对 117 位原作者进行检查，发现在总共 190 篇论文中，有 68 位原作者在评论发表后引用了自己的原文，但只有 22 篇 (12%) 引用到评论。

Notes:
图 2 为平均年度引用-原文和评论之间的差异。文章纳入了 2010 年至 2020 年间发表在 AER 上的所有评论及其各自的原文。自评论发表以来，每次辩论的引用次数都被计算在内。
原文标记为红色;评论标记为蓝色。
y 轴上的标签显示了原文的第一作者、出版年份和评论的出版年份。
Andreoni 和 Sprenger(2012) 的原文收到了三条评论，用字母 “a”(Miao & Zhong, 2015)、“b”(Cheung, 2015) 和 “c”(Epper & Fehr‐Duda, 2015) 来标记。同样， Long和Ferrie(2013) 的论文收到了两个评论，用 “a”(Xie & Killewald, 2013) 和 “b”(Hout & Guest, 2013) 标记。

文章通过引用趋势的视觉检查注意到，评论的发表不会导致原文被引量的减少。大多数原文在发表评论后的年平均引用量甚至高于评论发表前。图 3 显示了评论发表前后 3 年 (t0) 的原文和评论的年平均被引量：在 t0 后，原文的被引量继续呈上升趋势。文章发现，论文的引用趋势与其各自的同期论文相比遵循相似的模式，这使我们确信，在没有评论的情况下，复制论文的反事实趋势看起来不会有太大不同。

Notes: 原论文和评论发表前后的平均年引用数。对于每个面板，蓝线表示原文的年度引用数，红线表示评论的年度引用数。在第一个面板中，0 是评论在 AER 中发表的年份。

5.2 主观评分和作者调查

文章作者向自己和在问卷中被调查的作者询问了同样的问题，对评论的合理性进行了主观评价，并回答了“评论是否应该在引文时被引用?”，有三个可能的答案:
(a)几乎在所有情况下都是;
(b)可以，但只在某些情况下;
(c)不，评论不必引用。

图4显示了文章作者和被调查的原文/评论作者的评级结果。评论作者和原文作者之间存在着巨大差异，而文章作者评级更接近评论作者。当排除掉“不必引用”的评论后，之前的发现并未改变。并且即使是被原文作者评为“必须被引用”或“有时被引用”的评论，对评论的引用率大多数也在10%以下。

文章特别询问了所有作者对其他作者团队交互的看法。对于那些没有回复的争论，两个作者团队绝大多数都认为是积极的，或者至少是中立的。对于那些有回复的争论，在两个团队中，都有相当比例的人对互动不满意。这种不愉快经历不仅体现在数字上，也体现在对开放式问题的文本回答上。

评论作者A: “我们的目的是澄清他们在一些关键问题上的观点，但我们发现很难让他们实质性地参与进来。”
评论作者B: “当我们批评的性质变得清晰时，关系变得更加困难了。”
评论作者C: “我们无法指出所有的问题，因为他们不愿分享他们的数据。一旦数据发布，我们就可以开始解开它们(许多)错误的艰巨任务。其中一位作者更容易接受，但两位作者中更有影响力的那位[…]根本不愿意进行实质性的接触。”

原作者大多比较沉默。
原作者D: “作者们发来了很多不同的结果，有些支持我们的原论文，有些反对，但他们写的评论只包含了最负面的一个，没有提到它不可靠。”

图5从不同角度展示了两组人的分歧程度，以及他们对于评论发布后对于原文贡献的看法。据此得到的结论是，许多没有参与讨论的读者将难以重新评估原文的文献中的影响。

Notes:
作者对原文贡献的回应。条形图上方的值四舍五入到最接近的整数。
小组 (b 和 c) 的确切答案选项是 (1) “不再成立”，(2) “只有少量贡献成立”，(3) “最重要的贡献成立”，(4) “全部成立”，(5) “读者可能会感到困惑”。受访者还可以选择“不知道”和“拒绝回答”。
对于 Panel (b) ，三个评论作者选择了“拒绝回答”，对于 Panel (d) ，两个评论作者选择了“拒绝回答”，两个评论作者和一个原作者选择了“不知道”。由于文章省略了回答，各组作者 (b-d) 的百分比加起来为100%，除了组 (d) 中四舍五入的原文作者。

以下是修改后的版本，使其更符合中文表述习惯：

6. 结论

本文发现，以评论形式发表在 AER 上的复现研究通常引用次数不多，对被复现论文（即原始论文）的引用趋势也没有显著影响。我们将此解释为经济学中缺乏自我纠正机制的证据。这一结论暗示了科学自我纠正的狭隘定义，这被称为正式的自我纠正（formal self-correction）。正式的自我纠正依赖于“诊断复现”，其结果通常是对原始研究进行修改或撤回。

尽管正式的自我纠正可能不足，但有机的自我纠正（organic self-correction）仍然是可能的。这种纠正主要通过学术领域内未发表的反向机制发生。正式的自我纠正修正错误；有机的自我纠正则让无用的内容被遗忘。 部分原始论文的作者可能已经通过有机自我纠正修正了自己的研究，这一过程也许正是由于评论的发表而被触发（这也是部分文献不再引用原始论文的原因）。然而，高引用率作者的情况表明，经济学在有机自我纠正方面的效果也较为有限。

经济学中自我纠正的困难还可能源于复现结果的争议性。 在原作者回复的情况下，评论在多大程度上改变了原文的贡献，这一直是一个激烈争论的问题。毕竟，实验是一种高度专业化的实践，我们永远无法完全确定第二个实验是否已足够严谨，以检验第一个实验的结果。

缺乏对稳健性和可重复性的明确定义，引发了人们对实证经济学在多大程度上符合波普尔式科学定义的质疑。同时，也存在其他合理的认识论视角，这些视角不会因为研究结果的不可重复性而被证伪。比如，Imre Lakatos 认为科学进步是通过研究项目的进展实现的。然而，这意味着我们在解读研究结果时需要更加谦虚，并且与外界的沟通要更加谨慎。无论是否考虑到这些深层次的认识论问题，经济学可以在提高对复现研究的重视方面做得更多。AER 系统地发表评论并严格执行数据共享政策，这一点值得赞扬。

为了回应本文提及的一篇论文，AER 的现任编辑已经修改了相关政策。现在，对于新的评论，AER 将在原始论文的网页上提供一个链接。这是让复现研究在经济学领域得到应有关注的重要一步。

7. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 论文推介论文复现
安装最新版 lianxh 命令：
ssc install lianxh, replace

刘依云, 2023, 论文复现：土豆对人口与城市化的贡献-连续DID应用, 连享会 No.1190.
刘帅, 2021, Stata论文复现：女性领导人当选是否有助于更多女性从政-RD, 连享会 No.831.
刘梦蝶, 2024, DID大餐：49 篇 QJE 论文汇总（2018-2022）, 连享会 No.1363.
刘淑云, 2023, 论文复现：低碳转型冲击就业吗？, 连享会 No.1197.
刘潍嘉, 2023, 论文推介：中国经济学家合作模式的社会网络分析, 连享会 No.1312.
吕卓阳, 2021, Stata 论文复现：Temperature Shocks and Economic Growth, 连享会 No.730.
吕卓阳, 2021, Stata 论文复现：儿童权利公约对儿童健康的影响, 连享会 No.726.
吕大兴, 2023, 论文复现：基于组级纵向数据评估政策的试验模拟方法, 连享会 No.1145.
吴奕玮, 2023, 论文复现：引入注意力的考虑集模型-alogit, 连享会 No.1316.
吴梦萱, 2024, 纠结！DID 中取对数还是不取对数？论文推介, 连享会 No.1340.
姚永健, 2023, 论文复现：家庭财富冲击会影响生产力吗？, 连享会 No.1185.
孙晓艺, 2024, 论文复现：面板变系数模型及其在工资溢价和教育回报中的应用, 连享会 No.1371.
尚佳雪, 2022, 论文推介：IV-天气是好的工具变量吗？, 连享会 No.1136.
张蛟蛟, 2022, Stata论文复现：社科领域Top5期刊复现资料, 连享会 No.911.
张迪, 2022, Stata论文复现：适用于小样本的RDD, 连享会 No.1054.
彭晴, 2023, AER论文推介：通勤移民与就业弹性, 连享会 No.1310.
彭晴, 2023, AER论文推介：通勤移民与当地就业弹性, 连享会 No.1183.
徐安宇, 2022, Stata论文复现：政策评估中的交互效应, 连享会 No.1131.
李原, 2024, Stata：可重复研究中的版本控制问题-require命令, 连享会 No.1370.
李烨阳, 2023, 论文复现：包含交互项的假设检验, 连享会 No.1142.
杨云帆, 2023, 论文复现：多期DID应用之地方选举的兴衰, 连享会 No.1321.
梁淑珍, 2022, 论文复现：顶刊JF中的因子分析-谁更容易当CEO？, 连享会 No.993.
王珞嘉, 2022, 如何永久保存论文中的链接？, 连享会 No.917.
王颖, 2023, 论文复现：使用因果森林估计处理效应, 连享会 No.1239.
秦范, 2022, Stata论文复现：份额移动法工具变量(Shift-Share IV), 连享会 No.912.
笑花心, 2020, 长差分：Long Difference及Acemoglu AER论文推介, 连享会 No.462.
罗兰若, 2022, Stata论文复现：高维线性回归的变量筛选-baing-ocmt, 连享会 No.866.
艾卫冕, 2021, Stata论文复现：累进税率真的能减少不平等吗？, 连享会 No.774.
董洁妙, 2023, JF论文推介：FE和RE如何选择？, 连享会 No.1303.
连玉君, 陈鑫梅, 2020, 可重复性研究：如何保证你的研究结果可重现？, 连享会 No.124.
邹恬华, 2022, Stata论文复现：做一个优雅的码农, 连享会 No.928.
郭思媛, 2024, 论文复现时如何与原文作者沟通？, 连享会 No.1443.
郭盼亭, 张少鹏, 2021, Stata搜索神器：songbl命令详解, 连享会 No.691.
金钊, 2023, AEJ论文推介：DID-安慰剂检验-机制分析-中国增值税改革对企业投资和生产率的影响, 连享会 No.1254.
陈卓然, 2023, JF论文复现：金融学术圈的女性们, 连享会 No.1302.
陈卓然, 2023, 论文复现：消费券的经济效果评估, 连享会 No.1209.
陈晓淇, 2023, 论文复现：装模做样的IV, 连享会 No.1151.
马雨驰, 2023, 如何整理一份规范的论文复现文档？, 连享会 No.1180.
黄锦兰, 2024, 论文推介-用auto.dta发SSCI：如何正确使用控制变量？, 连享会 No.1397.

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

尊敬的老师 / 亲爱的同学们：

连享会致力于不断优化和丰富课程内容，以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求，我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中，分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源，将直接影响到我们课程的改进和创新。我们期待您的反馈，因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间，与我们共同塑造更加精彩的学习旅程！https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见！

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247577833&idx=1&sn=c57a2349533a6813d9e3d817e8624916

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。