👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:最新专题 | 计量专题 | 关于连享会
🍓 课程推荐:2024 空间计量专题
主讲老师:范巧 (兰州大学)
课程时间:2024 年 10 月 2-4 日 (三天)
课程咨询:王老师 18903405450(微信)
课程特色 · 2024空间计量:
👉 一、从“零基础”到“高水平”的课程设计
兼顾基础知识、主流模型与前沿模型 既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授,更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。
👉 二、“保姆级”的空间计量代码
编写与校准所有模型的MATLAB代码,简化实操环节 模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据,即可一次性出结果并作图。
👉 三、“最多上新” 的内容体系
新增 矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等 新增 前沿应用案例,包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究,阐释基于空间计量的产业空间结构优化评价方法。 新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容,阐释现实研究中对空间收敛性的应用“谬误”。
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
作者:陈荟文 (中南财经政法大学)
邮箱:1210645098@qq.com
编者按:本文主要整理自下文,特此致谢!
Source:Ankel-Peters J, Fiala N, Neubauer F. Do economists replicate?[J]. Journal of Economic Behavior & Organization, 2023, 212: 219-232. -Link- -PDF-
1. 引言
实验复现对所有实证类学科来说都至关重要。它为我们提供了再次核查结果、发现错误和疏忽的机会,同时也能检验先前研究成果在新环境下的普适性。这种实践对经济学尤为关键,因为经济学研究的结果往往会直接影响政策决策。
值得注意的是,其他学科如心理学和医学,在面对欺诈事件和大规模复现问题时已经发生了激烈的争论。近年来,有研究提出了经济学实证研究结果可重复性的问题,这引发了对经济学研究方法的质疑。
正如默顿所言的“有组织的怀疑主义”,经济学迫切需要展开一场自我反思。我们认为,除了同行评审,实验复现也应成为这一自我审视过程中不可或缺的一环。
首先,我们需要明确“复现”的定义。目前学界对“复现”的概念存在争议。从广义上讲,对先前研究稍作修改并在新情境中应用也可被视为复现。然而,从有组织的怀疑主义的角度看,我们需要更严格的复现定义。这种复现应强调检验已发表结果的可靠性,发现有意或无意的研究问题。我们将这种类型的复现称为 审查性复现 (policing replications)。审查性复现的特点在于,其标题或摘要直接引用原始研究成果。
编者:在写这篇推文过程中,我们对如何准确翻译「policiing replications」这个词很是纠结。显然,不能直译为「政策性复现」或「监管复现」。或许翻译为「规范复现」或「监督复现」能够在一定程度上体现「policing」的含义。最终,经过反复斟酌,我们选择了「审查性复现」这个译法。
接下来,我们从几个方面研究了经济学领域审查性复现的情况。
我们查阅了经济学 Top50 期刊中符合我们定义的“审查性复现”论文数量。结果显示,在 2010 年至 2020 年共发表了 29682 篇论文,而符合我们定义的审查性复现论文仅有 259 篇,占比仅为 0.9%。 我们按照 Berry 等 (2017)、Sukhtankar (2017) 和 Mueller-Langer 等 (2019) 的研究,对复现论文的定义进行了筛选和讨论。 我们研究了《美国经济评论杂志 (AER)》多年来发表的评论性论文数量的变化情况。作为一家行业领先期刊, AER 的评论论文主要探讨和质疑该刊之前发表的论文。我们发现,在过去几十年中,这类评论论文的数量呈持续下降趋势,而 AER 发表的实证论文数量却大幅增长。近年来,AER 发表的评论论文不足总论文的 3%。 我们调查了 Top50 经济期刊的编辑,结果显示大多数期刊会发表原刊 (79%) 或其他期刊 (62%) 的复现论文。
总的来说,通过不同的研究层面,我们发现经济学领域的审查性复现频率较低。
本研究对经济学领域的元科学理论和研究透明度进行了深入讨论,并在理论上做出了重要贡献。相关文献表明,近年来经济学界在公开研究数据和代码可得性方面取得了显著进展。然而,我们认为,要建立持久且可靠的研究激励机制,不仅需要严格的数据共享政策,还需要建立复现文化,通过实证验证来检验数据分析结果。
2. 经济学领域复现的定义和频率
在经济学领域,目前并不存在一致公认的复现定义。表 1 总结了当前主流复现定义和分类标准,根据原始研究是否采用相同的模型规范、人口和样本进行了分类。对经济学领域复现定义影响最大的文献包括 Hamermesh (2007)、Clemens (2017),以及 Christensen 和 Miguel (2018) 关于研究透明度的讨论。
定量社会学作为实证学科,也提出了引人注目的分类标准 (Freese 和 Peterson,2017)。近期,Berkeley 社会科学透明性倡议组织 (BITSS) 和复现研究所 (I4R) 在社会科学领域引起了越来越多的关注,它们致力于建立平台来验证计算方法和结果的稳健性。表1 中涵盖了 I4R 使用的术语分类、BITSS 的分类标准、以及 Hamermesh (2007) 和 Clemens (2017) 的定义。
接下来,我们将关注经济学中的复现频率。最近的三篇评论系统地讨论了经济学家重复实验的频率,总结见表 2。
当前关于复现频率估算的结果存在较大差异,从低至 0.1% 到高达 60% 不等 (Berry,2017)。这一大范围的差异主要源于对“复现频率”的定义存在差异。首先,复现频率可以从两个方面进行衡量:
一是已发表论文被复现的比例 (被复现的已发表论文数量/已发表论文总数); 二是已发表论文中包含复现内容的比例 (包含复现内容的论文数量/已发表论文总数)。
我们将这两种衡量分别称为选择性复现率和总体复现率:选择性复现率是指 Berry 等 (2017) 和 Sukhtankar (2017) 研究中采用的方法,这与 Hamermesh (2017) 的观点类似,即认为只有有着重要影响力的研究才需要进行复现。而总体复现率则是 Mueller-Langer 等 (2019) 研究中采用的方法,他们检查了 1974 年至 2014 年间经济学 Top50 期刊中所有论文是否包含复现内容。
此外,这三项研究对复现的定义也存在差异。Berry 等 (2017) 采用了较宽松的标准,将复现分为“重复”、“延伸”和“稳健性测试”三类,分别指的是检验原始假设的正确性、相关假设的验证以及使用新样本或模型对原研究进行检验。Berry 等 (2017) 发现 AER 期刊相关论文中符合这三类复现的比例分别为 28.6%、48.6% 和 40%。然而,按照更为严格的标准 (如 Clemens 所给出的定义),Berry 等 (2017) 的研究中符合“验证”和“重现”定义的论文数量分别为 0 篇和 2 篇。
另一篇采用选择性复现率统计方法的研究是 Sukhtankar (2017),他对复现给予了更为狭隘的定义,即严格按照 Clemens (2017) 的术语进行界定。Sukhtankar (2017) 发现同行评议期刊中复现的比例仅为 3.3%,若考虑工作论文则为 6.2%。
同样地,Mueller-Langer 等 (2019) 参考了 Hamermesh (2007) 提出的较为狭义的定义,但他们检查了 1974 年至 2014 年间 Top50 期刊中所有论文中包含复现内容的比例,结果为 0.1%。Berry 等 (2017) 和 Sukhtankar (2017) 得出的复现率较高,这是因为他们采用了选择性重复方法进行测算。据显示,复现工作主要集中在一些影响力较大的顶尖期刊上的研究。因此,当我们计算这些论文被复现的次数时 (无论这些复现工作发表在哪个期刊),得到的结果会高于仅考虑 Top50 期刊上复现研究的次数。
3. 审查性复现
3.1 关于定义的明确态度:承担举证责任
我们完全认同类似 Berry 等 (2017) 研究中采用广义复现的科学价值。然而,为了体现默顿的“有组织的怀疑主义”精神,复现应当直接检验论文的结论是否成立。我们提出了“审查性复现”这一术语,借鉴了 Ofosu 和 Posner (2021) 在检查预分析计划与实证研究符合性时所使用的“执法”一词。
然而,广义复现很难明确是否对论文结论进行了检验,需要读者自行判断。因此,我们主张应更明确地指出论文是否“直接检验”了前文的结论。同时,我们再次强调了 Clemens (2017) 的重要观点:复现研究是否应该获得与原始研究完全相同的结果,这一“举证责任”应当由复现研究的作者来承担。
3.2 定义
我们提出一个简明的定义:要被归类为审查性复现,该复现应直接对前文的实证研究提出质疑,并明确指出原研究 (标题或摘要中提及)。这是因为执法行为需要能够明确归因。尽管我们知道这种分类并不是完全明确定义的。根据 I4R 表1 的定义,“计算重复实验”和“稳健性重复实验”大多数情况下可以归类为审查性复现。
然而,如果复现论文没有明确指出原研究,读者需要自行判断是否更新了先前的研究观点,这种情况就不符合审查性复现的要求。同样地,“直接复现”和“概念复现”,原则上如果直接对原研究提出质疑,也可以被视为审查性复现。但在许多情况下,学者为了突出其研究的创新,可能并不会明确指出原研究。
“执法”一词用于说明实证科学研究需要受到系统性监督,以纠正研究舞弊问题。我们明白这个词可能带有一些消极的含义。然而,我们想要强调的是其积极意义,即监管行为旨在预防故意或非故意的错误行为。执法只是调查取证的过程,证据交由检察官做出判罪决定,而学术界则扮演着裁决层的角色。这一含义在 Ozier (2021) 的论文中得到了很好的阐释。
3.3 审查性复现频率
我们进一步考虑了目前已经发表的审查性复现研究数量。我们检索了 2010 年至 2020 年间 Scopus 数据库中 50 种顶级经济学期刊的论文 (最终包含 42 种期刊),以计算总体复现率。我们设定了以下标准来判断论文是否符合审查性复现的条件:
在摘要或标题中直接引用其他论文; 标题中包含 “comment” 一词; 标题、摘要或关键词中包含 “replic”、“reanal” 或 “revisit”。
在 2010 年至 2020 年间,这 42 种期刊共发表了 29682 篇论文。经过上述标准的检索,有 2787 篇论文符合条件 (详见附录表 A1)。我们阅读了所有符合条件的论文摘要 (摘要中应体现出质疑精神),并进行了分类:审查性复现与非审查性复现。为了得出保守的结论,我们将边缘情况的论文也归类为审查性复现。这些论文通常包括符合证实性复现标准的内容,但不包括更正或回复等类型的文章。
我们发现共有 259 篇审查性复现论文 (占所有论文的 0.9%),其中有 238 篇论文在标题或摘要中引用了原研究。如图 1 所示,在 42 种期刊中,有 3 个期刊从未发表过审查性复现论文,而有 30 个期刊相关发表量少于 5 篇,然而,《AER》和《Journal of Applied Economics》中的审查性复现论文占比接近 50%。
到底期刊之间的这种模式差异是源自编辑政策 (例如,《Journal of Applied Economics》设有复现专栏),还是因为更多论文投稿到某些期刊?这种差异的根源还有待进一步研究。在子学科方面,我们注意到大多数审查性复现论文涉及宏观经济学、金融学和行为经济学 (包括实验室实验),而在发展经济学、环境经济学、健康经济学和劳工经济学等应用领域的审查性复现论文数量较少。
我们得出结论的方式可能存在两种偏误:使用简单的检索标准可能遗漏了部分论文;论文分类依赖于主观判断。因此,为了验证结果的稳健性,我们从两个角度进行了检查:
首先,我们检索了 Berry 等 (2017)、Sukhtankar (2017) 和 Mueller-Langer 等 (2019) 所归类的复现论文,看其是否符合我们定义的审查性复现标准。结果显示,Berry 等发现 52 篇重复论文中只有 1 篇符合审查性复现标准。Sukhtankar 发现 71 篇复现论文中,有 50 篇符合审查性复现标准,另外 20 篇只以工作论文形式发表,两者的复现率分别为 1.4% 和 2.6%。Mueller-Langer 检索的总体复现率与我们的结果较为一致,为 0.1%。
其次,我们对 AER 期刊进行了详细研究,这是发表审查性复现论文数量最多的两个期刊之一,我们关注了该期刊自 1980 年以来发表的评论数量:AER 期刊的评论涉及对该期刊之前发表的论文进行讨论和质疑,使该期刊具有明显的执法属性。
如图 2 Panel A 所示,从 1980 年至 1990 年,评论性论文数量占 AER 所有论文的 10-20%,到 2010 年代初下降至 5% 以下,最近几年仅占 2-3%。AER 的评论也可能是理论性的,而我们所定义的审查性复现需要进行实证检验。因此,我们将 AER 的评论论文分为理论性和实证性两类,并发现:在 1980 年至 1990 年间,评论论文中有很多是理论性的;AER 所有论文中实证性评论的比例持续下降,尽管不及总评论比例下降得那么明显。然而,在经济学领域的实证研究数量急剧增加的情况下 (Angrist,2017),AER 中实证性评论论文的比例下降问题仍值得关注。
图 2 Panel B 显示,AER 期刊的实证论文数量从 1980 年至 1990 年的大约 50 篇增加到目前的大约 80 篇,实证论文的总比例也有所增加;而年度总论文数量从 1980 年至今基本持平,实证评论在实证论文中的比例明显下降。Hamermesh 等认为,这一问题可能与该期刊采用的最大化引文策略有关,复现和评论性论文的平均被引用次数低于原创性论文。
4. 复现的发表:期刊政策
基于前文的结果,我们与 I4R 机构展开了一项调查研究,旨在调查 Top50 期刊编辑对于“审查性复现”的发表态度和政策。我们共联系了 42 位期刊编辑,收到了 33 份回复。图 3 总结了调查结果,具体按期刊细分的结果请参见附录表 A3。
大多数编辑 (79%) 表示他们的期刊愿意发表对本期刊之前研究进行的审查性复现。其中,62% 的编辑表示,他们一般也会考虑发表针对其他期刊研究的审查性复现。然而,许多编辑补充指出,他们希望看到论文在复现基础上能够提供更广泛的贡献。此外,我们还查阅了 42 个期刊网站上的“目标范围”或“作者指南”板块,发现有 7 个期刊明确表明他们会考虑发表复现或评论性论文 (占17%)。
这一调查结果有助于我们更深入了解期刊编辑对于审查性复现的态度和政策,为促进学术领域的监管和质量提升提供了有益的参考。
值得注意的是,最近出现了一些新的发表复现论文的机会。例如,《Journal of Comments and Replications in Economics》明确表示会发表“直接质疑前研究具体结论可靠性”的复现论文,与我们定义的审查性复现概念一致。一些期刊,如《Journal of Political Economy: Microeconomics》、《Journal of the Economic Science Association》、《Q Open》在期刊的宗旨中明确征集复现论文。另外,一些期刊,如《Journal of the European Economic Association》和《Energy Economics》,在其作者指南中也明确邀请发表复现论文。此外,一些平台如BITSS和I4R也提供了发表审查性复现研究的机会,包括最新推出的论文讨论系列。
这些举措都是积极的步骤,但期刊主动邀请复现研究投稿并不意味着作者们一定会积极贡献复现论文。例如,《Journal of Political Economy》在 1999 年终止了“Confirmations and Contradictions”版块,《Labour Economics》也修改了政策,都是因为复现论文的投稿量不足。因此,复现研究的供给不足也可能是问题的根源,学者们可能缺乏进行审查性复现研究的内在和外在动机。这需要学术界和期刊共同努力,促进审查性复现研究的发展和推广。
5. 结论
我们在现有复现定义基础上,提出审查性复现这种复现类型,与默顿的“有组织的怀疑主义”相呼应。我们发现不到 1% 的论文属于审查性复现 (总体审查性复现率),1.4%-2.6% 影响力论文被审查性复现 (选择性审查性复现率)。我们认为,近期元科学研究表明经济学复现存在的问题值得担忧。
需要注意的是,我们统计的审查性复现率是基于同行评审复现。但有很多论文重析或稳健性检查发生在教学过程中,只有一部分会被发表,因此可能偏向消极性结论。总体来说,考虑到经济学当前激励机制和复现出版文化,主要发表的是复现失败的论文。我们认为,依照默顿精神,审查性复现这个敏感的工作不应该交给学生,让他们与相对强权的原作者对质,老练的学者也应积极参与审查性复现。
为此,研究人员需要得到正确的激励。我们的观点 (基于 Clemens,2017) 是复现研究的作者应承担举证责任,这与经济学当今的新颖性规范背道而驰。新颖性规范使得复现论文很难发表在对个人学术生涯有裨益的期刊上。此外,审查性复现在学术界常常被视为带有敌意的行为。这两点使得复现研究成为风险较大的职业策略,尤其对年轻学者而言。
显然,我们需要改革和激励来促进学界文化变革。Coffman 等 (2017) 认为,变革必须从上至下,因此他们呼吁期刊定期增设复现专栏。心理学领域的研究显示,复现研究在引用量上大多被忽视,甚至失败的复现也很少对原论文引用产生负面效果。
复现研究的低引用也形成了负面回馈,因为发表评论和复现论文对那些追求引用最大化策略的编辑来说成本较高 (Card 和 DellaVigna,2020)。值得注意的是,大多数经济学期刊网站的复现论文没有提供链接到原论文页面的功能——而这在其他学科已经是标准做法。以 AER 为例,我们证实了它在发表审查性复现方面领先,但截至 2022 年 12 月,其网站也未提供链接到原研究的渠道。改进此链接机制将有助于提升复现研究的知名度,从而可能增加复现论文的引用量。
我们也想再次重申 Clemens (2017) 简单明了的建议:美国经济学会和《经济学文献分类法》应考虑在JEL体系中增加复现类型的分类,明确术语有助于表明这一行业对复现研究的重视。JEL 代码也便于找到复现研究,并将其纳入系统性综述文章 (Coffman 等,2017)。
此外,顶尖期刊应明确是否接受甚至鼓励评论性和复现研究。我们发现仅 17% 的 Top50 期刊网站明示此事。不过,文化转型或正在进行中。AEA的数据编辑推动开放数据与代码工作已卓有成效。而且,编辑调查结果表明,顶期刊普遍开放了复现研究。加上BITSS和I4R等社科的复现机制以及专门复现期刊的出现,未来的复现率或将有所增长。
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 论文复现, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:论文重现
刘依云, 2023, 论文复现:土豆对人口与城市化的贡献-连续DID应用, 连享会 No.1190. 邹恬华, 2022, Stata论文复现:做一个优雅的码农, 连享会 No.928. 郭思媛, 2024, 论文复现时如何与原文作者沟通?, 连享会 No.1443. 专题:论文写作
刘帅, 2021, Stata论文复现:女性领导人当选是否有助于更多女性从政-RD, 连享会 No.831. 连玉君, 陈鑫梅, 2020, 可重复性研究:如何保证你的研究结果可重现?, 连享会 No.124. 专题:倍分法DID
刘梦蝶, 2024, DID大餐:49 篇 QJE 论文汇总(2018-2022), 连享会 No.1363. 刘淑云, 2023, 论文复现:低碳转型冲击就业吗?, 连享会 No.1197. 吕卓阳, 2021, Stata 论文复现:Temperature Shocks and Economic Growth, 连享会 No.730. 吕卓阳, 2021, Stata 论文复现:儿童权利公约对儿童健康的影响, 连享会 No.726. 吕大兴, 2023, 论文复现:基于组级纵向数据评估政策的试验模拟方法, 连享会 No.1145. 吴奕玮, 2023, 论文复现:引入注意力的考虑集模型-alogit, 连享会 No.1316. 姚永健, 2023, 论文复现:家庭财富冲击会影响生产力吗?, 连享会 No.1185. 孙晓艺, 2024, 论文复现:面板变系数模型及其在工资溢价和教育回报中的应用, 连享会 No.1371. 张蛟蛟, 2022, Stata论文复现:社科领域Top5期刊复现资料, 连享会 No.911. 专题:断点回归RDD
张迪, 2022, Stata论文复现:适用于小样本的RDD, 连享会 No.1054. 徐安宇, 2022, Stata论文复现:政策评估中的交互效应, 连享会 No.1131. 专题:Stata命令
李原, 2024, Stata:可重复研究中的版本控制问题-require命令, 连享会 No.1370. 李烨阳, 2023, 论文复现:包含交互项的假设检验, 连享会 No.1142. 杨云帆, 2023, 论文复现:多期DID应用之地方选举的兴衰, 连享会 No.1321. 梁淑珍, 2022, 论文复现:顶刊JF中的因子分析-谁更容易当CEO?, 连享会 No.993. 王珞嘉, 2022, 如何永久保存论文中的链接?, 连享会 No.917. 王颖, 2023, 论文复现:使用因果森林估计处理效应, 连享会 No.1239. 专题:IV-GMM
秦范, 2022, Stata论文复现:份额移动法工具变量(Shift-Share IV), 连享会 No.912. 专题:回归分析
罗兰若, 2022, Stata论文复现:高维线性回归的变量筛选-baing-ocmt, 连享会 No.866. 艾卫冕, 2021, Stata论文复现:累进税率真的能减少不平等吗?, 连享会 No.774. 专题:Stata资源
郭盼亭, 张少鹏, 2021, Stata搜索神器:songbl命令详解, 连享会 No.691. 陈卓然, 2023, JF论文复现:金融学术圈的女性们, 连享会 No.1302. 陈卓然, 2023, 论文复现:消费券的经济效果评估, 连享会 No.1209. 陈晓淇, 2023, 论文复现:装模做样的IV, 连享会 No.1151. 马雨驰, 2023, 如何整理一份规范的论文复现文档?, 连享会 No.1180.
🍓 课程推荐:2024 空间计量专题
主讲老师:范巧 (兰州大学)
课程时间:2024 年 10 月 2-4 日 (三天)
课程咨询:王老师 18903405450(微信)
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。