最新: 当今经济学者务必研读, 经济学因果研究的知识图谱, 叙事复杂性, 实证方法演变及其在各领域采用情况

学术   2024-12-05 17:04   美国  

凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

这篇长达70页的最新文章《Causal Claims in Economics》内容丰富,值得每位关注当前经济学发展前沿的经济学者深入研读。

以下,摘录了一部分段落:

尽管顶级期刊更倾向于发表那些创新且方法严谨的研究,但更广泛的学术影响力可能更多地依赖于涉及核心且广泛认可的主题。这一分歧引发了对经济学研究方向和优先事项的重要思考。
对方法论的过分关注有时会导致对结果的过度自信和潜在的过度解释,特别是在潜在假设未能完全满足的情况下。此外,过分关注识别可能会牺牲经济理论,导致研究虽然建立了因果效应,但未能充分解释其背后的机制。
正如Keane(2010)所指出的,脱离理论框架可能会限制实证发现的解释力。这强调了虽然方法论的严谨性对于可信的因果推断至关重要,但不应排除来自多种来源的有价值证据。
诸如p-hacking、发表偏倚以及无效结果报告不足等问题,进一步加剧了对实证研究的担忧。研究人员可能会无意中进行p-hacking,即通过尝试各种模型设计并仅报告那些产生显著结果的模型。发表偏倚导致了一个市场现象:无效结果被忽视,而文献中积极发现被过度呈现,从而影响了研究的整体可信度。
进入“俱乐部”或网络可能是推动发表成功的一个重要因素,甚至可能超越实际的研究质量。正如Heckman和Moktan(2020)所指出的,依赖顶级期刊作为筛选机制可能并不能可靠地识别出最具创意或影响力的研究。
数据可得性对于确保研究结果的复现和验证至关重要。本文发现,使用私有或专有数据源的论文数量显著增加,从1980年的约4%上升到2023年的8.6%左右。自2000年以来,私有数据使用最多的领域包括行为经济学(14.0%)、金融学(13.7%)和产业组织学(13.6%)。虽然这些数据增强了分析的深度,但也引发了关于数据可访问性、可复制性和透明度的担忧
理论与实证之间的关系是经济学研究中的一个核心议题。批评者认为,过分强调实证识别可能会导致对理论发展的忽视。缺乏坚实的理论基础,实证研究的发现可能缺乏一致性和可靠性。Sims(2010)指出,经济学并不仅仅是实验科学,理论模型在解释实证结果方面发挥着至关重要的作用。
新兴的方法论,如机器学习和贝叶斯推断,为因果分析提供了新的工具。机器学习技术能够处理高维数据并揭示复杂的模式,但也存在过度拟合的风险,因此在解读时需要格外谨慎。贝叶斯方法提供了一种将先验信息和不确定性纳入因果推断的框架(Rubin 1984)。然而,技术的快速发展可能导致即使是资深研究人员也缺乏足够的培训,使得跟上最佳实践变得具有挑战性。
此外,学者们与公众的互动方式,尤其是通过社交媒体,可能会影响公众对其工作的信任度。由于只有一部分学者活跃于社交媒体,这可能扭曲公众对学术优先事项的理解。此外,Alabrese等(2024)发现,在线表达强烈政治观点的学者通常被公众视为可信度较低,这引发了对个人政治表达如何影响对科学研究信任的担忧。这些见解突显了负责任的沟通在维护学术话语和公众信任方面的重要性。
通过构建和分析经济学研究的知识图谱,本文提供了一个新的视角,探讨了叙事的复杂性和结构如何随时间变化,以及这些变化如何影响研究发现的传播和认可。本文的研究发现,某些结构特征和方法选择与成功的发表结果密切相关,这突显了在“可信性革命”时代,经济学研究的持续演变。

Garg, P and T Fetzer (2024), ‘DP19701 Causal Claims in Economics‘, CEPR Discussion Paper No. 19701. CEPR Press, Paris & London.

概览:

本文对1980年至2023年间的超过44,000篇经济学工作论文进行了深入分析。通过定制的语言模型,我们构建了一个知识图谱,以映射经济学概念及其相互关系,并区分了一般性陈述与通过因果推断方法支持的陈述。研究发现,论文中因果性主张的比例从1990年的约4%上升至2020年的28%,这一趋势反映了经济学界的“可信性革命”。

本文的研究结果揭示了促进论文在顶级期刊发表的因素与提升引用影响力的因素之间存在权衡。虽然采用因果推断方法、引入新的因果关系以及涉及较为边缘的专门化概念可能会增加论文发表在TOP5刊的机会,但这些特征并不一定会带来更高的引用量。相反,那些专注于核心概念的论文一旦发表,往往能获得更多的引用。

然而,那些具有复杂且相互关联的因果叙事的论文(其复杂性和深度通过因果通道来衡量)更有可能在顶级期刊上发表,并获得更多的引用。最后,本文还观察到报告不显著结果的情况有所减少,而私人数据的使用增加,这可能会妨碍经济学研究的透明度和可复制性。因此,强调了采取能够提高研究可信度和可访问性的实践的必要性。

简要介绍内容:

在过去的几十年中,经济学研究领域经历了深刻的变革,尤其是在通过实证方法建立因果关系方面,其重要性日益增加。这场变革被广泛称为“可信度革命”,它推动了经济学向更加严谨的识别策略发展,目的是为政策制定和理论进步提供坚实的证据基础。Orley Ashenfelter、Joshua Angrist、David Card、Guido Imbens 和 Alan Krueger 等学者的开创性研究,引入了多种增强因果识别的方法,如自然实验、断点回归设计(RDDs)和工具变量(IVs)。这些方法有效地解决了内生性问题,并提供了更为可靠的因果效应估计。

目前,顶尖的学术期刊更倾向于发表采用这些先进方法的研究,而不是传统的相关性分析(Card & DellaVigna 2013, Hamermesh 2013)。例如,Hamermesh(2013)指出,纯理论文章的数量在减少,而顶级经济学期刊中基于自生成数据和实验方法的实证研究数量在增加。“可信性革命”提高了实证研究的标准,强调了报告的透明性、对识别假设的细致考量以及严格的敏感性分析。然而,这种对特定方法的偏好也引发了关于经济学研究方向和优先事项的广泛讨论。Currie等(2020)的研究表明,随着数据和技术的不断进步,经济学领域的实证方法已显著提升。本文的研究进一步拓展了这一领域,通过将这些趋势细分为具体的因果推断方法,并考察它们在不同子领域中的应用情况。

尽管关于方法论进展的讨论层出不穷,但目前尚缺乏对经济学研究结构和复杂性演变的全面分析,特别是在因果主张和叙事复杂性方面。本文通过分析超过44,000篇NBER和CEPR工作论文,填补了这一研究空白。本文运用定制的大型语言模型,从论文的知识图谱中提取结构化信息,包括每个主张的证据来源(无论是因果推断还是其他方法),以及所使用的数据。

本文提出了一种创新方法,为数据集中的每篇论文构建知识图谱。在这些图谱中,节点代表通过JEL代码分类的经济学概念,而边则表示从源节点到目标节点的关系。这意味着,如果一篇论文探讨了一个经济学概念与另一个概念之间的关联,本文便将其捕捉为这两个概念之间的定向链接。一个主张是否被视为因果主张,取决于用来证明该主张的方法。具体而言,如果一个主张通过因果推断方法(如双重差分(DiD)、工具变量(IV)、随机对照试验(RCTs)、断点回归设计(RDDs)、事件研究或合成控制等)进行证实,本文就将该边标识为因果边。

这种图形化的表示方法使我们能够定量分析经济学研究中叙事的复杂性和结构随时间的演变。基于这些知识图谱,本文创建了几个关键度量指标,以捕捉叙事复杂性、原创性以及对领域中核心或边缘概念的参与等多个维度。

首先,边的数量表示论文知识图谱中讨论的关系总数,反映了叙事的广度。本文计算了整个知识图谱及其因果子图的边数量。其次,独特路径的数量表示从源节点到汇节点的不同路径数,显示了关系发生的渠道多样性;数量越高,说明叙事越为互联,机制越为多样。第三,最长路径长度衡量的是连接概念的最长链条,代表了论文推理的深度或论证的广度。第四,源-汇比率捕捉了源节点(起始概念)与汇节点(接收概念)之间的平衡,反映了两者的相对比例。第五,新增边比例表示论文中未在文献中先前记录的关系的比例,捕捉了研究的原创性。最后,平均特征向量中心性衡量了论文中概念在整体经济学知识网络中的中心性;中心性较高的概念在领域内更具影响力或更为关联。

通过同时分析完整的知识图谱(All)和因果子图(Causal),本文能够有效区分一般叙事复杂性与特定于因果主张的复杂性。

本文的分析揭示了几个显著趋势。首先,因果推断方法的使用显著增加,因果主张的平均比例从1990年的约4%上升到2020年的近28%,这反映了经济学领域“可信性革命”的深远影响。其次,本文发现,在促进顶级期刊发表与提升引用影响力之间存在一种权衡。具体来说,采用因果推断方法、引入新颖的因果关系以及涉及较为边缘的专门化概念,可能会增加论文在TOP5刊上发表的机会。然而,这些特征并不一定会带来更高的引用量。相反,那些专注于核心、广泛认可的概念的论文往往能获得更多的引用,这突显了发表成功与更广泛学术影响力之间的差异。

第三,叙事复杂性(通过因果子图中独特路径的数量和最长路径长度来衡量)与顶级期刊的发表和引用量增加之间显示出显著的正相关性,尤其在排名前五以及第六至第二十的期刊中表现突出。这表明,因果叙事的深度和复杂性对于发表成功和提升学术影响力具有至关重要的作用。

这些发现揭示了在研究传播和认可过程中,方法论严谨性、叙事结构和主题核心性之间的权衡关系。它们表明,尽管顶级期刊更倾向于发表那些创新且方法严谨的研究,但更广泛的学术影响力可能更多地依赖于涉及核心且广泛认可的主题。这一分歧引发了对经济学研究方向和优先事项的重要思考。

对方法论的过分关注有时会导致对结果的过度自信和潜在的过度解释,特别是在潜在假设未能完全满足的情况下。此外,过分关注识别可能会牺牲经济理论,导致研究虽然建立了因果效应,但未能充分解释其背后的机制。正如Keane(2010)所指出的,脱离理论框架可能会限制实证发现的解释力。这强调了虽然方法论的严谨性对于可信的因果推断至关重要,但不应排除来自多种来源的有价值证据。方法的错误应用或过度解释可能导致错误的结论。例如,使用工具变量依赖于强假设,即工具变量仅通过内生的解释变量影响结果,并且与误差项不相关。如果这些假设被违背,如出现弱工具变量或无效的排除限制,可能导致有偏估计。Mellon(2021)突出了使用天气变量作为工具变量的挑战,识别出许多潜在的排除限制违背。

随机对照试验(RCTs)因其内部效度而被视为因果推断的黄金标准。然而,Deaton & Cartwright(2018)和Cartwright(2007)等学者认为,RCTs可能存在有限的外部效度,无法捕捉复杂的经济现象,并且可能受到诱发需求效应的影响。如果在没有考虑情境差异的情况下将特定实验设置的结果推广到其他场景,可能会导致误导性的结论。

此外,随着论文篇幅的增加和共同作者数量的增多,研究成果的复杂性也在不断提升。这种趋势不仅反映了对方法论严谨性的更高要求,还意味着需要对因果机制、稳健性检验和理论整合进行更为详尽的阐述。然而,叙事复杂性的增加也表明,研究成果的呈现和推广在传播过程中变得越来越关键。复杂性的增加可能会使读者和评审者在批判性评估研究主张的有效性时感到困难,并可能导致对研究成果的过度关注。

“分叉路径花园”的比喻形象地说明了分析灵活性如何在没有故意不当行为的情况下,也可能导致假阳性结果的产生。美国统计学会已经强调了对p值的误解和误用,并倡导对统计显著性有一个更加细致的理解(Wasserstein & Lazar 2016)。Simonsohn等(2014)提出的p曲线方法,用于检测并纠正因使用显著结果而导致的发表偏倚,这突显了选择性报告的普遍性。

诸如p-hacking、发表偏倚以及无效结果报告不足等问题,进一步加剧了对实证研究的担忧。研究人员可能会无意中进行p-hacking,即通过尝试各种模型设计并仅报告那些产生显著结果的模型。发表偏倚,通常被称为“文件抽屉问题”,源于期刊倾向于偏好显著且新颖的结果,而忽视无效结果或复制研究。这导致了一个市场现象:无效结果被忽视,而文献中积极发现被过度呈现,从而影响了研究的整体可信度。Brodeur等(2016)记录了这种偏倚如何导致经济学期刊中显著结果的过度代表。同样,Chopra等(2024)发现,在学术界,无效结果被视为有显著惩罚,研究人员认为报告无效发现的研究在发表上的机会较小,并且被认为质量较低。Andrews和Kasy(2019)提出了识别和修正发表偏倚的方法,强调在实证研究中考虑选择性发表的重要性。此外,Frankel和Kasy(2022)讨论了在期刊空间有限的情况下,考虑到最优发表规则,建议期刊应考虑发表那些能显著改变先前信念的发现,包括精确的无效结果。

本文的分析显示,报告无效结果的比例随着时间的推移显著下降,从1980年的约15%降至2023年的8.6%左右。这一变化可能反映了学术界职业规范的日益严格,要求研究人员更多地报告显著的发现,这可能是由于出版过程倾向于积极结果。无效结果报告的不足可能会导致文献的偏斜,并影响研究的整体可信度。

学术网络在研究发现的传播和接受中扮演着重要角色。Jackson(2010)和Newman(2003)探讨了社会和引用网络如何塑造学术话语。马太效应(Matthew Effect)表明,资深学者由于引用增多和可见度提升,往往获得不成比例的认可。因此,进入“俱乐部”或网络可能是推动发表成功的一个重要因素,甚至可能超越实际的研究质量。正如Heckman和Moktan(2020)所指出的,依赖顶级期刊作为筛选机制可能并不能可靠地识别出最具创意或影响力的研究。

数据可得性对于确保研究结果的复现和验证至关重要。本文发现,使用私有或专有数据源的论文数量显著增加,从1980年的约4%上升到2023年的8.6%左右。自2000年以来,私有数据使用最多的领域包括行为经济学(14.0%)、金融学(13.7%)和产业组织学(13.6%)。虽然这些数据增强了分析的深度,但也引发了关于数据可访问性、可复制性和透明度的担忧(Andreoli-Versbach & Mueller-Langer 2014)。私有数据公司可能会在向研究社区提供数据时采取策略性行动,从而间接引导研究人员塑造特定的叙事。Barrios等(2024)发现,使用私有数据显著降低了经济学研究在经济学家和公众中的信任度。他们的研究表明,依赖专有数据等利益冲突的论文被视为可信度较低,从而削弱了研究的价值。复现的最佳实践通常仍然是一个理想而非现实,部分原因是专有数据的使用。数据隐私法规,如GDPR,进一步复杂化了数据的可访问性,限制了个人数据的使用和共享。这种紧张关系突显了制定平衡隐私关切与数据可访问性之间利益的政策的必要性。为应对这些挑战,Miguel(2021)记录了经济学领域采纳开放科学实践,如预注册和数据共享,并指出向更高透明度的快速过渡。

理论与实证之间的关系是经济学研究中的一个核心议题。批评者认为,过分强调实证识别可能会导致对理论发展的忽视(Keane 2010, Heckman 2001)。缺乏坚实的理论基础,实证研究的发现可能缺乏一致性和可靠性。Sims(2010)指出,经济学并不仅仅是实验科学,理论模型在解释实证结果方面发挥着至关重要的作用。此外,Andre和Falk(2021)强调,经济学家越来越重视多学科和多样化主题的研究,这表明我们需要在实证严谨性、理论研究以及跨学科方法之间找到一个平衡点。

新兴的方法论,如机器学习和贝叶斯推断,为因果分析提供了新的工具。机器学习技术能够处理高维数据并揭示复杂的模式,但也存在过度拟合的风险,因此在解读时需要格外谨慎(Athey & Imbens 2019, Chernozhukov et al. 2018)。贝叶斯方法提供了一种将先验信息和不确定性纳入因果推断的框架(Rubin 1984)。然而,技术的快速发展可能导致即使是资深研究人员也缺乏足够的培训,使得跟上最佳实践变得具有挑战性。

在实证研究中,伦理考量不仅涉及方法论的严谨性,还包括对研究局限性、不确定性和发现背景的透明度。误导性主张可能会扭曲政策制定,侵蚀公众信任,并导致资源配置不当。确保研究诚信是一项集体责任,涉及研究人员、期刊、机构和资助机构。媒体在传播研究成果方面起着至关重要的作用,但有时可能会无意中延续错误的研究。Alabrese(2022)指出,即使已被撤回的研究,如果在撤回前受到大量媒体关注,仍可能继续误导公众,这突显了研究人员和记者在维护科学传播准确性方面的共同责任。

此外,学者们与公众的互动方式,尤其是通过社交媒体,可能会影响公众对其工作的信任度。Garg和Fetzer(2024)记录了学者在Twitter等平台上讨论气候变化、文化和经济学等政治敏感话题的系统性模式。这些表达常常在焦点和语气上与公众意见不同,影响了公众对学术界的看法,可能与更广泛的学术共识不符。由于只有一部分学者活跃于社交媒体,这可能扭曲公众对学术优先事项的理解。此外,Alabrese等(2024)发现,在线表达强烈政治观点的学者通常被公众视为可信度较低,这引发了对个人政治表达如何影响对科学研究信任的担忧。这些见解突显了负责任的沟通在维护学术话语和公众信任方面的重要性。

在全球范围内推动基于证据的政策制定的倡议背景下,相关问题显得尤为紧迫。国际领导人和组织对实现可持续发展目标(SDGs)的进展缓慢表示担忧,部分原因在于缺乏强有力的证据来指导政策决策。尽管在公共服务领域投入了大量资金,但仍然存在一个“隐藏”的未充分利用的研究库,这些研究本可以为更好的政策选择提供依据。为了应对这些挑战,研究理事会和政府正在投资创新解决方案,以提高现有研究的可访问性和综合能力。例如,2024年9月,英国经济和社会研究委员会(ESRC)宣布了一项重大的人工智能投资计划,旨在促进公共政策的证据综合,并建设一个为政策制定者提供有用证据的全球基础设施。此外,像行为洞察团队这样的组织提出了更好的国际合作蓝图,强调证据综合和可访问性的重要性。

要理解这些趋势,我们需要研究经济学研究是如何随着时间演变的。Angrist等(2017)分析了1980至2015年间经济学期刊文章的大型数据集,记录了研究领域和风格的变化。他们发现,实证研究的增长更多地反映了领域内部的重大转变,而非跨领域的变化,更多的实证论文出现在有影响力的期刊上并获得更多引用。这一演变突显了方法论进展及其对学科焦点的影响,但也提出了一个问题:新的想法是否变得越来越难以出现。

本研究通过实证数据,深入分析了实证方法的演变及其在不同经济学子领域中的差异化应用。我们发现,双重差分(DiD)、工具变量(IV)、随机对照试验(RCT)和断点回归设计(RDD)等方法的使用显著增加,这反映了学科正向更严格的识别策略转变。在城市经济学、健康经济学、发展经济学和行为经济学等领域,因果推断方法的使用增长尤为显著。相较之下,宏观经济学等领域的增长则相对温和。这种差异突显了研究问题、数据可用性和方法论传统如何影响不同经济学领域实证方法的采纳。

通过构建和分析经济学研究的知识图谱,本文提供了一个新的视角,探讨了叙事的复杂性和结构如何随时间变化,以及这些变化如何影响研究发现的传播和认可。本文的研究发现,某些结构特征和方法选择与成功的发表结果密切相关,这突显了在“可信性革命”时代,经济学研究的持续演变。

本文的其余部分安排如下:第二部分将详细介绍用于提取和分析论文知识图谱的数据和信息检索方法。第三部分将介绍经济学的知识图谱,并讨论叙事复杂性度量、实证方法的演变及其在各领域的采用情况。第四部分将探讨论文知识图谱的结构如何与发表和引用结果相关联。第五部分将探讨复现性和数据可访问性面临的挑战,包括无效结果的报告和私有数据的使用。最后,第六部分将总结研究实践和经济学知识传播的启示。

*群友可直接在社群下载全文PDF。
内生性问题的拓展性阅读 ,0.看完顶级期刊文章后, 整理了内生性处理小册子;1.“内生性” 到底是什么鬼? New Yorker告诉你;2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法;4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题;5.毛咕噜论文中一些有趣的工具变量!;6.非线性面板模型中内生性解决方案;7.内生性处理的秘密武器-工具变量估计;8.内生性处理方法与进展;9.内生性问题和倾向得分匹配;10.你的内生性解决方式out, ERM独领风骚;11.工具变量IV必读文章20篇, 因果识别就靠他了;12.面板数据是怎样处理内生性的;13.计量分析中的内生性问题综述;14.工具变量IV与内生性处理的解读;15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法;17.面板数据中heckman方法和程序(xtheckman);18.控制函数法CF, 处理内生性的广义方法;19.二值选择模型内生性检验方法;20.2SRI还是2SPS, 内生性问题的二阶段CF法实现;21.内生变量的交互项如何寻工具变量;22.工具变量精辟解释, 保证你一辈子都忘不了,23.审稿人: 为啥你不展示Y对工具变量Z的简约式回归结果呢?24.Two Sample IV, 双样本二阶段工具变量回归, TS2SLS充分利用2份数据的信息,25.Stata自救行动: 高维固定效应HDFE, 弱工具变量稳健性估计, 工具变量SVAR
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

计量经济圈
凡是搞计量经济的,都关注这个号了。
 最新文章