回归到底有啥用:最优解释推断与社会科学实践|Jounral of Politics

文摘   2024-11-12 18:52   浙江  

回归到底有啥用:最优解释推断与社会科学实践

编者按:

社会科学研究者经常会发现自己在研究实践中陷入一种知行不合一的处境:一方面基于演绎法的研究方法强调先提出假设再使用数据实证检验,另一方面在实际研究中往往对数据的初步分析会帮助我们发现更有意思的规律并提出更有洞见的假设;一方面理论上我们强调社会现象是多种机制并行的结果且具有异质性,另一方面我们在研究中执着于明确确立单一(或少数几个)变量对结果的影响;一方面我们在方法课上花费大量时间学习多元回归和控制变量,另一方面如今没有明确因果推断设计而只用回归的实证文章已经很难在前沿期刊中见到。


这种矛盾很大程度上来自于我们对于社会科学研究实践的基本逻辑的误解,而本次推送的这篇文章则为这种误解提供了一种可能的解决方案和进一步思考的方向。虽然文章主要的对话对象为当下以因果推断为主的(政治学)定量研究,但其在具体方法讨论外的核心逻辑同样适用于定性研究。


推送次条中包含了编者过往的两篇和本次文章相关的编译。其中第一篇可以看作是对本文所提出的溯因视角的实证实践。其中作者使用不同的模型设定来估计收入流动性,并通过不同模型结果间的差异得出了对收入流动性变化的新解释。第二篇是类似的在科学哲学层面对社会科学理论和研究进行的反思,但其观点却和本文相差颇大。读者朋友可以参考比较。


本文目前还处于conditionally accepted状态,尚未正式发表。当前版本来源于作者的Github,未来正式发表版本可能会与当前版本有所区别。鉴于篇幅原因,编译略去了对实验研究和政策评估的讨论,以及最后的总结讨论。


摘要:

本文中,作者认为,几乎所有经验社会科学研究都应采用所谓“最佳解释推断”(Inference to the Best Explanation,IBE)的论证模式。虽然IBE元素在社会科学研究中广泛出现,但其却很少被有意识地表述,从而导致人们对证据在社会科学主张中所扮演的角色产生误解。本文中作者为IBE提出了具体的表述与定义,并讨论了其对不同类型研究的评价的影响——从定量描述到传统的回归研究,再到现代因果识别。作者主张,这些方法优劣之争应该理解为学者们对解释质量、证据质量及二者之间联系这三者的重要性的看法上的分歧。以这种方式来看待这一过程,有助于凸显不同研究传统的优点,并解释其共有的问题。基于IBE框架,作者澄清了回归研究中某些建议的出发点,并提供了对最佳实践的指导。


作者简介:

Arthur Spirling,普林斯顿大学政治学系
Brandon M. Stewart,普林斯顿大学社会学系

文献来源:

Spirling, Arthur & Stewart, Brandon M. "What Good is a Regression? Inference to the Best Explanation and the Practice of Political Science Research" Journal of Politics, conditionally accepted.


Current version avaliable at: 

https://github.com/ArthurSpirling/InferenceToTheBestExplanation/blob/main/paper/Spirling_Stewart_WhatGoodIsARegression.pdf


译者:

Ahaooooo







本文作者:Arthur Spirling & Brandon M. Stewart

 

引言


如今回归分析在政治学中无处不在,但关于它能显示什么以及应该如何使用的争论仍在激烈进行。一些学者认为,如果没有可行的因果识别策略,给定的回归分析对于大多数政治研究来说几乎没有价值(如Samii,2016)。另一些人则认为,这种对因果识别的关注是无益且具有误导性的;对他们来说,这一学科需要从对推论的紧密关注转向提出和检验解释的持续转变(如Huber,2013)。对于那些自己进行和评估回归分析的研究者来说,困惑挥之不去:这两种哲学视角中哪一个是正确的,依据是什么?本文中,作者的答案是:两者都不是。目前学科内的争论提供了一个错误的抉择。也就是说,这一选择没有单一的“正确”选项;而认为有一个单一的正确选项是误解了科学的运作方式和应有及可能的进展方向。作者认为,事实上存在这样一种单一的推断模式将这两种视角统一并兼容;研究者应当意识到这一框架,并依此来明确描述他们工作的贡献。这一框架在广义上被称为溯因推断(abductive inference),而此处作者具体讨论“最佳解释推断”(Inference to the Best Explanation,IBE)这一形式。这一框架在政治学中几乎不为人所知,令人感到意外和遗憾。然而作者在本文中表明几乎所有已发表的实证工作都在使用它。这些研究同时包括Samii和Huber以及许多其他人希望看到的研究类型。遗憾的是,对 IBE 的无知导致了研究者在进行回归分析时对所做和应做之事的巨大困惑。因此本文的立场是,研究者应明确使用 IBE,并在进行和评估研究时意识到其影响。作者认为需要明确的是:无论是否存在可行的因果识别策略,回归分析都有其价值;而更具体地说,为因果主张收集证据并不需要估计一个因果识别过的参数——这是两件相关但常常被混淆的事。要准确理解这一思想的切入点,我们便需要采用 IBE。

本文中作者提出两个论点。首先,作者的观察是,当研究者通过收集与特定现象相关的事实(这些事实要么与解释一致,要么不一致)来缩小可能的“解释”的数量时,整个学术领域便会产生进展。因此,研究贡献可以被分为三种相互重叠的类型,即生成解释(the generation of explanations)、生产事实(the production of facts)以及根据这些事实更新解释(the updating of explanations in light of those facts)。第一类涉及对世界上的社会科学关系进行理论化:例如,“什么因素可以解释为什么内战在某些地方发生,而在其他地方则没有?” 第二类揭示了关于这些关系的新信息,其可能涉及反事实推断,也可能不涉及。例如,“那些自然资源更多的国家是否实际上也有更多的内战?” 这一问题便是一个描述性事实的例子。第三类贡献更为模糊,但同样常见。它涉及我们在基于已知信息的条件下,对新事实对给定的解释的可信度的普遍评估。例如,一篇论文可能会提出自然资源是内战的原因这一理论。然后,它可能会展示在自然资源较多的国家,内战在经验上确实更为普遍(尽管这一事实对于因果主张既不是必要也不是充分条件)。在给定的解释下,第三类贡献指出我们可以预期哪些事实与这些解释一致或不一致,以及我们应该如何更新我们的信念。这可能涉及为特定的机制提供定性证据,或者验证该解释所暗示的其他关系在样本中或其他地方是否成立;也可能涉及对反事实主张的敏感性进行技术性检查,以排除未观测到的混杂因素(例如,Blackwell,2014;Cinelli and Hazlett,2020),或对主要变量的替代测量策略进行检查。

IBE框架的运作同时需要这三种贡献,而研究者则在主要关注点应该放在哪里的问题上合理地存在分歧。一些学者优先考虑新的解释,另一些则强调每个单独事实的质量;还有一些人将几项单独不太有说服力的证据结合成一个连贯的整体。作者的观点是,所有这些任务都有其价值,且这一立场与科学的运作方式是完全一致的。换句话说,没有理由通过公理化的论证来否定或推崇只做其中某一项而不做其他事情的研究工作。然而,这并不意味着研究没有门槛。例如,作者将在下文中提出,我们应该更倾向于那些具有广泛适用性、能够跨情境迁移并具有详细影响的解释。其他学者对解释的标准和功能可能有不同的要求(见如 Ashworth, Berry and Bueno de Mesquita,2021 年关于“可比性”的讨论)。无论如何,作者认为,将IBE理解为社会科学的首选推理模式能够为某些实践提供了新的且精确的推动力——例如,明确接受探索性研究(Munger, Guess and Hargittai,2021),以及避免事后修正假设(Hypothesising After the Results are Known,HARKing)(Kerr,1998)。

作者更为狭义的论点则涉及对因果识别在定量研究中的中心性的特定争论。这一争论在 Huber(2013)和 Samii(2016)的工作中得到了最明显的阐述。Huber 认为,对“因果识别的高度关注”正使政治科学远离回答其最有趣的问题;同时,Samii 认为,如果没有因果推断,我们就只是在大规模生产“定量‘伪普遍伪事实’”(941)中。本文中,作者认为,无论因果识别做得多好,任何统计估计都不能在脱离IBE的情况下产生普遍知识。IBE 是必要的,因为其阐明了估计结果与理论的联系、它的有效性、处理效果的哪一部分产生了影响,等等。从这一点出发,作者认为,许多表面上的“争论”都只是误解;争论的参与者并没有在实质上分歧,而只是关注了过程的不同部分。无论是在单一研究中还是许多研究间,定量社会科学的目标不仅仅是揭示因果识别过的事实;目标应该是利用(许多)证据来获得对最佳解释的推断。相较于没有因果识别的结果,识别后的估计结果更易于与理论解释联系起来,但这并不意味着因果推断可以弱化上述推断的重要性。换言之,即使传统回归分析跟不上当下因果识别的最佳实践,其依然可以帮助研究者评估不同的解释。更直接地说,Huber 对政治研究命运的担忧是正确的:没有生成和评估解释的工作,政治学研究无法继续下去。

本文中,作者将“最佳解释推断”(IBE)(由 Harman,1965提出)定义为这样一种推理模式:给定一组事实,我们从一组可能的解释中推断出最“好”的解释,即最可能是真实的解释。相比于其他解释,最佳解释可能更简单、更完整或具有其他一些理想属性。IBE是一种“溯因推理(abductive inference)”,因为它通过能够解释我们所见结果的(通常是因果)故事,在观察和结论之间建立了非决定性的联系。社会科学家会在那种作者列出多种理论(解释)并通过一系列基于回归的测试(事实/证据)进行检验的研究中最清楚地认识这一逻辑。然而,溯因推断和IBE间的差异不只局限于术语上的差异:IBE 强调候选解释及其与事实的一致性或不一致性的方式,在推论的可信度中与证据同样重要。因此,描述性事实或因果探究的可信估计只是更大推论框架中的一部分。

对于“回归”,作者将其作为对任何参数或非参数模型的总称。在这些模型中,结果(因变量)是至少一个预测变量(自变量)的函数。通常,我们使用它来描述给定自变量下结果的条件分布的特定性质(通常是期望值);它告诉我们当我们改变某个输入时,预测会如何变化。其包括线性回归作为一种特例,但也包括广义线性模型和各种传统上被认为是机器学习一部分的技术。在某些情况下,这些技术能够给出因果识别后的估计量;但作者明确的主张是,这不是它们在 IBE 中有用的必要条件。也就是说,描述世界中的关联可能足以帮助我们更新竞争解释的相对可信性。

当下研究中的回归分析

考虑一个常见的情景。作者给出了一系列关于某个社会或政治现象在世界上如何展开的描述,随后列出了一系列假设,其中备择假设(与原假设相对)与这些世界观之一一致。然后,作者展示了一张回归表,并讨论了自变量与感兴趣的结果变量之间的关联。数据是观察性的,结果也并未明确声称具有因果关系,但假设暗示某些变量比其他变量更具实质性意义。此外,作者在回归中控制了各种其他变量,但并未特别清楚地说明假定的混杂因素的性质、任何可能的处理后偏差,或隐含的因果结构。在各种模型设定中,感兴趣的变量与结果之间的关系是一致的,至少关键系数的符号和方向在分布于表格列中的众多模型规格中保持相似。作者宣称其选择的解释是正确的。我们不妨直接地问:这样的回归有什么用处,我们该如何评估其优点?

现在来考虑另一种情况。这里作者描述了一个单一的理论,该理论暗示了一种普遍类型的干预措施对世界的影响。作者进行了实验、自然实验或设计过的观察性研究,并得出了与某个子群体相关的反事实因果识别估计。这些研究也可能包含某种回归表,通常具有明确定义的处理变量和假定代表某种因果效应平均值的系数。作者宣称他们关于这种普遍类型干预措施的总体好处(或危害)的理论是正确的。这样的研究方法是否本质上优于上述方法?

上述两个抽象化的情景虽然极端,但捕捉了许多目前在顶级期刊上发表的研究的核心要义。让我们假设在这两种情况下的最终目标都是评估某个特定理论或对世界中某个现象的解释,而不是为了预测本身(如Cranmer and Desmarais, 2017 所述)。从狭义上讲,回归在这两种情况下的作用是确定的:它近似于一个条件期望函数。但在何时以及以何种方式该条件期望函数是有用的一直是广泛争论的主题。越来越多的人倾向于将第一种情景解读为后一种情景因因果假设不可信而导致的失败案例。然而,作者认为这不仅仅是对哪些假设是可信的分歧问题;它实际上反映了对学科工作应该是什么,以及应将精力最有效地应用于何处的不同想法。

虽然其在社会科学史上是一个相对较新的发展,但“可信度革命(the credibility revolution)”(Angrist and Pischke, 2010)是讨论这一问题的自然起点。其核心思想是,用观察性数据做出因果陈述是困难的,并且只能在比我们原来意识到的更有限的情况下进行。实际上,根据 Samii(2016)(另见 Gelman and Hill,2006;Gerber et al.,2014;Keele、Stevenson and Elwert,2020),没有考虑这些问题的回归分析可能会产生误导性结果。因此,学者们必须寻找“强设计”以提出“有说服力的”因果主张(Sekhon,2009,503)。即使在看似有利的情况下,这种有效的因果设计依然是十分困难的;例如,即使处理和控制组可能是随机化的,但由此创建的组之间可能并不具有可比性(例如,Sekhon and Titiunik,2012)。虽然这些研究的技术主张毋庸置疑,但学者们对可信度革命对于政治科学研究重点的意义却存在很大分歧。

一些学者,如 Huber(2013)认为,转向因果推断可能在两个方面令人担忧。首先,许多实质上有趣的现象并不自然地适合此类研究(因为例如处理措施无法合理随机化),因此我们看到研究这些问题的努力减少。其次,专注于寻找可用的因果识别机会会排挤理论发展:这一观点认为,传统的(不具因果推断合理性的)回归设计有助于我们改进对观察数据中关系的理解。对于随机对照试验(randomized controlled trials,RCT),Deaton and Cartwright(2018)提出了类似的观点。即,(必然是)特定的RCT的结果无法轻易推广到一个领域中更广泛的问题。相比之下,像 Samii(2016)这样的学者则认为,这些担忧有些夸大,甚至完全错误。更具体地说,我们应该避免使用传统设计,因为它们会生成“伪普遍的伪事实”(Samii,2016,p.1)。这些伪事实无论是用于理解现象还是建立理论,都是不好的基础。因此,可信度革命所带来的实践变革,使得作者不会因其结果而误导自己。另一个相关但不同的担忧来自那些认为因果经验主义者和形式理论家之间缺乏沟通的人:对因果识别的关注使得本应合作的他们分道扬镳(Ashworth,Berry and Bueno de Mesquita,2021)。

对于其他一些人来说,实证研究的优先事项并不是产生因果主张(无论其合理性如何),而是描述。因此,我们看到 Gerring(2012)强调了描述任务本身作为一个独立于理论检验的终极目标的重要性。确实,学者们已经提出设立专门的期刊,以应对这样一个事实:“提出‘为什么’问题的因果研究在很大程度上取代了提出‘是什么’问题的描述性研究”(Munger, Guess and Hargittai, 2021,p.3)。(编者注:此处的期刊为Journal of Quantitative Description。)在这种情况下,回归分析通过表明世界中的相关性关系而有其启发性——仅此而已。部分为了将这种关联逻辑与推断目标联系起来,研究人员最近主张应更广泛地将灵活的机器学习方法——能够包含非线性交互——应用于政治科学任务(如,Montgomery and Olivella,2018)。然而无论采用何种估计方法,关联性都条件于许多变量。这可能会使以“其他条件相同(all-else equal)”的逻辑来解释它们变得困难(Ashworth, Berry and Bueno de Mesquita, 2021)。所描述的内容因而可能会产生误导。

无论回归分析最终的目的为何,人们对其应具备的性质的共识正在增加,尤其是结果的可复制性和稳健性的重要性。在某种程度上,人们关注的是研究人员可能的不良动机,如“p值操纵”或将不显著的结果“藏在文件抽屉里”(如,Franco、Malhotra and Simonovits,2014);对于其他人来说,存在更广泛的“分叉路径(forking paths)”问题,即研究人员在数据和估计上做出临时但至关重要的决定(Gelman and Loken,2014)。学者们提出了各种解决方案,从对所有可能的选择进行“多重宇宙分析(multiverse analysis)”(Steegen et al.,2016)(编者注:对多元宇宙分析的应用请见推送次条。),到更集中地评估结果敏感性的努力(如,Imai and Yamamoto,2010;Blackwell,2014;Cinelli and Hazlett,2020)。在精神上相关但在实践中不同的是,其他作者提出了将关于偏差的分布假设(例如,估计系数与“真实”因果效应之间的差异)纳入对回归结果的更细致的解释的方法(Little and Pepinsky,2021)。

当然,到目前为止的逻辑都假设作者对他们正在估计的内容有足够清晰的了解,以便能够将结果有效地与解释或更广泛的理论联系起来。然而,Lundberg,Johnson and Stewart(2021)指出情况往往并非如此。这导致了完全围绕目标与实际估计量的脱节展开的辩论。Lieberson and Horwich(2008)担忧理论与证据之间的联系已经破裂到社会科学只是在“模仿”科学。然而尽管 Lundberg,Johnson and Stewart(2021)关注的是研究人员所针对的估计量的清晰性(以及不可观测的估计量如何与可观测的数据连接),但本文的重点是所选择的估计量(无论是描述性的还是因果性的)如何被用来对世界做出主张。

核心挑战在于,研究者们很少在研究中明确说明他们的哲学基础。虽然他们对其论点为何具有说服力有明确的直观理解,但这与拥有一个明确的、通用的框架来评估多样化的证据是不同的。作者认为IBE就是这样一个框架,且应该被明确承认。

最优解释推断是什么


对“最佳解释推断”(IBE)的介绍性解读通常对其会如此定义,本文也采用这种定义:

给定一些数据 D(一些观察或关于世界的事实),以及一些可能解释D的候选解释或假设 E1,...,En,那么与 D 最兼容的解释最有可能是真实的。

这类解读接下来通常会讨论IBE在“经典”案例中的应用,例如在医学领域。一般来说,这种应用涉及的部分包括:

1. 基于初步观察进行理论化或生成候选的解释(例如,根据病人的症状创建鉴别诊断)
2. 收集与这些解释的推论相关的事实(例如,订购实验室测试或检查其他症状)
3. 根据新收集的事实来解释并区分这些解释(例如,排除与测试不一致的疾病和/或做出最终诊断)

这一顺序非常重要:第二步中收集的事实有助于评估解释的含义,并提供超出第一步初始观察的新信息。而只有在第二步中收集的事实充分时,才能在第三步中区分不同的解释。这个过程也是迭代的,第三步的结果会导向新的初始情景,进而可能生成新的解释。

解释

显然,IBE依赖于某种对“解释”的定义(参见Dowding, 2015的概述)。尽管解释的定义长期以来一直是科学哲学家关注的焦点,本文中作者认同Clarke和Primo(2012)的观点,即至少在社会科学中,这个术语有两种广泛合理的理解。

首先是源自于Hempel(1966)的实证主义传统解读。尽管Hempel和其他人后来提出了这一逻辑的较弱版本,在其最初的表述中,解释是通过演绎推理得出的,即一种“如果-那么(if-then)”的逻辑安排。这种解释方式要求识别出一般性或“覆盖”法则(covering laws):即认为研究的具体案例(如国家、个人、领导人)是展示某种已知行为规律的广泛类型中的一个实例。例如,现代化理论(如Lipset, 1959)的某个版本可能就是一个覆盖法则,即拥有更自信的中产阶级的社会通常会从封建秩序过渡到民主制度。这种一般法则与对有关研究对象状态的命题相结合(统称为解释依据(explanans))。例如,该命题可能是某个特定社会——例如19世纪20年代的英国——拥有日益壮大的资产阶级。法则和命题所指出的条件共同导致了对特定事件为何发生的推论(即解释结果(explanandum))。因此,我们对为何《大改革法案》扩大了选举权的解释是:英国具备了现代化理论特定变体所需的阶级条件,从而导致了民主的产生。

第二种对“解释”的理解来自Salmon(1971)等人的因果机制传统。此处,解释是通过展示产生某个事件的因果机制来说明事件是如何发生的。因此,解释为什么较富裕的国家倾向于成为民主国家可能涉及一个(理论上的)模型。在该模型中,日益富裕的个体威胁要起义,而精英通过给予选举权来安抚他们。注意,这里不需要覆盖法则:相反,解释通过影响过程将原因与结果联系起来。描述机制的方式可以是形式化的,也可以不是,并且可以借鉴各种不同的行为逻辑——从理性选择到心理学模型。实际上,这种解释甚至并不要求逻辑路径间的每一步都是可观察的。Woodward(2005)的著作中可以找到这种逻辑的一个特别流行的变体。在这里,解释即是对反事实(counterfactual)的讨论。即,某一治疗或行动成为解释的条件是,在没有特定干预(例如,较大的中产阶级),且保持其他变量不变的情况下,(潜在)结果会有所不同。

从实证角度来看,作者第二种对“解释”的解读已占据主导地位。事实上,至少从King、Keohane and Verba(1994)开始,有些学者认为解释必须是因果性的,尽管并非所有学者都同意这一点。重要的是,与Clarke and Primo(2012)以及Dowding(2015)一致,接下来的讨论中作者认为,展示某种处理与结果之间的因果关系既不是支持因果解释的必要条件,也不是充分条件。当然,因果识别的逻辑可能有助于解释;但它并不是必须的,也可能并不充分。在此作者尤其考虑的是如Achinstein(1983)提出的实用主义解释。其中解释不一定是因果的,但它们必须针对特定的问题为特定的受众(如政治学家)提供“理解(understanding)”。(编者注:对这类解释的批判请见次条的《常识与社会学解释》。)
推断

IBE过程原则上的工作原理很容易举例说明。延续上面的案例,假设我们观察到,随着国家变得更加发达(例如以人均收入为标准),它们通常更有可能成为民主国家。一种解释可能是现代化理论。另一种解释可能遵循这一基本逻辑,但具体指出中产阶级的活跃是几个世纪前特定社会关系的产物(Moore et al.,1993)。其他解释可能侧重于收入不平等的作用(如Boix and Stokes,2003),或精英对革命威胁的反应(Acemoglu and Robinson,2001)。从这个具体的例子抽象出来,上述的过程几乎是普适的:学者观察(基本上)相同的数据,并尝试为这些数据提供一个“最佳”解释。而当他们这样做时,他们实际上是在进行IBE。

我们可以进一步推进这一观点。当学者收集新数据并为这些观察结果提出相对于其他解释,甚至只是相对于一个零假设的“最佳”解释时,他们也是在进行IBE。因此,在实证社会科学中,几乎所有人每时每刻都在进行IBE。接下来作者将进一步地澄清IBE的地位和性质。

首先,溯因推理与演绎推理和归纳推理都不同。演绎推理要求我们的结论必须从前提中推导出来。一个常见的例子是形式理论(formal theory),我们在其中指定前提(例如理论模型的假设)并达成一致意见,并确定可以对这些前提进行哪些操作(例如在给定的博弈中什么构成“均衡”)。这种逻辑也延伸到对因果推断的演绎式理解;即我们对数据生成过程做出假设,并在识别策略中加以说明。

例如,在选举中我们可能假设,险胜的候选人在所有相关方面都与那些仅仅差一点输掉的候选人相同。因此,我们可以将胜选的“处理”视为随机分配给那组政客的。如果政党在刚好赢得的选区中获得更大的票数份额,而在刚好输掉的选区则没有,那么我们可以说这是由于“在职优势”的因果效应。在这里,因果效应的结论直接源自我们对世界运作方式的假设。需要注意的是,这并不要求胜选组(即处理组)的平均票数份额必然高于失败组(对照组);而是任何(显著的)平均差异都可以被视为胜负状态差异的因果效应。

相比之下,归纳推理则不涉及这些必要条件。即使我们接受前提的真实性,这种推理也不依赖于它。以我们的比较政治学例子为例,归纳推理可能得出一个结论:一个随机选出的富裕国家很可能是民主国家。然而,与演绎推理不同,我们不会声称这一结论必须源自某种识别策略的逻辑。此外,最关键的是,与溯因推理不同,归纳推理并不需要我们提供一个因果“故事”来解释为什么我们期望富裕国家是民主的。归纳推理仅仅可以断言这些特征通常是同时出现的。溯因推理则需要额外的步骤来解释这种因果关系。

其次,尽管其应用相当普遍,溯因推理并不是(也不被声称为)一种完美的推理策略。溯因推理包含一个逻辑谬误:“肯定结果(affirming the consequent)”。例如,在我们的案例中,如果现代化理论是正确的,那么我们会看到一种特定的民主化模式。然而,仅仅看到这种特定模式并不能作为现代化理论正确的确凿证据。其次,我们无法保证我们选择的解释集包含了真理。事实上,政治科学家继续提出新的解释以解释我们观察到的发展数据,这表明该领域尚未找到这一搜索的终点。当然,就算人们并不相信溯因推理方法是完美的,它在实践中仍然是受欢迎的。如果它受欢迎,那么了解其特点和含义就显得十分重要。

在定量社会科学研究中,通常情况下研究只提出一个解释,并且它仅与一个零假设进行比较(Gross, 2015)。当然,零假设本身并不是对数据的解释,因此在溯因推理的世界里,未能拒绝零假设可能会显得尴尬。也就是说,我们既没有找到与我们首选解释一致的证据,但也没有推断出另一个“最佳”的解释。然而这并不意味着该研究毫无价值。显然,就像医学领域一样,在个别案例中,展示某个特定解释与现有事实不一致是重要的(例如,我们发现一个病人对虾过敏的测试结果为阴性,因此他可能可以吃虾)。更乐观地说,当我们在整个学术领域的角度考虑使用类似数据进行的大量研究,我们可以说溯因推理的过程正在进行。也就是说,当我们从高层次审视文献时,我们实际上是在集体生成新的解释,并通过排除那些不被支持的解释来推断最佳解释。但使用这种较弱的、汇总性的溯因推理也需要一些谨慎:仅仅是生成大量不良的(未得到支持的)解释,或者大量与任何我们感兴趣的解释无关的事实都并没有什么好处。

观察性研究中的IBE

在《美国政治学评论》(American Political Science Review)上发表的一篇引用次数极高的文章中,Fearon and Laitin (2003) 试图解释为什么20世纪内发生了显著的内战增加。他们列举了一系列普遍观念中对于国家容易爆发内战的候选解释:冷战结束及其带来的国际体系变化、民族或宗教多样性、以及民族或广泛的政治不满。他们的第四种(首选)解释是有利于叛乱的条件,包括薄弱的中央政府、对叛乱者能力的积极冲击以及崎岖的地形。文章的大部分内容致力于详细描述10种不同的实证规律,而这些规律将由不同的内战解释所导致。尽管这些解释本身本质上是因果的,但测试大多是描述性或预测性的。Fearon and Laitin描述了如果每个解释是最优解释世界上会出现的条件。他们随后使用五种不同的回归模型(包含十三个预测变量)对跨国数据进行了测试。

Fearon and Laitin的研究在方法论上受到了许多批评,其中很多批评强调了处理后误差(post-treatment bias)的问题(如,Acharya,Blackwell and Sen, 2016),从而挑战检验的实证可信度(如,Samii, 2016)。集中在经济冲击与暴力之间关系的主张上,Ashworth,Berry and Bueno de Mesquita (2021) 指出,由于涉及的机制复杂缠绕,即使经济驱动了冲突,我们也很难知道经济表现与内战之间应有的关联。这是IBE所面临的一个挑战:即使在试图应用描述性或预测性测试时,我们通常也需要因果推理来确定如果解释是真的,我们应该描述性地看到什么。当然,有些解释可以更容易地从考虑中排除:Fearon and Laitin (2003) 通过在他们的第一张图中显示自1950年以来内战一直在稳步上升,迅速否定了第一个普遍观念解释,即内战增加是由于冷战结束时的变化。

无论我们是否认为实证检验结果令人信服,上述的推理策略都是IBE。因此,我们评估该工作的贡献不仅可以基于实证证据的质量,也可以考虑其对候选解释的发展和对解释与实证检验之间的联系的讨论。即使我们认为十个假设检验的结果是令人信服的,这并不排除其他未考虑的解释;它只是表明他们提出的解释中,所选的最佳解释是他们提供的四个解释中的最佳解释。这使得他们结论的可信度——以及他们在文章结尾从中得出的政策影响——在很大程度上综合依赖于这些候选解释,而不仅仅是测试的实证可信度。对结果可信度的批评不应被理解为描述性回归永远不能为世界的因果解释提供证据这一简单命题。相反,问题在于回归估计与某一理论是否正确之间的关系在这类案例中更为模糊且难以评估。

虽然很少被明确承认,许多观察性研究都隐含了IBE逻辑。McCarty,Poole和 Rosenthal (2009) 评估了对极化的竞争解释(选区划分与社会结构变化)。虽然没有可行的实验,但选区划分理论会表明那些边界固定的州不会出现极化;但它们确实出现了。这表明选区划分的解释比较薄弱。选举取证研究(Wand et al., 2001;Eggers,Garro and Grimmer, 2021)探讨了不同选举条件的影响,并排除了其他解释。许多有影响力的观察性研究依赖于这种模式。所有这些研究的关键在于有效地阐述解释的影响,并通过令人信服的描述性测试验证这些影响。

IBE对应用研究的意义

本文中,作者认为许多学者在大多数时间里做的事情与IBE是一致的;但他们应更加严肃地对待这一点,并明确考虑其含义。此节中作者讨论了这一论点对实证研究的意义。作者强调了三个要点:第一,IBE 通常涉及将多个证据拼接在一起;例如来自不同地方的多个回归分析,外加关于潜在机制的定性案例研究。第二,解释对于 IBE 的实践至关重要,应该像推断一样得到严肃对待。第三,因为探索性分析能够启发促进对新解释的构建,其对IBE也至关重要,但目前其价值被低估。

不完美的实证检验和IBE是相容的

IBE框架意味着我们需要找到能够区分竞争性解释的证据。在实践中,大多数证据都与不止一种解释一致。但也意味着我们不必再寻找单一的完美实证检验来唯一证明我们偏好的解释是正确的——这样的检验很可能不存在。相反,我们只需排除其他竞争性可能性即可。因此,在 IBE 框架下的工作往往涉及将不完美的证据拼凑在一起,共同构建一个有说服力的论点。由此我们可以得出启示1。

启示 1:“因果双步(causal two-step)”的话术与 IBE 不兼容。如果研究者的解释或估计量是因果性质的,他们应明确说明这一点。

“因果双步”指的是研究者在回归分析中加入控制变量,试图使处理效应的估计更具因果解释性,但同时声称数据无法支持对系数的因果解释。这种做法与IBE不兼容。与 IBE 兼容的做法是,研究者要么直接做出他们想要的因果解释,并承认单一证据(如回归分析、案例研究、访谈等)可能存在的不完美之处;要么明确说明(非因果的)描述性证据如何帮助区分世界上不同的(因果)解释。具体来说,一个因果识别的回归系数只是众多证据类型中的一种,它可以支持或不支持某个解释。而充满控制变量的回归表,如果不做因果解释,那么这些“描述”就很难在没有因果性主张的情况下进行解释。正如 Ashworth,Berry and Bueno de Mesquita(2021)所强调的,当控制变量集庞大时,回归系数的“其他条件相同”逻辑在描述性解释中是极其困难的。

解释和推断同样重要

作者认为那些仅接受有效因果推断设计的人与那些认为此类设计无用的人之间的分歧是观念混淆的结果。简单来说,尽管不同研究者的关注点可能有所不同,但所有人都应该进行 IBE。如果分析者认为因果识别比生成解释更重要,他们关注的是 IBE 中推理的质量。也就是说,无论解释集多么狭窄,他们希望相信他们得出的推论是正确的。相比之下,像 Huber 这样的学者更强调 IBE 中解释质量的重要性。他们希望通过数据和模型来评估多种解释的相对合理性,或者积极提出新的解释。他们愿意这样做,即使现有的方法无法很好地判断哪一个解释是“最佳”的。需要注意的是,这并不是“外部”与“内部”效度(internal/external validity)之间的问题:问题不在于为了(局部)可信的因果效应估计而牺牲了普遍性。问题在于实证推断与构建解释之间的优先权取舍。这引出了启示2。

启示 2:一项研究可以专注于 IBE 的 “I”(推理)部分,或者 “E”(解释)部分,或者两者之间的联系。一项研究的好坏不取决于这个选择。

如果研究主要关注的是检验现有理论,那么实证推断的质量必须是优先考虑的。但是,这对理论进展并没有直接帮助,因为显然,无限数量的理论可以与一个特定的(良好识别的)因果效应相一致。同样,一系列解释的复杂推论只有在其拥有明确定义并能够被有效区分时才有帮助。社会科学中经常出现的问题是对目标估计量的定义不够明确,以至于我们无法明确知道实证证据到底是什么,更不用说它是否能很好地在理论之间做出裁定了(Lundberg,Johnson and Stewart,2021)。

对此的一种更积极的表达是,即使没有特定的、良好识别的因果事实,我们也可以通过多种方式推动科学进步。研究可以通过提出新解释、阐述这些解释的新推论或提供这些推论的直接测试而具有价值。这三个过程的每个部分不必同等可信,也能对集体知识做出实质性贡献。因此,如果有人希望批评一项研究,那么尽可能明确指出其关注的方面是什么以及如何改进,这将带来更有效的对话和更可执行的前进路径。由此产生了启示 3。

启示 3:应以明确的IBE术语来评估研究。缺乏因果识别的参数本身并不是问题,只要一项研究提供了有助于在不同解释之间进行裁定的证据即可。这些解释应该是“有力的”(即合理的),并且所有假设——即使是那些被拒绝的——也应该与现象研究中的令人信服、详细阐述的解释相对应。

在IBE框架中,测试假设的价值在于评估世界上的证据是否与特定的解释集一致。如果被测试的假设具有说服力,那么更新我们对某个解释缺乏证据的信念与更新对证据存在的信念同样重要。例如,了解一个曾被认为是“最佳”的解释实际上比预期的要弱,这一点是很有帮助的。或者了解到对于这种情况(比如一个富裕的国家却不是民主国家)的常见解释都不奏效,这也是有用的。具体来说,这种知识对整个领域有价值——超越了特定的研究。而这种解释的开发和证据的评估应该在更高的聚合层面上进行。这就产生了启示4。

启示4:IBE是排除替代解释的过程。应报告零结果或负面结果,即使是对于首选解释,以便让学术界理解何时存在证据缺失或证据冲突。

探索也很重要

解释是通过探索得出的。在一个具有启发性的类比中,Tukey(1977,p.1)指出,数据分析师应像“侦探”那样,首先进行事实调查,然后——在另一个单独的阶段——由陪审制度做出裁决。这种司法角色正是“确认性数据分析”(confirmatory data analysis,CDA)发挥作用的地方。由于CDA涉及假设检验,它与探索性数据分析(exploratory data analysis,EDA)不同;后者“着重于在反复的模型构建-残差分析-模型调整的过程中,尝试构建模型和生成假设”(Behrens,1997,p.132)。但在当代的许多政治学研究中,EDA(假设生成)与CDA(假设检验)并未分开进行。其结果是,研究者们经常试图同时进行两者,最终却都没有做好。因此,我们在论文中看到既不符合Fisher,也不符合Neyman-Pearson决策理论的假设命题。论文中没有明确的零假设,也没有关于检验统计量的讨论;最终,也没有对拒绝或不拒绝零假设作出相互排斥的决定。相反,学者们常谈论“部分符合”假设的统计证据(Thompson,1975,p.474);或数据“强烈支持”假设(Lau,1985,p.130)。这引出了启示5。


启示 5:探索性数据分析(生成解释)的价值应当被独立看待,并与确认性数据分析(检验解释)分开进行。在进行探索时应明确说明。


明确地说,结合上文的评论,作者主张在一组类似的探索中,当某项探索能够产生可测试的、周密且具有普遍意义的解释时,它的价值是最高的。尽管并非直接由 IBE 推动,但一个可能鼓励更为专注探索的工具是预分析计划(pre-analysis plans);其限制了研究人员在进行(确认性)分析阶段后添加解释的可能性(这一阶段本身是在EDA之后的)。


通过重视探索并鼓励 EDA 和 CDA 的分离,IBE减少了其他研究者采用问题性实践的动机。这些实践包括在已知结果后假设 (HARKing),即“在研究报告的引言中提出事后假设,而把它说得像是事前假设” (Kerr, 1998, p.197)。这种做法是,作者运行几种(或许是多种)不同的分析涉及统计检验,然后撰写与他们发现的(最强)结果一致的假设。鉴于假设应首先从理论中推导出来,从而提供一种方式来检验该理论的推论,HARKing对这一基本过程的颠倒,显然令人担忧。实际上,这种解释性过拟合(interpretive overfitting)带来的问题早已为人熟知。这包括如将I型错误(“假阳性”)作为发现报告出来的普遍倾向(Ioannidis, 2005)。与之相关的,研究人员可能纯粹从统计学角度通过“p-hacking”来过拟合(即尝试不同的模型和数据规格,从而刻意使估计结果达到特定显著性水平)(Simmons, Nelson and Simonsohn, 2011)。这可能也是他们的无心之举,但最终导致的结果是结果无法被再现 (Gelman and Loken, 2014)。


HARKing之所以发生,是因为学者们在探索数据后选择了一个特定的解释,试图通过假设进行(表面上的)“测试”。但在IBE 框架下,这种伪装是没有意义的。如果分析人员想通过探索数据来提出新的解释,他们应该直接这样做,而不需要像是在检验一个预先存在的理论一样人为地声明假设。而且,为了避免过拟合,这些解释不应使用生成它们的数据来进行检验。其次,IBE强调描述本身就是重要的。因此,任何贬低“纯粹”描述的行为——而这恰恰就是HARKing背后的动机——对于IBE 和所代表的科学方法来说,都是不可接受的。


“文本即数据(text as data)”方法相关的工作是这些问题的一个特殊案例,而 IBE的正确考虑为此提供了一个解决方案。在这些工作中,学者们会使用非监督(unsupervised)技术(包括主题模型,见 Quinn et al., 2010; Roberts et al., 2014)来总结和组织语料库。然而,研究人员常常使用这些模型的输出来评价各种理论的合理性。问题不仅仅在于,在拟合模型时做出的决策会导致“分叉路径”的出现(见Denny and Spirling, 2018);根本的问题在于,非监督技术主要是一种探索方法,只有通过大量的验证和谨慎处理,它们才能被重新用作测量工具(Grimmer and Stewart, 2013;Grimmer, Roberts and Stewart, 2022)。作者将这种问题称为“PEACHing”:[P]resenting [E]xplorations [A]s [C]onfirmable [H]ypotheses,即将探索呈现为可验证的假设。从某种意义上说,这是HARKing 的对立面。在 HARKing 中,允许进行假设检验的技术(如回归)被用于评估大量可能的假设,而那些p 值合适的被作为预先理论化的结果展示出来;而在 PEACHing 中,那些并无法自然地支持假设检验的技术被用来提出假设,但这些假设无法通过这些数据和方法进行检验(但又可见Egami et al.,2022 关于特意使用保留样本(hold-out sample)进行检验的研究)。IBE 清楚地表明,探索性方法可以用于帮助提出新解释,但解释生成的过程必须与这些解释的检验过程严格分开。这些见解引出了启示6。

启示 6:事后假设不具有与事前假设相同的推理价值,因为解释是基于现有的事实构建的,因此无法有效地与基于相同事实的其他解释区分开来。不要进行HARKing或PEACHing。

编译|Ahaoooo

审核|穷象

终审|扶摇

©Sociology理论志




前沿追踪/理论方法/专家评论
ID: SociologicalReview

点点“在看”给我一朵小黄花

Sociology理论志
搜索“理论志”,发现新学术:六万余读者关注的理论志社会学平台。目前,我们主力追踪国内外社会学、人类学和区域研究新动态。
 最新文章