European Sociological Review
应用定量社会学中的控制变量选择问题:批判性回顾
Control variable selection in applied quantitative sociology: a critical review
这篇文章批判性地回顾了因果推断研究中的调整集选择问题,强调了控制变量选择必须基于明确的因果模型,避免因果路径中的错误假设和偏误。通过对2016至2017年《欧洲社会学评论》中的相关研究进行回顾,作者揭示了定量社会学研究中常见的三大问题:缺乏明确的效应参数定义、控制变量选择的理论依据不足以及回归系数的误解。文章强调,社会学定量研究不仅依赖于统计技巧,更应注重理论驱动和因果推理。研究提出,评判一篇文章的控制变量选择是否合理应遵循以下三个标准:
是否明确定义了研究中的参数?
是否为控制变量调整集的选择提供了充分的理论依据?
是否正确解释了控制变量的回归系数?
从社会学角度来看,本研究为因果推断提供了重要的理论框架和方法论指导。在面对社会现象复杂的因果关系时,文章提出的评判标准帮助研究者更系统地识别和选择调整集,避免过度控制偏误,提升因果分析的科学性。特别地,文章还探讨了如何在社会学研究中使用DAG工具,以可视化和逻辑严谨的方式,更精确地构建因果模型。因此,本文对于提高定量研究设计质量和方法论严谨性,尤其在社会学定量研究领域,具有重要的参考价值。
A review of all research papers published in the European Sociological Review in 2016 and 2017 (N = 118) shows that only a minority of papers clearly define the parameter of interest and provide sufficient reasoning for the selected control variables of the statistical analysis. Thus, the vast majority of papers does not reach minimal standards for the selection of control variables. Consequently, a majority of papers interpret biased coefficients, or statistics without proper sociological meaning. We postulate that authors and reviewers should be more careful about control variable selection. We propose graphical causal models in the form of directed acyclic graphs as an example for a parsimonious and powerful means to that end.
文章回顾了2016和2017年《欧洲社会学评论》上发表的118篇定量社会学研究文章,重点分析了控制变量选择在定量社会学研究中的重要性。研究表明,绝大多数文章在定义研究参数、选择控制变量和解释回归系数时存在明显的缺陷。文章强调,定量社会学研究应更加重视控制变量选择的理论依据,并建议使用因果图模型(DAG)以提高因果推断的透明度和科学性。
控制变量的选择是非实验研究中最关键的决策之一。随着定量社会学研究的深入,控制变量的选择已成为因果推断中的核心难题。在许多社会学研究,尤其是基于观察性数据的研究中,因果效应的估计往往依赖于模型中所选的控制变量。控制变量的恰当与否,直接决定了暴露变量(X)与结果变量(Y)之间关系的解释是否精准。然而,尽管这一问题在定量社会学中普遍存在,却鲜有研究深入探讨其理论基础与方法论合理性。
本文的出发点源自Toshkov(2016)的再分析,他对Piatkowska、Messner和Raffalovich(2016)的研究提出质疑,揭示了控制变量选择对研究结论的深远影响。Toshkov(2016)通过对原始数据的再分析,发现欧盟东欧成员国的欧盟加入对谋杀率的正向影响,在重新选择控制变量后消失。这一发现表明,控制变量的选择不仅仅是统计分析中的技术性问题,更是任何观察性研究设计中的核心决策。不当的控制变量选择可能显著扭曲因果效应的估计,甚至完全改变研究结论。相较而言,诸如非线性概率模型的标度参数校正或倾向得分匹配的选择等统计细节,通常对社会学结论的影响较小。因此,本文认为,控制变量的选择是定量社会学研究中最为关键的设计决策之一,直接决定因果推断的有效性。错误的控制变量选择不仅可能导致因果效应的误估,更可能误导社会学理论的进一步发展。研究者应在理论假设的指导下,谨慎选择控制变量,并构建明确的因果模型。
本研究的目的是批判性地回顾2016至2017年期间《欧洲社会学评论》上所有涉及回归分析并调整了控制变量的文章(总共95篇)。核心问题是:在回归分析中,是否提供了足够的理论依据来解释所选的控制变量,特别是这些控制变量是否有助于正确理解暴露变量(X)与结果变量(Y)之间的关系。这两个问题本质上探讨了控制变量是否能够体现研究者关于因果机制的合理假设。
为此,作者在回顾过程中设定了三个主要标准:
效应参数的定义:首先,本文关注的是研究是否明确界定了研究的“参数”,即他们究竟在估计什么样的效应。只有在研究者明确了效应的定义之后,才有可能进行对控制变量选择的批判性审视,因此效应参数的定义可以视作是研究中其他所有统计假设的基础。在没有明确效应参数定义的情况下,任何进一步的讨论都可能缺乏实质性。
控制变量选择的理论依据:其次,本文将检视研究是否为所选的控制变量提供了充分的理论依据。根据因果推断的基本原则,控制变量的选择应该是基于对因果路径的假设,而非仅仅基于数据中的相关性。理论基础的缺失或薄弱,往往导致控制变量选择的随意性,进而影响结果的可靠性。本文将考察文章中是否明确定义了控制变量的因果角色,特别是它们是否是暴露变量与结果变量之间的因果链条的“祖先”变量(即在因果路径上应该被控制的变量),或者是否只是一些无关的相关变量。
回归系数的解释:最后,本研究将检视文章是否对回归系数进行了适当的因果推断解释。尤其是在多元回归分析中,通常会存在多个控制变量,且回归系数的解释常因对因果路径的误解面临理解错误的风险。可以说,如果控制变量选择不当,回归系数就可能不再具有清晰的因果解释效力。因此本文的回顾标准要求,回归系数的解释必须符合因果推断的基本规则,即解释的系数应反映的是暴露变量与结果变量之间的因果效应。
值得一提的是,Lundberg、Johnson和Stewart(2021)的研究使用了与以上部分重叠的标准回顾了《美国社会学评论》(ASR)中的35篇定量文章,进一步佐证了本篇文章回顾标准的效度。
通过这三大回顾标准,作者希望能够揭示现有文献在因果推断方法上的常见不足,并提出改进建议。特别是在控制变量选择和回归系数解释上,针对很多研究存在忽视理论假设、未能充分考虑潜在偏误的情况作出辨析。这些标准为后续的分析提供了清晰的框架,同时为改进定量社会学研究方法提供了指导。
为深入理解控制变量选择的重要性及其在因果推断中的作用,本文引入了因果图模型(DAG)作为可视化工具,帮助指导控制变量的选择。DAG通过图形化展示变量之间的因果关系,帮助研究者明确哪些变量应被控制,哪些应被排除。本文认为,DAG不仅能提升因果推断的透明度,还能帮助研究者更好地理解控制变量选择的理论依据,减少方法学上的错误。
在进行实际回顾之前,本文希望澄清并避免两种可能的误解:
第一个误解是,读者可能认为我们的回顾标准仅适用于那些假设图形因果模型优于潜在结果框架的研究者(例如计量经济学中的框架,Angrist和Pischke,2009年提出,Morgan和Winship(2007年)或Gangl(2010年)等学者将其引入社会学领域)。实际上,这篇回顾同样可以基于潜在结果框架进行,并且在实证结果上不会有任何实质性差异。尽管如此,我们希望因果图模型的方法能够为应用社会学研究者提供启示,推动这一思想的传播。
第二个误解是,读者可能认为,只要满足所有回顾标准,就能证明某个分析是有效、合理的,或者符合良好的实践标准。我们认为,这些回顾标准只是最低要求。如果一个分析涉及调整了控制变量的关联,我们要求对这些控制变量提供某种理论性解释。提供这些解释并不意味着它们一定是正确的,或在所有必要的控制变量都已调整的情况下是完整的。即便我们的标准得到满足,未观察到的异质性(unobserved heterogeneity)仍可能成为问题,针对这一点,我们在文中明确提到控制未观察到的异质性的方法(Wooldridge,2010)。
3.1. 概念辨析
回顾的第一个准则是判断文章是否明确界定了研究中的“参数”,即研究者究竟试图估计什么样的因果效应。如果文章未能明确界定其“效应参数”,那么对其控制变量选择的评判将难以进行。本章节注重效应参数定义在因果推断中的基础性作用,强调了明确定义因果效应对于后续控制变量选择和回归系数解释的意义。没有清晰定义的效应参数会导致因果推断无法严格执行,从而影响整个研究的有效性。
为了让后续分析更加严谨,本回顾研究要求每篇文章在回归模型中都必须清晰地定义出暴露变量(X)与结果变量(Y)之间的关系。具体来说,研究者应明确地声明,他们所估计的效应是因果效应,即X对Y的直接影响,还是某种间接效应,或是其他形式的效应。举例来说,假设我们研究的是父母教育水平(X)对孩子教育成就(Y)的影响。如果我们没有明确指出是要估计“父母教育对孩子教育成就的直接影响”,而是模糊地将其与其他变量(如家庭收入或社会资本等)的影响混为一谈,那么我们对控制变量的选择就会变得没有方向,甚至产生误导性结论。
在一些文献中,效应参数的定义往往模糊不清,或者根本没有明确说明。很多时候,研究者仅仅讨论X和Y之间的统计关联,而没有明确这些关联是否可以解释为因果效应。这种模糊性使得我们很难对控制变量的选择提出有效的批评,因为没有清晰的理论框架来支持这些选择。具体来说,未定义的效应参数往往意味着控制变量的选择完全基于统计相关性,而非理论假设。这种做法可能导致控制变量选择的不合理,从而影响回归分析的结果。
3.2.回顾标准
在本文的目标研究设计中,作者在控制了一个或多个其他变量(A)后,分析并解释了两个变量(X 和 Y)之间的统计关联。回归分析是这一设计的典型代表,研究者在回归模型中解释协变量的回归系数,同时控制其他变量的影响。如果作者将A中的每个变量逐一视作暴露变量(X)进行分析,那么这种设计将被多次应用。
在这里,我们将变量X称为“暴露变量”(Exposure),变量Y称为“结果变量”(Outcome),而A被称为“调整集”(Adjustment Set)。调整集是从一个更大的协变量集合中选择出来的。本文的核心议题是,如何根据理论假设从这些协变量中选择哪些变量进入调整集。我们强调,调整集和协变量的选择应当以理论为基础,而非仅仅依赖数据中的相关性。虽然这些术语具有强烈的因果含义,但我们建议读者暂时忽略这些含义,将其视为简单的标签,以帮助更清晰地理解后续内容。
我们讨论的研究设计主要关注,在给定调整集的情况下,暴露与结果之间关联的解释。我们认为,这种关联的解释有两种主要形式:
调整后的暴露与结果之间的关联被视为因果效应的估计。
调整后的非因果关联被视为对某一理论的支持或反驳。
因果效应,或称“总效应”(total effect),是一个相对明确的概念,已通过反事实因果关系理论得到清晰界定(Angrist 和 Pischke,2009)。与之相关的直接效应和间接效应也有明确的定义(Pearl,2001)。本文所提出的控制变量选择标准同样适用于因果效应的分解(VanderWeele,2013)。
尽管“因果效应的估计”易于理解,但实际估计因果效应却充满挑战。一个主要问题是未观察到的异质性(unobserved heterogeneity),即暴露变量X可能是由未知或未测量的协变量Z引起,而Z与结果变量Y之间也可能存在其他关联(见图1a)。
图1 a. 未观测到的Z变量对暴露与结果之间的关联起到了混杂作用. 此处,X与Y之间的统计关联不能简单地被解释为总效应
为了解决未观察到的异质性,研究者需要创建一个独立于混杂协变量Z的暴露变量。这可以通过随机分配暴露(经典实验)、控制混杂协变量、测量未观察到的协变量并进行统计调整,或者使用回归模型、工具变量回归等方法来实现。
无论采用何种方法,估计因果效应的研究设计必须满足一系列基本要求,这些要求已被广泛接受并且具有规范性。任何偏离这些标准的做法都可能成为批评的依据。因此,研究者在实际操作中往往避免将统计关联明确解读为因果关系。许多研究者虽然将结果表述为“仅仅是关联”,却仍使用诸如“X影响Y”之类的因果性语言(Breen,2018)。Grosz等人(2020)指出,这种回避因果推断的做法并非社会学独有的现象。
如果某个关联仅仅是关联,那么它究竟意味着什么呢?以鹳密度与生育率的例子为例,尽管鹳并不会直接增加家庭的孩子数量,鹳密度与生育率之间的正向关联实际上是由城市化因素所引起的(见图1b)。当控制城市化因素后,这一正向关联便会消失。
图1 b. 鹳密度与生育率之间本存在关联。而控制城市化因素后,这一关联被消除,那么“正确”的关联是什么?
图2.在社会经济地位(SES)和美丽(Beauty)之间,某些关系虽然并非因果关系,但却在理论上可以解释,并且具有一定的理论价值.
这个例子表明,关联的意义源自支持它的理论。稳定的关联只有通过包含因果语句的理论才能得到解释(参见Elwert,2013:249-252页),因此,我们称这种理论为“因果模型”。即便研究者不打算探讨因果效应,也应明确指出支撑该关联的因果模型。尽管这些假设可能受到批评,但这有助于提高结果的透明度和可验证性。正如Greenland(2022:605页)所言,“统计学要求有现实的因果模型,即便是纯粹的描述性研究。”
因此,在本次回顾的第一步中,我们将检验作者是否明确了所报告关联的理论含义。如果作者表明其研究目标是探索(某种形式的)因果效应,或清晰阐述了预期关联的因果模型理论框架,我们认为该研究达到了评判标准。
3.3.操作化
关于本章节的具体操作化部分,对于决定论文是否定义其研究参数的编码规则的结构以及有关数据收集过程和决策可靠性的更详细信息,请参见原文及其附录。
3.4. 参数定义回顾结果
在58篇选定论文中(占61%),作者未充分阐明研究的效应(见表1)。所有明确概念定义的论文都旨在估计因果效应,且没有使用关联来支持理论模型。对于概念上未定义的论文,我们发现隐性参数与此相似。
这一发现与Lundberg等人(2021)在《美国社会学评论》中的回顾文章相符。尽管《美国社会学评论》中明确因果目标的论文比例较高(75%),但所有声称没有因果目标的论文仍然对结果进行了因果解释。此外,没有论文符合Lundberg等人设定的严格参数定义标准。
总的来说,概念上明确定义研究参数的论文数量较少,这被视为一个严重问题,因为它使得研究免受方法论批评,而Lundberg等人(2021)也得出了类似的结论,这说明该现象在学界可能普遍存在。此外,所有明确避免将关联解读为因果关系的论文仍然在分析设计中隐含了因果效应,或在解释估计结果时使用了因果性术语。而对于那些声称没有明确追求因果效应的论文,情况也是如此。可以说,将研究重点转向关联而非因果效应,被视为了一种常用的“逃避批评”的策略。
本节讨论了因果研究中合理化调整集选择的基本要求,强调调整集的选择应基于明确的因果模型,并且应避免因果关系假设中的错误和薄弱环节,以确保因果效应的准确估计。依据经典的因果研究方法文献(如Rosenbaum, 1984; Morgan & Winship, 2007; Pearl, 2009; Elwert, 2013)。我们聚焦于总效应,并指出研究直接效应或间接效应的研究者也需遵守这些要求,并额外满足其他标准(如Breen, 2018)。
4.1.评判标准
4.1.1因果关系
为识别总效应,研究设计必须满足以下假设之一:单元同质性、独立性、常效应或条件独立性假设(Holland, 1986)。在非实验设计中,通常通过协变量调整来满足条件独立性假设。协变量调整的目的是选择一组协变量 A ∈ Z,阻断暴露X和结果Y之间的非因果路径,同时保持因果路径不受阻断。这一“调整标准”(Shpitser et al., 2010)对实证研究具有重要意义。
假设一研究者希望估计父亲教育对儿子职业的总效应,图3a和3b展示了符合调整标准的设计。在父亲教育对儿子职业的总效应估计中,必须控制父亲职业,以阻断通过未观察变量 U1U1U1 的非因果路径。同时,不能控制其他变量,因为这会阻断因果路径。如果假设所有效应线性且同质,则总效应可以通过回归模型
Oc = α + βFaEd + γFaOc + ε
来估计,其中,FaEd为暴露,β为总效应估计,FaOc为调整集。
图3. 暴露(X)对结果(Y)总效应的识别(a) 父亲教育水平对儿子职业的影响; (b) 儿子教育水平对儿子职业的影响.
关键点:调整集的选择取决于假设的因果模型,而这些模型是可辩论的。因果模型中的错误或假设的薄弱环节,可能导致偏倚的估计。例如,社会地位达成模型假设父亲教育与儿子职业的关联应通过父亲职业传递,因此控制父亲职业可能会引入“过度控制偏倚”(Grätz, 2019)。在此情况下,识别父亲教育对儿子职业的效应,必须调整未观察变量 U1,这要求对这些变量进行观测或使用控制未观察异质性的统计技术。
要求1:因果研究中,暴露X和协变量Z之间的因果模型必须得到合理化。研究者应明确每个协变量是否为暴露的前因或后果。后果变量(如“后处理”变量)不应控制,必须从调整集候选中移除。
图3b展示了父亲教育对儿子职业因果效应的估计。在此设计下,因果路径已经通过父亲职业被阻断,因此无需控制父亲教育。然而,如果父亲教育对儿子职业有直接影响,则应将父亲教育纳入调整集。
调整集的选择不仅依赖于暴露X与协变量Z之间的因果假设,还涉及调整集候选变量与其他协变量及结果 YYY 之间的因果假设。因此,提出了以下进一步要求:
要求2:调整集候选变量与其他协变量之间的因果模型必须合理化。
要求3:调整集候选变量与结果 YYY 之间的因果模型必须合理化。
4.1.2.有意义的关联
在“参数定义”一节中,我们指出,ESR期刊在调查的年份内并未发布旨在识别有意义关联的研究。尽管如此,进行此类研究的学者仍需为调整集选择提供合理依据。正如前文所述,关联的有意义性源自于背后有理论支持的数据生成过程。因此,进行这类研究的唯一要求是:
要求4:必须合理化生成关联的因果模型。
4.2.操作化
我们编码了作者是否为以下几点提供合理说明:
暴露变量 X 与调整变量集 A 中所有变量之间假定的因果关系,特别是调整变量与暴露变量之间的因果顺序;
A 中所有变量对 Y 的影响;
X 对 Y 的影响。
为了简化,我们对推理的标准设定较低,重点关注是否提供了推理,而非评估其理论合理性。最终将调整集选择的推理分为三类:“足够推理”、“推理不完整”和“无推理”。具体分类标准见原文中表2。
需要指出的是,对于那些理论上未定义的论文,无法对其调整集提出批评。但我们仍然对这些论文是否提供了上述推理进行编码,按照前文定义的隐性参数进行判断。
4.3.结果
结果显示,只有 25% 的论文为调整集提供了充分的理由。对于概念未定义的论文,情况更糟,只有 14% 提供了足够的推理,62% 没有对调整集中的任何变量提供合理解释。相比之下,明确界定研究参数的论文中,43% 提供了完整的调整集解释,但考虑到这些论文的因果研究目标,这一比例仍然偏低。因果研究中调整集选择的逻辑已经在文献中广泛讨论,且被视为使用观察数据进行因果分析时的核心问题。因此,大多数因果研究未能充分解释协变量的选择,这被认为是一个严重的研究方法问题。
总的来说,结果表明,缺乏足够理由的协变量选择并不是个别现象,而是普遍存在的问题。考虑到 ESR 期刊的高标准,这一问题尤其突出,在其他方法学要求较低的期刊中,问题可能更加严重。
调整集的不足解释,并不意味着所使用的调整集本身一定是错误的。然而,调整集的质量问题并不仅仅是方法论问题,更是一个社会学问题。这需要对研究对象有深入的了解,以判断是否已经考虑了所有暴露因素的相关前因,或是否错误地将暴露因素的后代纳入了调整集。
我们没有直接评估调整集的质量,而是通过一种方法间接判断其正确性。简而言之,我们假设在多元回归模型中,调整集通常只对其中一个协变量是正确的(参见 Keele, Stevenson, and Elwert, 2019)。如果论文明确界定了研究参数,则该参数的调整集可能是正确的。
5.1.评判标准
本章节通过举例解释说明了审查标准细则。假设一个研究旨在评估父亲的第一职业对儿子职业的总效应(如图4所示的社会地位获得模型)。在这种情况下,必须控制儿子的教育和父亲的职业,这可以转化为如下回归模型:
Oc = α + β1stOc + γ1ED + γ2FaOc + ε,
其中,1stOc是暴露变量,β为暴露的总效应估计,ED和FaOc是调整集A。
图4. 父亲的第一职业对儿子职业的总效应.
需要注意的是,之前讨论的研究设计暗示了三个不同的回归方程。没有任何一个例子表明需要对所有协变量进行回归分析。实际上,在完整的回归模型中:
Oc=β0 +β1FaEd+β2FaOc+β3Ed+β41stOc+ε ,
只有“儿子第一职业”的系数可以被解释为总效应的估计。对于其他所有协变量,完整模型通过控制后代变量阻断了因果路径,因此这些变量的估计效应不能作为职业总效应的估计。
这一观察表明,在回归模型中,通常只有一个参数可以被解释为总效应(参见 Keele, Stevenson 和 Elwert,2019)。这很明显,因为在估计暴露对结果的总效应时,不能控制暴露X的后代。如果某个变量A是X的祖先,那么X必然是A的后代,A的系数就不能被解释为总效应,因为它会受到过度控制的偏差。
在两种情况下,回归模型中的多个系数可以被解释为总效应的估计。第一种情况是所有协变量互相独立(见图5a);第二种情况是所有协变量都是同一组共同原因的后代(见图5b)。值得注意的是,只有在后一种情况下,协变量调整才是必要的。然而,我们认为这些情况在非实验性研究中很少成立(尤其是对于图5中的变量来说)。
图5. 多个回归系数作为因果效应的解释条件:(a) 协变量相互独立;(b) 协变量为共同原因的后代.
理论上,我们可以将回归模型中的所有系数都视为直接效应的估计,尽管这种解释远不如“直接效应”这一术语所暗示的那样简单。只要没有控制所有因果链中介变量,估计的直接效应可能更准确地称为“残余效应”,即控制了一些但非所有中介变量后剩余的效应。我们认为,在大多数情况下,这些残余效应的社会学意义在回归模型中的不同变量之间差异巨大,且很难为所有这些直接效应提供合理的社会学解释。
除了残余效应的社会学解释困难外,还有方法论的理由让我们避免轻率地将回归系数解释为直接效应:控制中介变量估计直接效应时,存在显著的碰撞偏差风险。特别是,研究者在估计暴露的直接效应时,不仅需要考虑暴露的祖先,还要考虑中介变量的祖先。仅仅将中介变量纳入回归模型往往不足以解决问题(Breen,2018)。即使对于某个变量有效,也不能假设对所有回归变量都有效。
综合这些论点,通常回归模型中只有一个变量具有明确的解释。这直接引出了我们的第三个审查标准:如果调整集A中的某些变量的系数被解释为直接效应,这通常表明该调整集是错误的,至少对于部分变量的系数而言。
5.2.操作化
本章节通过以下几种方式对作者是否正确解释调整变量集A中的系数进行了编码:
如果作者将回归中一个或多个变量的系数解释为具有相同含义(例如,Miltenburg和Werfhorst,2016;Blom,Kraaykamp和Verbakel,2017;Przepiorka,Norbutas和Corten,2017),
如果作者声明控制变量的系数符合理论预期或与先前/相关研究一致(例如,Zoch和Hondralis,2017),
如果作者将模型中的多个变量都声明为暴露变量,并在没有明确指定这些变量之间因果关系的情况下解释其系数(例如,Visser等,2016)。
在第一种情况下,作者将调整变量的系数解释为某种效应,但他们的理论模型并没有明确说明这些变量的总效应或直接效应。也就是说,他们的解释缺乏明确的因果框架。在第二种情况下,作者用调整变量的系数来验证结果的有效性,但由于对暴露变量X进行过度控制,这些系数的估计可能会产生偏误,影响结果的准确性。第三种情况则假设所有变量都是控制变量,彼此之间没有明确的因果关系,这种情形在图5所示的情境下几乎不可能发生。
如果作者将一个变量的系数解释为总效应,另一个变量的系数解释为直接效应,只要他们明确阐明这些变量之间的因果关系,我们不会将其视为对调整变量的解释。这包括在结构方程模型中对总效应、直接效应和间接效应的分析。然而,鉴于直接效应估计存在的潜在偏差(Breen,2018),我们对这些研究报告的直接效应的无偏性表示怀疑。具体而言,Keijer、Nagel和Liefbroer(2016)的模型与Breen(2018)提出的模型非常相似,后者展示了如何轻易地在估计直接效应时引入偏误。在我们的分析中,我们通过虚拟变量编码,标识作者是否讨论了调整变量集A对Y的效应。
5.3.结果
大多数论文(59%)对调整变量集的系数进行了解释。我们认为,这些解释通常并未准确反映作者意图的参数估计。对于未明确界定研究参数的论文,这种情况尤为严重。即使在明确界定因果效应的论文中,41%也会解释控制变量的系数。考虑到学术期刊篇幅限制,这一现象令人意外。值得注意的是,这种情况在《社会学研究》(ASR)中较少见,Lundberg等(2021)发现,在18篇明确因果目标的论文中,只有2篇解释了多个系数的效应。
对《ESR》第32卷和第33卷的批判性回顾表明,大多数文章存在三个常见的相互关联的缺陷:
约61%的文章未明确界定研究参数;
约75%的文章未充分说明调整变量的选择理由;
约59%的文章对系数进行了解释,但缺乏清晰的定义。
关于调整集的解释,许多作者往往忽视了调整集与暴露变量之间的因果关系。在这种情况下,研究设计中关键的假设未能被充分披露,往往隐藏在分析背后,这种做法可以视作一种避免方法论批评的策略。为了应对审稿人可能提出的批评,有些作者在审稿人的建议下,毫无理论依据地将一些变量纳入调整集。然而,我们强调,盲目采纳审稿人建议,反映了作者在问题本身上缺乏足够的敏感性与意识。
此外,许多作者在回归分析中对调整集系数的解释上花费了大量篇幅,而这些解释几乎总是对错误系数的误读(Keele, Stevenson 和 Elwert, 2019)。这种偏离研究主题的做法值得关注,且常常使研究失去焦点,浪费了宝贵的篇幅。
统计技术本身并不足以解决本研究中所揭示的三大核心缺陷。因此,本文建议作者在研究中明确界定研究参数,尽管这可能会招致批评。只有在清晰界定研究参数后,研究者才能有的放矢地构建模型,从而有效地回答具体的研究问题。我们还建议作者更清楚地传达其统计分析背后的因果模型,特别是应明确阐述如何理解调整变量与暴露变量之间的因果关系。正如我们所示,调整集内变量之间的因果关系至关重要,若未能正确识别这些关系,回归分析结果将无法准确反映因果效应。最后,文章进一步强调,因果图(DAG)是一个有效且简洁的工具,能够突出研究设计中的因果假设,帮助研究者更清晰地传达调整集变量之间的因果关系,并避免常见的偏误。
一旦因果模型被清晰地呈现出来,它们必然需要充分的理论论证。本文认为,这正是文中提议标准的核心优势所在。尽管这一过程可能需要更多篇幅,这对学术期刊的篇幅限制可能构成一定挑战,但我们相信这一做法有助于推动精简冗余内容的机制。首先,论文的理论部分将变得更加聚焦,避免冗长无效的理论讨论;其次,作者可能会意识到,一些原计划作为控制变量的因素应当被排除,以避免过度控制偏误,从而更倾向于使用更加精简的调整集。研究设计应当聚焦于一个明确的研究参数,而非在单篇论文中强行探讨多个假设。
无论如何,对于调整集内变量回归系数的任何解释都是不必要的,因为这些系数并不具备正确的因果解释。同样,某些对双变量相关性的描述也是冗余的,因为这些相关性往往并不具备实际意义,否则进行多元回归分析便毫无必要。
有些人可能会尝试淡化调整集选择中的问题,认为统计关联的符号及其主要解释在不同统计操作下有足够的稳健性。然而,我们认为,调整集的选择是非实验性研究中最为关键的决策。合理的调整集选择可以让研究者在很大程度上人为地塑造几乎任何形式的统计关联符号和大小(Muñoz 和 Young,2018)。这一点强调了调整集选择的重要性及其对因果推断结果的潜在影响。
最后,作者再度提醒,遵循本文所提出的所有标准并不能保证估计出无偏的研究参数。最理想的情况是,这些标准能揭示研究设计的潜在缺陷,为后续改进提供基础。在许多情况下,这些改进可能会促使更多的研究采用能够处理未观察异质性的方法。作者认为,这些方法与因果图模型并非相互排斥,而是互为补充。例如,因果图模型可以更加清晰地凸显这些方法的假设,或激发关于未观察异质性的问题思考。因此,本文并不排斥这些方法的应用,反而提倡它们与因果图模型的结合使用。
来源:定量群学
文献来源丨Kohler, U., Class, F., & Sawert, T. (2024). Control variable selection in applied quantitative sociology: a critical review. European Sociological Review, 40(1), 173-186.
责编丨王许萌
主编丨马文
注:内容仅做学术分享之用,若涉及侵权等行为,请联系删除,万分感谢
发表之路,与你同行
既有论文写作发表的干货资料
又生动有趣的学术资讯
关注我们,一起成长
👇👇👇