摘要:
对于因果问题,调查实验(survey experiment)是一种熟悉却未被充分利用的强大研究工具。通过问卷施加干预和测量效应,调查实验可以检验因果关系,并能更深入地了解其他社会科学方法无法轻易观察到的因果过程。本文首先探讨在哪些条件下调查实验有用,并介绍近期社会学研究中的代表性实例。然后,讨论调查实验作为一种研究方法所面临的挑战和局限性,为有兴趣开展调查实验的社会学家提供简要指南。最后,本文将对社会学中的调查实验研究的未来进行思考。
作者简介:
Ariela Schachter,圣路易斯华盛顿大学社会学系;
Katherine Weisshaar,西北大学社会学系。
Annual Review of Sociology. 2025 (51). Early Publication.
本文作者:Ariela Schachter & Katherine Weisshaar
“调查”包括“系统地、标准化地收集关于样本的信息”(Marsden & Wright, 2010),而“实验”是“利用干预推断因果机制”(Druckman, 2022)。在调查实验中,实验操纵可以是改变问卷中的一个单词/短语,也可以是句子或段落,以及图像、视频等其他刺激。调查实验通常用于研究(相对)大样本的因果效应,以及在现实世界中可能难以(如从伦理角度)研究的问题。借助实验设计和日渐高质量的线上调查样本,调查实验可以检验因果关系,并能更深入地了解其他社会科学方法无法轻易观察到的因果过程。本文探讨(1)调查实验在哪些情况对研究因果问题特别有用;(2)调查实验所面临的挑战和局限;(3)开展调查实验的实用指南;(4)社会学中调查实验法的未来。结果可以通过调查问项很好地体现,且不易通过其他方式观察。首先,调查实验很适合研究感知、态度、观念和信念等经典的社会心理结果。另外,对于测量不易观察(如被污名化的行为、非现实的对未来的想法)、(伦理上,如引入社会偏见)不宜诱导的行为效应,调查实验也是非常可取的。最后,调查实验也常用于检验“测量”本身如何影响测量结果。比如,在Sobotka & Stewart(2020)使用联合实验来检验哪些特征会导致个人被归类为阿片类药物滥用者的研究中,间接性问项的特殊设计可以降低被试的社会赞许偏差。 实验操纵是不可能或不道德的,除非在假设的环境中。例如,Mize & Manago(2018)使用情景实验(vignette experiment)来检验同性/异性性接触对他人性取向分类的影响。在假设情境之外,将参与者随机分配到不同的性接触中是不道德的,因此有必要使用调查实验。他们发现,与质疑他人的性取向相比,被试更有可能在一次同性性接触后对原本认为是异性恋男子的性取向进行重新分类。这些发现突出了异性恋男性性取向的不稳定性,有助于理解为什么这种身份的男性会如此投入地保护它。反事实组是现实中不常见的特征组合和/或需要进行“其他条件完全相同”的比较。许多社会学问题需要同时关注多个特征。调查实验为了解这些特征的独立和调节效应提供了方法。例如,Schachter等人(2021)使用联合实验来测试文化线索、血统和肤色对美国白人如何对他人进行种族分类的相对影响。这些特征经常同时出现,因此很难通过观察研究将它们完全区分开来。通过对每种特征进行独立随机化,他们发现肤色对白人/黑人的分类有很大影响,而且当两种依据发生冲突时,肤色可以优先于血统。同样,当社会学家关注多种特征的交互时,调查实验也是一种有用的工具。调查实验还可以用于控制“其他条件相同”,从而进行明确的比较。 假设需要在多个亚组的比较中进行检验,换言之需要大样本量以保证统计效力。由于调查实验可以嵌入到针对相关人群和/或亚组的大规模调查中,采取这种方法有利于得到大样本量以确保统计效力。调查实验成本相对较低,从设计到实施周期短,能够获取被试的大量背景信息,还可以通过建立队列进行重复测量。而传统的随机对照实验由于样本量限制,难以在主要发现基础上扩展事后分析。调查实验并不适合所有研究问题。首先,调查实验非常适合假设检验,但不适合探索性或归纳性研究,因为在实施之前就需要明确实验操纵和测量计划。建议谨慎使用调查实验来研究需要探索性工作的问题,以防实验操纵的组数过多。适合调查实验的因果问题往往已存在明确的理论和假设,因而研究可以从非常小的角度切入。其次,有许多结果和人群是调查实验无法捕捉的。比如,以现实行为作为结果需要谨慎考虑研究设计。某些目标人群也难以通过方便的调查实验覆盖。最后,如果研究问题关注社会情境,或关注两个或更多人之间的互动,现场实验或实验室实验可能更合适,因为相关实验操纵难以嵌入调查,即使调查实验的被试相对更易招募。其他一些常见的误区和局限性包括:调查实验的结论缺乏在真实世界的外部效度;调查实验在研究行为的不足;需求偏差,即被试容易猜到实验设计;线上调查的测量效度较差。但是以上问题也可通过研究设计解决或规避。研究设计阶段的深思熟虑至关重要。下面介绍使用调查实验的研究者可能遇到的问题和关键决策,以及从设计到实施过程中需要考虑的实际步骤。 因果推断的本质是比较,实验设计的关键是明确需要进行哪些比较。换句话说,需要哪种实验操纵,以进行干预对中性、不同干预等比较。情景实验设计可以检验不同类型的信息框架是否会影响态度或相关结果,以及研究信息累积效应等问题。一个潜在挑战是,如果整个句子、段落或信息的内容在不同的操纵中存在差异,那么就不易从内容差异中分离出信息框架效应。析因实验(factorial experiment)通过施加所有可能的干预组合,可以分离多个变量的独立或调节效应。当组合方案的数量迅速增加导致需要巨大样本量时,联合实验(conjoint experiment)是一种替代方法,尤其在如今政治科学中越来越流行。联合实验旨在检验多种属性的独立相加效应,被试同时接触多种操纵/方案并通过问项测量反馈。在总观察量得到增加的同时,联合实验的数据分析需要根据聚类标准误差对同一被试的多个观察结果进行调整。 大多数调查实验都采用组间设计(between-subject design),即随机分配给每个被试一个处理,因为这种设计更容易实施。但高质量的组内设计(within-subject design),即同一被试先后接受不同处理,在因果中介分析中有独特的优势。另外,被试是自己的控制对象,因此相较组间设计所需的样本量更少。 确定研究设计后,需要设计实验操纵方案、构念的操作化和因变量测量,包括问项的格式、措辞。调查永远不会完美反映学者们想要推断的调查之外的非虚构背景,现实中的决策和偏好是由复杂的信息和社会背景形成的,而这些信息和社会背景可能无法转化为调查内容,必然遗漏一些微妙的细节。因此需要权衡现实性/外部效度和简洁性/内部效度。研究人员应优先考虑简单性和内部效度,毕竟无论设计多么复杂或逼真,它都会有外部效度方面的缺陷。外部效度应通过与其他研究和研究方法进行三角论证来论述。因为实验操纵的目的是引起因变量的变化,设计的重点应放在明确的实验操纵和准确的因变量测量上,为因变量及其相应的选项清晰措辞至关重要。当测量实验操纵对多个结果的影响时,需要意识到唯一能完全确定因果关系的仅限于在实施干预后立即测量的第一个因变量,因为问项本身也是一种操纵。 预试是一种对操作流程的检查,以及测试干预的有效性。预试可以包括开放式问题,以衡量被试对因变量和整体实验设计的理解程度。当研究者使用未经先前工作验证的操纵方法时,预试尤为重要。预试也可用较小或代表性较弱的样本来确定干预效应大小,在全面实施前证明项目的可行性,计算统计效力或样本量等。另外,预试在研究者寻求外部资助时特别有用。然而,如果研究者不断重复实验,直到最终发现具有统计学意义的效应,那么预试就可能被滥用,并导致社会科学领域更广泛的可重复性危机。研究者应在预试中确保透明度和可重复性。 调查实验中,实验操纵是嵌入调查工具的。有时,研究者需要收集前测数据,但这有可能影响实验。另外,尽管使用注意力检查很常见,有助于识别低质量数据,但排除这些受访者也会导致选择偏倚。如今,低成本的在线非概率抽样的调查样本使调查实验成为成本更低的方法,但需要注意维持数据质量。对于侧重于一般社会过程和检测平均干预效应的问题,非概率抽样样本可能就足够了,但对于社会学家,问题往往不是一般或平均效应,通常需要关注特定的群体,包含关于目标人群异质性的假设。因此需要选择与理论目标人群最匹配的调查样本。样本量、样本代表性和样本与理论目标人群的匹配,是无法同时优化三个维度。样本量有助于提高统计精确度,而统计精确度是内部效度的重要部分,旨在确定新的因果效应的研究应优先考虑样本量。当研究问题适用于高度特定的人群时,应优先考虑样本匹配,尤其是在没有更具代表性的抽样策略或成本过高的情况下。只有对适用于更广泛人群的研究问题,获得代表性样本才更可行,而且对研究问题相对更重要。 统计效力取决于干预效应大小和样本大小。很多资助机构要求统计效力计算,以证明调查实验的样本量是合理的。当研究者能很好地估计其干预的效应大小时,统计效力分析最有用,但对新研究来说,这种情况并不常见。然而,即使没有精确的估计值,研究者在设计研究时也必须将统计效力放在首位。虽然大样本量可能会导致P值骗局和其他可复制性问题,但统计效力不足时声称缺乏统计显著性而没有因果效应更成问题。本文建议学者在数据收集前通过公开协议来预注册(preregistration)研究,使用补充/在线附录向读者提供足够详细的设计信息,尤其是在将某些被试、问项或操纵方法排除在分析之外的情况下。预注册将实验设计、假设、数据质量标准等预先公开,旨在提高透明度,减少对统计学意义的事后欺诈。如果没有关于研究设计和预期分析的完整信息和透明度,就很难评估调查实验的质量(如系统综述时)。 不管对新手还是经验丰富的研究者,统计分析最令人困惑的一个决策点在于,估计干预效应时,是否将大量经典控制变量纳入回归。如果干预完全随机分配,理论上纳入控制变量不会改变干预效应的估计值,尽管可以减少标准误差。最近的研究表明,在估计效应时加入协变量可能会带来偏差,因此不建议加入理论上不重要的协变量。
近期的创新研究利用重复调查实验来了解社会、政治和历史背景如何影响个人的态度和行为。例如,用相同样本多次重复相同的调查实验,以检验随着媒体对性骚扰关注度的增加,针对自我报告工作中性骚扰的女性的文化偏见是否会减少。随着时间推移重复实验是一种方法创新,本文鼓励社会学学者效仿。还有几项调查实验对相同的参与者进行了多次调查,以评估实验刺激是否产生持久影响。本文还建议社会学家考虑抽样策略来提高对情境效应问题的研究能力。跨国比较显示,国家背景影响人们对不平等信息的反应,这对未来的政策干预具有重要意义。国外调查公司的激增使得这类研究设计更容易实现,鼓励社会学家利用这一优势。最后,建议将调查实验纳入混合方法,尤其是与定性方法和/或计算社会科学方法搭配使用。社会学中的定性方法,包括访谈和民族志工作,通常不是为了建立因果关系,而是为了提供丰富、深入的内容,用于理论发展。调查实验提供了一个独特的机会,可以对新开发的理论进行因果检验,还可以考虑理论在不同情境或人群中的差异表现,从而补充定性发现。一些社会学家开始使用计算方法进行文本分析和内容分析、利用机器学习把握异质性,并将其嵌入调查实验中。
点点“在看”给我一朵小黄花