fsQCA vs 传统统计：不同术语背后的因果逻辑

文摘 2024-11-27 21:01 江苏

在因果关系分析中，选择合适的分析方法至关重要。不同的研究方法不仅影响我们如何理解数据背后的复杂关系，还决定了我们如何解读结果。

之前我们已经对 fsQCA 与传统统计方法的核心差异进行了探索，（往期文章：《小白也可以轻松看懂！fsQCA 与传统统计的核心差异》）

今天我们将继续这一探讨，进一步细化在 fsQCA 中，如何通过条件组合分析来揭示因果关系的复杂性，并与传统统计方法中的假设检验、回归分析等方式做对比。

Proposition

Hypothesis

命题（Proposition）和假设（Hypothesis）是 fsQCA 和传统统计分析中常见的术语。在 fsQCA 中，命题关注多个条件的组合，强调条件间的交互作用，适用于分析复杂的因果链条和多重条件的影响。在传统统计分析中，假设侧重于分析单一因素对结果的影响，通过统计检验（如 p 值）验证各因素的显著性。

fsQCA中的命题

在 fsQCA 中，命题关注的是多个条件的组合，即不同条件的交互作用如何共同影响结果。例如，研究“父母的爱对孩子成长”的影响时，命题可能表述为：

命题 1：当孩子同时拥有父亲和母亲的爱时，他们更可能快乐成长。

命题 2：即便只有父亲的爱或母亲的爱，孩子也可能快乐成长。

这些命题强调的是条件组合的影响，而不是单独分析某一个条件。命题在 fsQCA 中更多的是理论性陈述，不需要进行显著性检验，也没有 p 值的概念。

传统统计中的假设

与此不同，传统统计方法中的假设侧重于单一因素与结果之间的关系，通常是通过回归分析等方法来检验各自变量对结果的影响。例如，在相同的研究中，假设可能是：

假设 1：父亲对孩子的爱越多，孩子越能快乐成长。

假设 2：母亲对孩子的爱越多，孩子越能快乐成长。

在这种分析中，每个假设会分别检验父亲的爱或母亲的爱对孩子成长的独立影响，并通过 p 值来判断这些假设是否成立。

Calibration

Scaling

校准（Calibration）和量表（Scaling）都用于将原始数据转化为可分析的形式，但它们的应用方式不同。校准专注于如何将原始数据转化为逻辑值，适合条件组合分析，不依赖数据的分布特性，重点在于条件隶属度的描述；而量表通过标准化评分量化样本差异，适用于传统统计分析中测量变量间差异的过程，并依赖于良好的信效度。

校准（Calibration）：校准是一种将数据转化为二元逻辑值（0 或 1）的方法。它通过设置阈值来判断数据是否属于某个特定条件或状态。

例如，在分析某群体中的“有钱人”和“没有钱人”时，数据将通过设定阈值（如收入分位数）进行转化。通过这种方式，校准可以将数据转化为逻辑值，适用于 fsQCA 中的条件分析。

假设我们将收入数据转化为“有钱人”和“没有钱人”，阈值设定为：

完全隶属（1）：收入排名前 5% 的人群；

完全不隶属（0）：收入排名后 5% 的人群；

交叉点（0.5）：中间部分为交叉点。

这些数据将被转化为 0 到 1 之间的数值，适合进一步的分析。

fsQCA 中的校准

在 fsQCA 中，我们使用校准将各个条件的数值转化为 0 和 1 之间的逻辑值。比如在分析“公司创新性”对“市场表现”的影响时，我们可能将公司创新性分为“高创新性”和“低创新性”，并通过校准阈值（如 95 分位数）来界定哪些公司属于“高创新性”。

数据转化：公司创新性分数最高的 5% 设为“高创新性”类，最低的 5% 设为“低创新性”类，剩余的 90% 归为中间值（0.5）。

量表（Scaling）：量表是一个用于描述样本差异的过程，通常通过调查问卷或量表来收集数据，并以此为基础对样本进行评分。通过量表评分，样本的表现可以在不同维度上被量化，帮助研究者分析变量间的关系。量表得分通常是标准化的（如 1 到 5 分），并用于回归分析或相关性分析。

假设我们在分析员工的工作满意度时，使用一个包含多个维度（薪资、福利、工作环境等）的问卷，每个维度通过 1 到 5 的评分量化员工的满意程度。得分可以用来衡量员工总体满意度，并进一步进行统计分析。

传统统计中的量表

在传统统计中，我们可能会使用问卷来测量“工作满意度”，通过 1-5 分的量表来衡量不同员工的满意度。量表得分反映了员工在各个维度上的满意程度，并能用于进一步的回归分析或相关性分析。

Solution

Model

解（Solution） 和 模型（Model） 都是分析结果的表现形式，但它们的焦点不同。解侧重于多条件组合对结果的综合影响，适用于复杂的因果链条分析；而模型侧重于分析单一自变量对因变量的独立影响，并依赖显著性检验来验证假设。

解（Solution）：在 fsQCA 中，解是通过对真值表的最小化得到的，目的是识别出导致特定结果的条件组合。与传统的回归分析不同，解关注的是多条件的交互作用，而不是单一条件的独立效应。解可能由多个条件的组合组成，且这些组合可能是复杂的、中间的或简约的。

假设我们研究“公司创新性”对“市场表现”的影响。通过 fsQCA，可能会得出以下解：

解 1：高创新性 AND 高市场投入 → 高市场表现

解 2：中等创新性 OR 高员工参与 → 中等市场表现

这些解通过组合不同的条件，展示了在多种情境下如何产生相同的结果。每个解代表了一个不同的因果路径，表明不同条件组合的作用。

fsQCA 中的解

在 fsQCA 中，解不仅关注单一条件，而是关注条件的组合。例如，研究“工作满意度”对“员工绩效”的影响时，可能得到以下解：

解 1：高薪酬 AND 高福利 → 高工作满意度

解 2：高工作环境质量 AND 高领导支持 → 高工作满意度

解 3：高自主性 → 高工作满意度

这些解通过不同条件组合展示了如何影响工作满意度，而不是单独分析薪酬或福利的影响。

模型（Model）：在传统统计分析中，模型通常指的是回归模型，它用于量化自变量对因变量的影响。回归模型输出一个回归方程和回归系数，表示每个自变量对结果的影响大小。传统统计分析常常通过显著性检验来判断各个自变量是否对因变量产生显著影响

假设我们使用回归模型分析“教育水平”对“收入”的影响，模型可以表示为：

收入 = β0 + β1*教育水平 + ε，如果 p < 0.05，则认为教育水平对收入的影响显著。

传统统计中的模型

在传统回归分析中，模型会单独分析每个变量对因变量的影响，例如：

工作满意度 = β0 + β1薪酬 + β2福利 + β3工作环境质量 + β4领导支持 + ε

每个回归系数（β1、β2 等）代表各个自变量对工作满意度的独立影响，并依赖 p 值来判断这些影响是否显著。

Asymmetry

Symmetry

非对称性（Asymmetry） 和对称性（Symmetry）代表了两种不同的因果分析思维方式。非对称性分析关注条件组合对结果的影响，并不认为“X对Y”的关系必然意味着“非X对非Y”也成立。对称性分析假设因果关系是线性的，即 X 增加 Y 增加，X 减少 Y 减少。

非对称性（Asymmetry）：非对称性分析强调某些条件组合对结果的影响并非对称。在 fsQCA 中，非对称性意味着条件组合并不总是产生对称的结果。一个条件的存在可能是结果的必要条件，但其反面并不一定导致相反的结果。

例如，水是人类生存的必要条件，但没有水却是人类灭亡的充分条件。在 fsQCA 中，分析时要同时考虑结果（Y）和其反面（非 Y）之间的影响。

满意度和忠诚度：如果某个公司提高了员工的满意度，员工的忠诚度可能会增加。但如果员工满意度下降，不一定会导致忠诚度的下降，因为忠诚度的变化可能受到其他条件（如薪资福利、公司文化等）的影响。

X 对 Y 和非 X 对非 Y：假设我们增加父母对孩子的爱，这并不意味着减少父母的爱就一定会导致孩子的不快乐。通过这种非对称分析，fsQCA 允许研究者同时分析多条件组合的效果。

假设我们研究“教育背景”对“社会地位”的影响。在 fsQCA 中，可能发现高教育背景是社会地位的充分条件，但并不意味着没有高教育背景的人就一定会低社会地位。某些没有高学历的人可能通过其他条件（如社会关系、工作经验等）获得较高的社会地位。

条件组合：教育背景 AND 社会经验 → 高社会地位；但仅有社会经验也可能导致高社会地位（非对称影响）。

对称性（Symmetry）：在传统统计分析中，对称性分析假设因果关系是对称的。换句话说，如果 X 对 Y 有正向显著影响，则 X 增加 Y 增加，X 减少 Y 减少。传统统计方法通常假设因果关系是线性的，且自变量和因变量之间的关系是双向的。

服务质量与忠诚度：在传统统计分析中，服务质量和忠诚度之间的关系通常假设为对称。如果服务质量提高，忠诚度提高；如果服务质量下降，忠诚度也会下降。传统统计分析会忽略其他可能导致忠诚度变化的复杂因素。

传统统计可能通过回归模型分析“教育背景”与“社会地位”的关系，假设二者之间是对称关系，即教育背景增加，社会地位也必然增加，反之亦然。

传统统计中的线性关系：教育水平提高会直接提高社会地位，而社会地位的下降会伴随教育水平的下降。

Confounding condition

control variable

混淆条件（Confounding condition）和控制变量（control variable）虽然在数据分析中都涉及到对外部因素的管理，但它们的本质和应用场景有所不同。混淆条件是那些看似与因变量相关，实则与其他重要条件相关的因素。它们会掩盖因果关系，导致推论的错误。控制变量则是研究者在分析中故意引入的变量，用于消除其他因素对因果关系的干扰，通过控制变量，研究者能够更精确地测量自变量对因变量的独立效应，减少外部因素的影响。

混淆条件（Confounding Condition）：混淆条件是指那些表面上看起来与因变量有关系，但实际上是与其他重要条件（自变量）相关联的因素。这些条件可能会掩盖其他变量的影响，从而导致因果推论的错误。

假设我们在研究“薪酬”和“工作环境”对“工作满意度”的影响时，发现薪酬和工作环境的改善都与工作满意度有很强的关联。

但进一步分析可能揭示，薪酬和工作满意度之间的关系实际上可能是由于领导支持这一隐性因素所引起的。也就是说，薪酬较高的员工往往也能得到更多的领导支持，而领导支持与工作满意度有很强的关联，这样薪酬就成了混淆条件。

因此，薪酬和工作环境对工作满意度的影响并非直接，而是通过领导支持这一隐藏条件间接影响。这一过程表明，在 fsQCA 中，分析者需要识别并控制这些混淆条件，以确保分析结果的准确性。

控制变量（Control Variable）：控制变量是研究者在设计研究时，认为可能会对因变量产生影响的变量。这些变量被纳入研究模型，以便消除它们对因果关系的干扰。通过控制这些变量，研究者可以更准确地测量自变量对因变量的真实影响。

假设我们在研究“教育水平”对“收入”的影响时，研究者发现“年龄”和“性别”是可能影响收入的其他因素。因此，在回归分析中，研究者会将这些变量作为控制变量加入分析，以确保分析结果能够准确反映教育水平对收入的独立影响，而不被年龄或性别所影响。

通过引入控制变量，回归分析能够“中和”外部因素的干扰，从而使得我们能够专注于研究自变量（教育水平）对因变量（收入）的真实影响。

Necessary、Sufficiency

Significance

必要条件（Necessary）、充分条件（Sufficiency）和显著性（Significance） 是在 fsQCA 和传统统计分析中常见的三个核心概念，它们各自的定义和分析目的有所不同。必要条件强调的是结果发生时条件的必然性，而充分条件则聚焦于条件组合的充分性，能够导致结果的发生。显著性是传统统计分析中的重要检验工具，通过 p 值来判断自变量对因变量的显著影响。在 fsQCA 中，我们侧重于条件的组合对结果的影响，尤其是对多条件组合的分析，避免过于简化的线性关系分析。

必要条件（Necessary）：必要条件是指当结果存在时，条件一定要存在。但条件的存在并不意味着结果一定会发生。

例如，“驾照”是“满 18 岁”的必要条件，因为只有年满 18 岁的人才有资格获得驾照。但年满 18 岁的人并不一定都有驾照，因此年满 18 岁是驾照的必要条件，而“有驾照”不是“年满 18 岁”的充分条件。

充分条件（Sufficiency）:充分条件是指，某个条件的组合出现时，结果必定发生。但结果的发生并不一定完全依赖于这些条件的组合。

例如，考试得满分是进入大学的“充分条件”。如果你考满分，你一定能够进入大学，但并不是所有进大学的人都需要考满分。你只要达到某个最低分数线，也有可能被大学录取。因此，满分是“进大学”的充分条件，但高分也是另外一种充分条件。

在 fsQCA 中分析“工作满意度”时，可能发现“良好的工作环境”是“工作满意度”的充分条件。即使薪酬较低，只要工作环境优越，员工的满意度也可能较高。此时，工作环境是一个充分条件，能单独解释员工满意度的变化。

显著性（Significance）：显著性是指，在传统统计分析中，通过 p 值来判断某个自变量是否显著影响因变量。p 值小于 0.05 表示该变量对因变量有显著影响。显著性检验通常用于回归分析等方法，用以验证假设关系是否成立。

在传统回归分析中，我们可能会分析“工作满意度”是否显著影响“员工忠诚度”。通过回归模型，如果得到的 p 值小于 0.05，则我们可以得出结论：工作满意度对员工忠诚度有显著影响。

causes-of-effects

effects-of-causes

效果的原因（causes-of-effects）和原因的效果（effects-of-causes）是两种不同的因果分析方式。效果的原因侧重于回溯已发生的结果，分析导致该结果的各种因素，而原因的效果则侧重于分析假设原因对结果的影响，通常用于前瞻性研究。

效果的原因（causes-of-effects）：效果的原因分析主要关注一个已发生的结果，探讨导致该结果的原因。在回顾性研究中，研究者通常先观察到某种结果（如癌症的发生），然后去追溯其背后的原因。

假设我们在研究“高工作满意度”与“员工忠诚度”的关系。我们可能首先观察到某些员工的忠诚度很高，然后回溯分析，发现高薪酬、良好的工作环境和员工参与度等是导致员工高忠诚度的原因。

原因的效果（effects-of-causes）：原因的效果分析关注的是特定原因对结果的影响。研究者从某个假设的原因出发，观察它对结果产生的效果。在前瞻性研究中，通常在研究者已经假设某个因素会影响结果时，分析该因素对结果的具体影响。

假设我们研究“薪酬提升”对“员工工作满意度”的影响。在这个研究中，“薪酬提升”是假设的原因，研究者将分析薪酬提升是否能导致员工满意度的提高。

传统回归分析可能会检验“薪酬提升”对“员工忠诚度”的影响。在这个分析中，我们假设薪酬提升是因变量，观察其对忠诚度的效果，分析“薪酬提升”是否能够显著提高员工的忠诚度。

Limited diversity

Missing data

有限的多样性（Limited diversity）和缺失数据（Missing data）虽然在数据处理上看似相似，但它们的根本区别在于，有限的多样性是指理论上可能存在的组合在实际数据中没有样本支持，而缺失数据则是指在数据收集过程中未记录的数据。

有限的多样性（Limited Diversity）：有限的多样性指的是数据中存在很多理论上可能的条件组合（例如 2 的 n 次方），但在实际收集的数据中，这些组合并没有被完全涵盖。也就是说，虽然从理论上我们可以构建许多条件组合，但并非每个组合都有样本支持。fsQCA 分析中，有限的多样性通常是通过排除那些没有实际样本的组合来解决，这些空行也被称为“逻辑余项”。

有限的多样性可能影响结果的准确性，因为某些条件组合未被数据支持，导致我们无法全面分析所有可能的因果路径。

假设我们在研究“公司绩效”与“员工忠诚度”的关系时，理论上可以构建多个条件组合来解释结果。但在实际数据中，某些组合（如高薪酬与高领导支持的组合）可能没有任何样本支持，这些组合就是有限的多样性。fsQCA 会自动排除这些没有样本的组合，避免它们影响分析结果。

缺失数据（Missing Data）:缺失数据是指在数据收集过程中，某些变量未能被测量或记录。缺失数据可能是随机缺失（MCAR）、有规律缺失（MAR）或由系统性错误引起的（NI）。

假设我们在调查“工作满意度”时，某些受访者未填写薪酬信息，导致该部分数据缺失。这种缺失数据可能会影响分析的结果，需要采取补充或删除策略。

缺失数据可能导致结果偏误，尤其是在使用传统统计分析方法时。根据缺失数据的类型，研究者可能需要采用插补方法或删除含缺失数据的案例。

在传统的回归分析中，可能有部分数据由于某些原因未被记录（例如员工未填写“薪酬”数据）。这种缺失数据可能会影响模型的准确性，研究者通常会使用插补方法填补缺失值，或使用删除缺失数据的案例来进行分析。

教育学模型：计划行为理论（TPB） │ 技术接受模型（TAM） │ 整合技术接受模型（UTAUT） │ 期望确认理论（ECT） │ 创新扩散理论（DI） │ 理性行为理论（TRA） │ 享乐动机系统接受模型（HMSAM） │ 印象管理理论（TIM）│ 服务质量 │ 任务科技配适（TTF）丨保护动机理论（PMT）丨过程虚拟化理论（PVT）丨信息系统成功（D&M-IS success）

社会学模型：计划行为理论（TPB） │ 技术接受模型（TAM） │ 整合技术接受模型（UTAUT） │ 期望确认理论（ECT） │ 创新扩散理论（DI） │ 理性行为理论（TRA） │ 享乐动机系统接受模型（HMSAM） │ 印象管理理论（TIM）│ 服务质量 │ 任务科技配适（TTF）丨过程虚拟化理论（PVT）丨信息系统成功（D&M-IS success）

管理学模型：计划行为理论（TPB） │ 技术接受模型（TAM） │ 整合技术接受模型（UTAUT） │ 期望确认理论（ECT） │ 创新扩散理论（DI） │ 理性行为理论（TRA） │ 享乐动机系统接受模型（HMSAM） │ 印象管理理论（TIM）│ 服务质量 │ 任务科技配适（TTF）丨保护动机理论（PMT）丨多动机信息系统连续模型（MISC）丨过程虚拟化理论（PVT）丨信息系统成功（D&M-IS success）

张伟豪量化学院

由统计学亚洲一哥张伟豪携两岸量化大V创办，为量化爱好者、恐惧者、困难者打造最高效、实用、智能的量化学习第一站及最后一站！