社会流动的效应
编者按:
社会流动可能影响到个体的行为模式、生活方式和价值观念等诸多方面,其作用原因可以被分解为出身阶层、流入阶层以及流动效应这三部分。自邓肯(Otis Dudley Ducan)在上世纪60年代提出方形加法模型(Square Additive Model,SAM)以来,寻找更合适的社会流动测量模型始终是一众学者追求的目标。索贝尔(Michael E. Sobel)于1981年提出对角线参照模型(Diagonal Reference Model,DRM),以在出身阶层和流入阶层的影响中配置权重的方法,较好地解决了社会流动效应测量中的模型识别问题。随后,罗丽莹(Luo,2022)又提出流动对照模型(Mobility Contrast Model,MCM),但其理论性和可靠性受到王鹏(2024)的强烈质疑。而本文正是王鹏在《社会学研究》作者手记末尾处提到的Breen和Ermisch两位大家的新作。二位作者将个体的流入阶层视为与出身阶层迥异的“处理效应”,反思许多可供检验的假设事实上是个体内部(within-person)的比较,而不是个体之间(between-person)的比较,并由此提出研究社会流动影响的因果推断方法。编者希望此文可以打开各位读者在社会流动理论检证和模型选取上的视野,激发更多相关讨论。
摘要:
长期以来,社会学家关注社会流动性如何影响诸如政治偏好、幸福感和生育能力等结果。但是,对该问题的探索受到两重阻碍:一方面,本文所述的“流动效应”存在不可识别性,另一方面,这些“效应”实际上是部分关联,可能代表也可能不代表因果关系。本研究提出了另一方法,利用因果框架,将终点阶层视为处理效应,且其影响可能在不同的出身阶层中呈现异质性。本文认为:大多数既往模型的假设都考虑的是个体内部的比较,而不是个体之间的比较。本文的方法不受早期试图建立流动效应模型中许多问题的影响,它将流动效应置于更可靠的因果基础上。本文展示了该方法如何与之前研究流动效应的尝试联系,并解释了它在概念上和经验上如何呈现出差异。另外,本文使用来自英国的政治偏好数据作为示例。
作者简介:
Richard Breen, John Ermisch,牛津大学纳菲尔德学院
文献来源:
Breen, Richard, and John Ermisch, 2024, The Effects of Social Mobility. Sociological Science 11: 467-488.
译者:
静谧
引入:统计识别与因果识别
为避免误解,首先需要区分统计识别(Statistical identification, s-identification)和因果识别(Causal identification, c-identification)。统计识别指:对于一组参数,可以从它们推测出的线性无关指标的数量小于参数的数量。因此,可以估计的指标数取决于对这些参数的约束。因果识别指:给定数据和一组假设,可以证明两个变量之间存在关联(association)——其中一个是另一个的原因(cause)。仅仅对参数感兴趣,只能实现统计识别,而未必能实现因果识别。
SAM、DMM及其局限
SAM(Square Additive Model,方形加法模型)
邓肯的SAM方法(1960)主要基于方差分析(ANOVA):
其中i表示单个观测值,j(=1,…,r)指示出身阶层和k(=1,…,r)指示终点阶层,µ是结果度量Y的“参考平均值”(Reference mean)。αj是结果变量的出身效应,βk是终点效应;εijk是残差项,γjk是“相互作用”的流动效应。主要效应通过一系列约束条件进行统计识别。
表1使用3*3的矩阵说明该模型,其中阶层类别被标记为“低”,“中”和“高”(L,M,H)。这里有9个可能的γij参数,但可以识别的不超过4个。这是一个统计识别问题:存在比可估计的更多的“流动性参数”,因此必须施加特定约束,如:αL = βL = γLM = γML = γLH = γHL = γLL = 0(即所谓的“虚拟变量编码”)。然后我们可以识别γMH, γMM, γHM和γHH以及常数(现为L组别中行列对应的五个矩阵单位)和其余四个主要效应参数。
DMM(Diagonal Reference Model,对角线参照模型)
索贝尔的DMM方法(1981,1985)的基线模型如下所示:
这里p是权重(0≤p≤1),θj是出身阶层的影响,θk是终点阶层的影响,uijk是残差项。出身阶层的影响和终点阶层的影响是一致的,即第n类的θ参数在出身阶层和终点阶层是相同的。
两种方法的局限性
在SAM中,出身阶层和终点阶层的影响被假定为线性的,也就是说,每个出身阶层对结果变量Y的部分影响并不因流入阶层的不同而不同。DMM假设出身阶层和终点阶层的影响一致,且基线DMM将结果变量表达为加权后的出身阶层和终点阶层的加权平均值。
在这两种情况下,流动性效应通常被添加到基线模型中(例如,使用单个虚拟变量区分向上和向下移动),并且将通过赤池信息标准(AIC)或贝叶斯信息标准(BIC)等标准选择最佳拟合模型。因此,流动效应被定义为出身阶层和终点阶层的净效应。但是SAM和DMM两个模型都没有足够的自由度来拟合各个可能的移动效应的参数;研究者必须提出一个部分约束的模型,通常视不能拟合的参数为零,或等同于其他效应的线性组合。
但是,使用SAM或DMM进行的流动性效应研究估计的是部分关联,而不是合理的因果效应,因为两者都不能实现真正的因果识别。另外,这两种方法都简单地视流动效应为终点阶层和出身阶层的差异。而在保持终点阶层和出身阶层不变的情况下,追求真正的因果效应变得困难。这与APC模型(即Age-Period-Cohort,年龄-时期-时代模型)面临了类似的困境(王鹏在《社会学研究》上的文章脚注中亦有提及,可比照阅读)。
流动效应的因果推断
SAM和DMM中的社会流动本质上是相对流动(Relative mobility),本文更为关心的是绝对流动(Absolute mobility)(在本文作者看来,绝对流动指的是个体终点阶层与出身阶层之间的流动距离;而相对流动指的是处在某一出身阶层的个体相比其它阶层,最终抵达某一终点阶层的可能性的差距)。回顾如马克思等人的经典论述,出身和终点的因素并不是绝对的影响。类似地,Sorokin(1959)的剥离假说(Dissociative hypothesis)强烈地暗示了绝对流动的影响——我们试图将流动的人与他们假设的自我进行比较,如果他们仍然留在他们的原始阶级,而不是与他们的目的阶级中没有搬到那里或从不同的起源搬来的其他人。
本文探讨的因果效应本质是个人内部的比较(within-person comparisons),而在现实中仅存在个人社会流动的一种情况,因此需要利用反事实的推断。那么,作为待解释变量的Y就不再是关于出身阶层、终点阶层和流动效应的函数,变为给定出身阶层的情况下,关于流入阶层的条件因果效应。本文方法通过终点阶层的潜在异质性(超越了出身阶层),自然地,也就无意解决先前提到的以方差分析为基础的模型中的参数识别问题。
将每个终点阶层D的个体i的潜在结果写成Yi(D);这意味着每个人都被认为有一组潜在的结果,他们可能进入的每个目的地都有一个结果,尽管我们只在他们实际上进入的目的地中观察到他们的结果。此处还需要两个假设:(1)概率恒为正(Positivity)。每个人进入各终点阶层的可能性均不为零。(2)稳定单元处理值假设(Stable unit treatment value assumption,SUTVA)。即个体的潜在结果不受分配处理效应的机制的影响。这些与既往因果推断的基本假设保持一致。
本文模型的目标是比较经受处理的个体或单位与未接受处理的个体或单位之间的差异(即平均处理效应,Average Treatment Effect on the Treated,即ATT)。对于出身阶层(O)为j且终点阶层(D)为k的人中,终点阶层为k而不是k '的平均处理效应:
需要注意的是,此处避免了在保持O和D不变的情况下考虑改变社会流动的影响。该模型将保持O不变,并考虑变化D的影响。上述公式的一个特例是当k ' = j时(也就是将现实中已发生的流动对比假想中的不流动),可以变为:
也就是说,对于那些从出身阶层j到终点阶层k的人,比较他们观测到的结果变量与假想反事实中个体具有流动的潜力,未发生流动的情况下的结果变量间的差异。
为了估计因果关系,我们需要第三个假设:(3)非混淆性。如果一个人出身特定阶层,且被随机分配到一个终点阶层中,那么假设(3)成立,并且潜在的结果变量与终点阶层无关,取决于来源。在没有随机化的情况下,我们只有依据已有数据和前述两项假设的检验,才能考虑假设三成立。
在社会学中,最常见的方法是援引条件独立假设,即在一组观察变量X的条件下,目的地与随机分配一样好。潜在的结果变量独立于终点阶层,取决于出身阶层和协变量X。这个假设的合理性取决于集合X是什么,以及它有多广泛。但是,有了这个假设,就可以用许多方法来估计因果关系。与传统方法不同,本文提供的方法满足统计识别要求,并且在前述两个假设成立的条件下,它也满足因果识别的要求。
案例:代际职业流动对再分配偏好的影响
案例数据源于英国家庭纵贯调查“了解社会”的第11次和第12次调查。该调查是对英国大约40,000个家庭成员的纵向调查。在第一轮数据收集(2009-11年)中招募的家庭每年都会被访问,以收集有关其家庭和个人情况变化的信息。
本例的结果变量是“税收和支出偏好”,以1到10的打分衡量由少到多的支持态度。父亲和他们孩子的职业最初使用英国国家统计局2010年标准职业分类编码编码为3位数。对于社会流动中的职业变化,本文将其分为三类:高级职业(代码100至299)、中级职业(代码300-499)和低级职业(代码500及以上)。高级职业包括经理、主管和专业人员,中级职业包括其他熟练的白领工人,低级职业由体力工人和半熟练或非熟练的白领工人组成。
下图显示了个人职业群体的税收和支出偏好分布。在所有三组中,大多数变化发生在5或更高的值上。与其他两组相比,低组别职业组(Low Group)在5分及以上处的占比更大,但在所有较高值处的占比较小。高组别(High Group)和中组别(Middle Group)职业群体的分配情况类似,高组别略微倾向于通过税收和支出进行更多的再分配。
在估计了SAM和DMM的相关参数后,本文分别使用了OLS和IPW(逆概率加权估计)两种估计方法。对于每一组出身阶层和终点阶层间的变化,本文使用含倾向值的多项式Logit回归,其中还包括了如父亲受教育程度、个人职业、母亲职业、性别等一系列背景变量。
如下图所示,向上流动的低组别更偏向于支持税收再分配(组A)。向下流动的高组别更偏向于反对税收再分配(组B)。在这两种情况下,与IPW估计相比,OLS估计夸大了社会流动对再分配偏好的影响,如从高组别到低组别的流动效果差值超过了一个标准差。中组别的向上流动影响对税收再分配偏好有积极影响,向下流动则有负面影响。(限于编译篇幅,此处省略了RR(Relative Risk Ratio,相对风险比)和E值的两个指标的计算及稳健性检验。感兴趣的读者可以阅读原文。)
代际流动对个体的影响是社会学及相关学科的一个重要问题。本文基于因果推断的思想,引入了一种新的方法:如果一个出身阶层为j的人没有如事实发生地终点阶层k,而是相反地留在出身阶层j,关心的结果结果会有何不同。这一方法同时满足了统计识别和因果识别的两种要求。当然,本文并没有深入讨论结果变量是否会反向地影响个体的社会流动(如案例中的再分配态度是否会反向影响个体的社会流动),这需要在进一步的模型应用中得到探讨。
编译|静谧
审核|Krystal
终审|霰雪
©Sociology理论志
点点“在看”给我一朵小黄花