数据分析 | 多级有序 Logit 模型

文摘   2024-11-20 13:20   马来西亚  

多级有序 Logit 模型


多级有序 Logit 模型(Multilevel Ordered Logit Model)是一种扩展的回归模型,用于处理分层结构数据中有序因变量的分析。例如,数据可能有学生(个体层次)嵌套在学校(群体层次)中,而因变量(如学习满意度)是有序的。


多级有序 Logit 模型的特点


1.适用于层级数据:

数据呈现嵌套结构(例如,学生嵌套在班级中,班级嵌套在学校中)。

同一群体中的个体可能共享某些特征(如学校的教学质量会影响所有学生的满意度)。

2. 因变量是有序的:

因变量是离散变量,并具有自然顺序(如“低”“中”“高”)。

3. 包含随机效应:

在基本有序 Logit 模型的基础上,增加了群体层级的随机效应(random effects),以捕捉层次结构中的群体差异。

4. 比例优势假设(Proportional Odds Assumption):

假设不同类别之间的自变量作用一致。如果假设不成立,可以考虑广义多级有序模型。


模型公式


基本公式

对于嵌套数据结构(如个体 𝑖在群体 𝑗中):



Yij:第 𝑗 群体中第 𝑖 个样本的因变量。

𝑘:因变量的类别索引。

𝑃(𝑌𝑖𝑗≤𝑘):因变量落在类别 𝑘及以下的累计概率。

𝛼𝑘:类别 𝑘的阈值。

𝛽:自变量 𝑋𝑖𝑗的回归系数。

𝑋𝑖𝑗:第 𝑖 个样本的自变量。

𝑢𝑗:第 𝑗 群体的随机效应,用来捕捉群体间的差异,通常假设 

𝑢𝑗∼𝑁(0,𝜎𝑢2)。

公式扩展示例

对于三层嵌套结构(如学生嵌套在班级,班级嵌套在学校),模型公式为:



uj:班级 j 的随机效应。

uk:学校 k的随机效应。


层级效应

固定效应(Fixed Effects):描述所有样本中自变量对因变量的整体影响。

随机效应(Random Effects):捕捉群体之间的差异,例如学校之间的差异。

专有名词

a. 比例优势假设(Proportional Odds Assumption):假设自变量对所有类别分割点的影响一致。如果不满足,可以使用 Brant 检验检验假设成立性。

b.累计分布函数(Cumulative Distribution Function, CDF): 模型的基础是累计分布函数,它表示概率的累积。

c. 阈值模型(Threshold Model):通过阈值将一个潜在的连续变量映射到有序类别。

分析步骤


1. 数据准备:确定因变量是有序的,并识别分层结构。自变量需要正确编码。

2. 模型拟合:使用多级建模工具(如 R 的 lme4 包或 Stata 的 gsem)。定义固定效应和随机效应部分。

3. 假设检验:检验比例优势假设是否成立。检查模型的随机效应是否显著。

4. 结果解释:解释固定效应系数(𝛽),如自变量对因变量的影响。分析随机效应的大小和方差,理解群体间的差异程度。

5.验证模型假设:检查比例优势假设是否成立,即不同类别之间的自变量影响是否一致。




实例论文使用分析

欧洲的气候变化风险认知:国家层面的因素和性别差异

1. 研究背景

本研究旨在探讨气候变化风险认知(CCRP)在28个欧洲国家中受到国家层面因素和性别差异的影响。研究使用了多阶段分层随机抽样方法,每个国家约有1000名参与者。

2. 数据收集

样本:来自28个国家的约28,000人。

抽样方法:采用多阶段分层随机抽样,按人口规模和人口密度选择采样位置。

数据收集方式:通过计算机辅助的面对面访谈进行。

3. 变量

因变量:气候变化风险认知(CCRP),为1到10的有序评分。

个人层面变量:性别、年龄、教育水平等。

国家层面变量:人均GDP(LGDPpc)

监管质量

历史:该国是否曾有共产主义政权的虚拟变量

4. 方法论

选择模型:由于数据结构的分层性,使用多级有序Logit模型。

模型结构:

一级模型:包括个人层面的变量。

二级模型:包括国家层面的变量(如人均GDP、监管质量及共产主义历史)。

5. 研究设计

模型运行:

模型1:包括人均GDP、监管质量及个人控制变量。

模型2:包括人均GDP和监管质量。

模型3:增加是否有共产主义历史的虚拟变量。

异方差性校正:在所有模型中均进行了异方差性校正。

性别分析:分别对男性和女性的样本运行模型。

6. 重点发现

国家因素:经济水平和监管质量与气候变化风险认知存在显著关联。

性别差异:研究表明,女性通常对气候变化表现出更高的关注度。

历史影响:前共产主义国家的公民对气候变化的关注度普遍低于西欧国家。

结论

通过分层有序Logit模型的分析,本研究揭示了国家层面和个体层面因素如何影响气候变化风险认知,为更好地理解气候动态提供了重要见解。

(如果想要详细了解论文如何使用该模型,可以阅读原文献Ergun, S.J., Karadeniz, Z.D. & Rivas, M.F. Climate change risk perception in Europe: country-level factors and gender differences. Humanit Soc Sci Commun 11, 1573 (2024). https://doi.org/10.1057/s41599-024-03761-4)


应用与优势、局限性


应用场景

教育领域:分析学生满意度,考虑班级和学校的分层结构。

医疗领域:分析患者健康状态,考虑医院或社区的分层特性。

社会研究:调查居民对政策的态度,考虑社区或地区的影响。





优势与局限性

优势

处理有序因变量的分层数据,结果更合理。

捕捉群体间的差异,避免假设独立性导致的偏差。

局限性

数据需求高,尤其是群体内样本量和层级数。

模型复杂,计算量大,依赖专业统计软件。






END





小琳的读博笔记
海外在读博士分享学习日常与科研工具,陪伴式进行科研分享,与大家共同进步
 最新文章