多级有序 Logit 模型
多级有序 Logit 模型(Multilevel Ordered Logit Model)是一种扩展的回归模型,用于处理分层结构数据中有序因变量的分析。例如,数据可能有学生(个体层次)嵌套在学校(群体层次)中,而因变量(如学习满意度)是有序的。
1.适用于层级数据:
数据呈现嵌套结构(例如,学生嵌套在班级中,班级嵌套在学校中)。
同一群体中的个体可能共享某些特征(如学校的教学质量会影响所有学生的满意度)。
2. 因变量是有序的:
因变量是离散变量,并具有自然顺序(如“低”“中”“高”)。
3. 包含随机效应:
在基本有序 Logit 模型的基础上,增加了群体层级的随机效应(random effects),以捕捉层次结构中的群体差异。
4. 比例优势假设(Proportional Odds Assumption):
假设不同类别之间的自变量作用一致。如果假设不成立,可以考虑广义多级有序模型。
基本公式
对于嵌套数据结构(如个体 𝑖在群体 𝑗中):
Yij:第 𝑗 群体中第 𝑖 个样本的因变量。
𝑘:因变量的类别索引。
𝑃(𝑌𝑖𝑗≤𝑘):因变量落在类别 𝑘及以下的累计概率。
𝛼𝑘:类别 𝑘的阈值。
𝛽:自变量 𝑋𝑖𝑗的回归系数。
𝑋𝑖𝑗:第 𝑖 个样本的自变量。
𝑢𝑗:第 𝑗 群体的随机效应,用来捕捉群体间的差异,通常假设
𝑢𝑗∼𝑁(0,𝜎𝑢2)。
公式扩展示例
对于三层嵌套结构(如学生嵌套在班级,班级嵌套在学校),模型公式为:
uj:班级 j 的随机效应。
uk:学校 k的随机效应。
层级效应
固定效应(Fixed Effects):描述所有样本中自变量对因变量的整体影响。
随机效应(Random Effects):捕捉群体之间的差异,例如学校之间的差异。
专有名词
a. 比例优势假设(Proportional Odds Assumption):假设自变量对所有类别分割点的影响一致。如果不满足,可以使用 Brant 检验检验假设成立性。
b.累计分布函数(Cumulative Distribution Function, CDF): 模型的基础是累计分布函数,它表示概率的累积。
c. 阈值模型(Threshold Model):通过阈值将一个潜在的连续变量映射到有序类别。
1. 数据准备:确定因变量是有序的,并识别分层结构。自变量需要正确编码。
2. 模型拟合:使用多级建模工具(如 R 的 lme4 包或 Stata 的 gsem)。定义固定效应和随机效应部分。
3. 假设检验:检验比例优势假设是否成立。检查模型的随机效应是否显著。
4. 结果解释:解释固定效应系数(𝛽),如自变量对因变量的影响。分析随机效应的大小和方差,理解群体间的差异程度。
5.验证模型假设:检查比例优势假设是否成立,即不同类别之间的自变量影响是否一致。
实例论文使用分析
欧洲的气候变化风险认知:国家层面的因素和性别差异
1. 研究背景
本研究旨在探讨气候变化风险认知(CCRP)在28个欧洲国家中受到国家层面因素和性别差异的影响。研究使用了多阶段分层随机抽样方法,每个国家约有1000名参与者。
2. 数据收集
样本:来自28个国家的约28,000人。
抽样方法:采用多阶段分层随机抽样,按人口规模和人口密度选择采样位置。
数据收集方式:通过计算机辅助的面对面访谈进行。
3. 变量
因变量:气候变化风险认知(CCRP),为1到10的有序评分。
个人层面变量:性别、年龄、教育水平等。
国家层面变量:人均GDP(LGDPpc)
监管质量
历史:该国是否曾有共产主义政权的虚拟变量
4. 方法论
选择模型:由于数据结构的分层性,使用多级有序Logit模型。
模型结构:
一级模型:包括个人层面的变量。
二级模型:包括国家层面的变量(如人均GDP、监管质量及共产主义历史)。
5. 研究设计
模型运行:
模型1:包括人均GDP、监管质量及个人控制变量。
模型2:包括人均GDP和监管质量。
模型3:增加是否有共产主义历史的虚拟变量。
异方差性校正:在所有模型中均进行了异方差性校正。
性别分析:分别对男性和女性的样本运行模型。
6. 重点发现
国家因素:经济水平和监管质量与气候变化风险认知存在显著关联。
性别差异:研究表明,女性通常对气候变化表现出更高的关注度。
历史影响:前共产主义国家的公民对气候变化的关注度普遍低于西欧国家。
结论
通过分层有序Logit模型的分析,本研究揭示了国家层面和个体层面因素如何影响气候变化风险认知,为更好地理解气候动态提供了重要见解。
(如果想要详细了解论文如何使用该模型,可以阅读原文献Ergun, S.J., Karadeniz, Z.D. & Rivas, M.F. Climate change risk perception in Europe: country-level factors and gender differences. Humanit Soc Sci Commun 11, 1573 (2024). https://doi.org/10.1057/s41599-024-03761-4)
应用场景
教育领域:分析学生满意度,考虑班级和学校的分层结构。
医疗领域:分析患者健康状态,考虑医院或社区的分层特性。
社会研究:调查居民对政策的态度,考虑社区或地区的影响。
优势与局限性
优势
处理有序因变量的分层数据,结果更合理。
捕捉群体间的差异,避免假设独立性导致的偏差。
局限性
数据需求高,尤其是群体内样本量和层级数。
模型复杂,计算量大,依赖专业统计软件。
END