分层线性模型
分层线性模型(Hierarchical Linear Model, HLM),是专门用于分析嵌套数据结构的统计模型。这种模型能够同时处理多个层次的数据,研究不同层次变量对因变量的影响,是社会科学、教育研究和医疗等领域的常用方法。
1
基本结构
1. 单层线性模型(OLS回归)
传统线性回归假设数据是独立同分布的,模型形式为:
Yij=β0+β1Xij+ϵij
Yij:第 j 个个体的因变量。
Xij:第 j个个体的自变量。
ϵij:误差项。
但在嵌套数据中,不同群体内的个体通常不是独立的,会导致误差项之间存在相关性。因此需要引入分层模型。
2. 两层分层线性模型
一级模型(个体层面):
二级模型(群体层面):将截距和斜率进一步分解为群体层面的固定效应和随机效应:
合并模型:将一级和二级模型合并后:
模型解释
a. 固定效应:
b. 随机效应:
c. 误差项:
2
适用场景及优势
教育领域:学生嵌套在班级中,班级嵌套在学校中。
医疗研究:患者嵌套在医院中,医院嵌套在地区中。
企业管理:员工嵌套在部门中,部门嵌套在公司中。
社会科学:个体嵌套在家庭中,家庭嵌套在社区中。
HLM的优点
控制嵌套效应:能够将群体间的差异与个体间的差异分开,避免传统回归分析中的独立性假设被打破。
跨层次分析:可以同时研究个体层面和群体层面的影响。
灵活性强:支持复杂的嵌套结构和随机效应建模。
3
流程讲解
假设问题场景
你想研究学生的考试成绩受哪些因素影响,但你知道:
学生的成绩会受个体因素影响,比如学习时间、兴趣等。
学生所在的班级也可能影响成绩,比如班级的教师水平、学生人数等。
这就是典型的“嵌套数据”:学生嵌套在班级中。
分层线性模型(HLM)能够分析学生层面和班级层面的因素,具体流程如下:
第一步:明确研究问题和数据层次
我们需要研究两个层次:
个体层面(一级):学生的个人特性,比如学习时间、兴趣。
群体层面(二级):班级的整体特性,比如教师经验、班级规模。
第二步:搭建模型
HLM要拆解成两部分来理解:
1. 一级模型(学生层面)
用来分析学生的成绩(因变量)如何受个人特性影响:
2. 二级模型(班级层面)
在二级模型中,考虑班级特性如何影响成绩:
简单理解:
班级平均成绩不仅和班级的“教师经验”、“班级规模”有关,还可能因班级随机差异而不同。
学习时间对成绩的影响也可能因班级不同而变化。
第三步:把模型合并
把一级模型和二级模型合并,得到最终模型:
第四步:数据准备
为了实现模型,准备数据:
每个学生的数据(学习时间、兴趣、成绩)。
每个班级的数据(教师经验、班级规模)。
确保数据能识别“学生属于哪个班级”。
第五步:运行模型
使用统计软件,比如:
SPSS:选择“线性混合模型(Linear Mixed Model)”。
R包
第六步:结果解读
固定效应(固定因素的总体影响):
随机效应(个体或班级间差异):
模型拟合度:用AIC/BIC等指标评估模型好坏。
总结
HLM的流程可以简化为:
分清数据层次(学生—班级)。
分别建模(一级看学生,二级看班级)。
合并模型(兼顾个体和群体因素)。
运行分析,解读结果。
简单来说,HLM帮你回答两个问题:
学生成绩为何不同?
学生成绩的差异中,哪些是由学生个人决定的,哪些是由班级环境决定的?
4
实际例子
Using HLM to Determine a STEM Programs Impact on Middle School Academic Achievement
研究背景:
使用HLM分析嵌套数据集越来越流行,尤其是在评估学校内部特定教室提供的专业学术项目的影响。STEM教育政策和举措对学生成就的影响报告了不同程度的成功。
研究方法:
参与者:5至8年级的学生和教师,时间跨度从2012-2013至2018-2019学年。
环境:美国东北部俄亥俄州的一个中等规模城市学区。
工具:使用俄亥俄州州考(OST)成绩作为学术成就的衡量标准。
HLM模型构建:
研究者构建了两个HLM模型来回答两个子问题:
中学综合STEM项目是否对学生在数学和科学上的成就有积极影响?
中学综合STEM项目是否对学生在科学上的成就有积极影响?
数据分析:
通过HLM分析,研究者发现STEM教育对学生在数学和科学综合成绩(平均得分高31.8分)和科学成绩(平均得分高38.2分)上有显著的正面影响。没有发现STEM参与和学生因素(如性别、社会经济地位、种族和出勤率)之间的交互效应。
结论:
HLM是分析嵌套数据集中专业学术项目对学生成就影响的强大统计工具。STEM项目对学生的数学和科学成绩有显著的正面影响。
hlm.pdf(原文)
END