多水平数据中的验证性因素分析和潜在类分析——多水平因子混合模型

文摘   2025-01-21 14:47   安徽  



Vol.1

前言

验证性因素分析 (Confirmatory factor analysis , CFA)和潜在类分析 (Latent class analysis, LCA)大家都很熟悉,多水平模型大家肯定不陌生,那么这两种方法结合起来呢?在这篇推文里,我将基于Cao Chunhua老师最新的文章(Cao et al., 2024),来为大家介绍多水平因子混合模型(Multilevel Factor Mixture Model, Multilevel FMM)


Vol.2

定义

    因子混合模型(Factor mixture modeling, FMM)是一种常见的统计方法,被用来研究人群中未观察到的异质性。具体而言,FMM将连续潜变量(因子)和分类潜变量(潜类)纳入建模,将因子和潜类别分析(LCA)相结合(如图1所示)。大家可以看温忠麟老师团队的文章有详细的介绍。(陈宇帅 et al., 2015)

    而多水平因子混合模型则是在FMM基础上进一步纳入了嵌套数据的多水平特征。例如,我们从不同医院收集到了一批抑郁患者的症状数据,FMM可以帮助我们分析这些患者可能分为哪些抑郁亚型(高抑郁组、低抑郁组)。而多水平FMM则可以进一步考察,这些医院又可以分为哪几种类型(重症患者多医院、重症患者少医院),以及这些医院下又可能分为哪些抑郁亚型(重症患者多医院-高抑郁组、重症患者多医院-低抑郁组、重症患者少医院-高抑郁组、重症患者少医院-低抑郁组)。

   根据我们研究问题的不同,多水平FMM可以主要分为四种类型:非参数方法的个体内水平结构的多水平FMM、参数方法的个体内水平结构的多水平FMM、个体间水平结构的多水平FMM、非参数方法的个体内-个体间水平的多水平FMM。


Vol.3

 模型介绍

3.1 参数方法的个体内水平结构的多水平FMM

   在该模型组, CFA测量模型只在内水平指定了观察项目对各自潜在因素的负荷,而在水平之间没有建立测量模型。


    参数方法允许水平内潜在类均值在聚类之间变化。例如下图中三个水平的个体内水平结构的多水平FMM结果表明:水平内类1的因子均值为零,占样本的19.65%。第2类的因子均值较高,为2.21,占样本的19.72%。第3类的因子均值为1.20,占样本的60.63%。而在个体间水平上,相对于参考类别3,属于类别1和类别2内的对数几率(log odds)在聚类之间的方差为0.30和0.31。此外,我们可以在模型中加入个体间水平的预测变量,来考察其对随机概率的作用。例如,研究人员可以使用学校特征变量(如学校规模)来预测水平间聚类(即学校)中被划分为不同个体内水平潜在类别(如情绪行为问题)的学生比例。



3.2 非参数方法的个体内水平结构的多水平FMM

相比于参数方法,非参数方法基于层内随机概率将个体间水平的单位(如学校或诊所)进一步分类为潜在类别。


例如,当我们把学生分为两类时(高情绪行为问题类别和低情绪行为问题类别),就会可能出现一些学校中一类学生比例较高,而另一些学校中该类学生比例较低。因此通过该模型,我们就可以根据学校中两类学生的不同比例,将将学校进一步分为两类。



3.3个体间水平结构的多水平FMM

当研究人员对聚类的特征感兴趣时,可以使用个体间水平结构的多层FMM,如图3所示。例如在一个二分类的该模型中,优势班级(80%)的因素平均值比其他班级(20%)低0.65分,因此分别被标记为低效教学班级和高效教学班级。这一统计上显著的班级间平均差异揭示了班级间教学质量的异质性:相对较小比例的物理教师被认为比其他物理教师具有更高的教学质量。值得注意的是,这一发现可以用潜在的预测因子或远端结果进一步研究。


3.4 非参数方法的个体内-个体间水平的多水平FMM

当我们同时考虑个体内和个体间水平时,我们需要指定两种类型的潜在类别(水平内潜在类别(CW)和水平间潜在类别(CB)),每种类型都与每个水平上的测量模型相关联,如图4所示。水平内随机概率的可变性可以使用参数方法建模,不需要指定另一个水平间潜在类变量,也可以使用非参数方法,指定一个额外的水平间潜在类别变量,由水平内随机对数odds (CB2)定义,如图4所示。图4中的非参数模型不仅可以将个体划分为CW的不同潜在类别,还可以将水平间单元划分为由水平间因子得分CB1定义的水平间潜在类别和由水平内随机概率CB2定义的水平间潜在类别。将CB1和CB2合并用于水平内和水平间结构是多层FMM的独特特征。


例如如图8所示,在一个六个类别的模型中(2个体间水平 * 3个体内水平),我们可以首先将个体间水平的两类学校命名为安全学校(91%)和不太安全的学校(9%),并将个体间水平的三类学生命名为低风险(68%),中等风险(14%)和高风险(18%)作为被欺凌学生的类别。

    可以发现,大多数学生(62%)属于安全学校的低风险学生类别,但即使在安全的学校,也有少部分学生经历过中等和高风险的欺凌。然而,在不太安全的学校,欺凌经历甚至更高。因此,在不太安全的学校里的高风险学生(1.5%)报告了最高水平的欺凌经历(图中的棕色线)。

需要注意的是,有些类别的学生比例很小,这对研究人员来说可能没有实际意义。但在学校安全和学校环境的背景下,由于分析的样本很大,因此较小的百分比仍然包含大量的学生,这可能对学校辅导员和管理人员具有重要意义。这可以让教育研究者和从业者调查与较高欺凌环境相关的学校特征,并对被识别的学校进行学校层面的干预,也可以在学生层面进行这种调查和干预。然而,值得注意的是,在这个例子中,学校内部的异质性(例如,安全学校内的高风险与低风险)比学校之间的异质性(例如,不安全学校的高风险与安全学校的高风险)要大得多,如图8所示,这可以表明学生层面干预的重要性。

Vol.4

总结



总而言之,多水平FMM为我们研究嵌套数据和大样本数据提供了一个非常有趣的方法,在下一次风险中,我们将介绍如何通过Mplus实现这些模型。

以上就是本期推文的全部内容啦,欢迎大家留言讨论!





参考文献

Cao, C., Wang, Y., & Kim, E. (2024). Multilevel factor mixture modeling: A tutorial for multilevel constructs. Structural Equation Modeling: A Multidisciplinary Journal, 1–17. https://doi.org/10.1080/10705511.2024.2332257


陈宇帅, 温忠麟, & 顾红磊. (2015). 因子混合模型:潜在类别分析与因子分析的整合. 心理科学进展, 23(03).


PSYCH统计实验室

通知公告

1、Psych统计自习室寒假培训班火热报名中!

    详情介绍(点击本行文字跳转)

2、网络分析课程目前开放视频课啦

单次课200元/讲(学生),250元/讲(非学生)

共有四讲内容:

①横断面网络分析简介与基础

②网络分析与因子分析

③交叉滞后网络分析

④时间序列网络分析

购买后开放视频权限14天,可多次申请。

并赠送所有课程相关资料(无PPT)

如果想申请购买,请联系M18812507626


更多资讯

关注我们


文稿:说鸽不鸽也是一种鸽

排版:Aronuo
责编:Wink
审核:摘星

本文由“Psych统计自习室”课题组原创,欢迎转发至朋友圈。如需转载请联系后台,征得作者同意后方可转载。












Psych统计自习室
大家好,我们是由来自北京师范大学,西南大学,天津医科大学等高校在读硕士、博士研究生组成的一个科研团队——Psych统计自习室。Psych统计自习室旨在关注心理学、精神病学领域的最前沿的系列研究,并做前沿统计知识的分享。
 最新文章