数据分析 | 因子分析 Factor Analysis

文摘   2024-12-15 11:10   马来西亚  

因子分析


因子分析法是一种统计方法,主要用于数据降维和探索隐藏在多个变量之间的潜在结构。它在社会科学、心理学、市场研究和其他领域中广泛应用,尤其适合分析具有较强相关性的多变量数据。


因子分析的主要目的



数据简化:通过将多个相关变量整合为较少的因子(因子是潜在变量),减少数据的复杂性。

揭示潜在结构:探索观测数据中隐藏的潜在变量,解释变量之间的相关性。

消除冗余:减少变量间的多重共线性问题。

开发量表:用于心理测量和问卷开发,确保量表具有良好的结构效度。


因子分析的因子是什么?



因子在因子分析中是指一种潜在的、不可直接观测的变量,它用来解释和代表多个观测变量之间的共同特征或关联。因子是通过分析找到的,它可以被视为隐藏在数据背后的结构或趋势。


因子的特点

潜在性:因子本身是看不见、摸不着的,但通过数学模型从数据中推导出来。例如,“学习动机”可能是测试成绩、学习时间和课外阅读量的共同因子。

简化性:一个因子可以总结多个变量的共同特性,大幅减少研究中需要关注的变量数量。

解释性:每个因子代表一组变量之间的共性。例如,一个因子可能解释“健康行为”,而另一个因子可能代表“技术信任”。


因子的作用

数据降维:把多个相关变量浓缩为几个核心因子(通常比原始变量少得多)。

例如,针对一个包含20个问题的问卷调查,因子分析可能得出2-3个因子,分别代表“满意度”“信任”“使用习惯”。

揭示潜在结构:帮助我们理解数据中隐藏的趋势或逻辑关系。

例如,在体育研究中,通过因子分析得出“技术熟练度”和“体能水平”两个因子,可以解释不同运动员的表现差异。

为后续分析提供输入:因子分析得出的因子得分可作为变量,用于回归分析、聚类分析等。

因子的实际意义

在研究中,因子通常被赋予一个具有现实意义的名称。这是基于因子与变量的关系和领域背景进行解释的。例如:

在一项分析影响青少年体力活动的研究中,假设以下变量:

𝑋1:是否喜欢团体运动;

𝑋2:每天的运动时间;

𝑋3:对体育课程的兴趣。

通过因子分析,我们发现这些变量高度相关,可以总结为一个因子“运动参与意愿”。这个因子代表了青少年对运动的整体兴趣和参与倾向。

因子的分类

主因子(Common Factor):多个观测变量之间的共同特性。

例如,“心理健康”可能是焦虑、抑郁、幸福感的共同因子。

特定因子(Specific Factor):某个观测变量特有的特性。

例如,“运动表现”中某个运动员的速度可能是特定因子。

误差因子(Error Factor):反映测量误差或随机波动。




因子分析的种类



探索性因子分析(Exploratory Factor Analysis, EFA)

目的:用于探索数据中潜在的因子结构,发现数据中潜在的维度或因子,适用于没有预先假设因子数量的情况。

应用:通常用于数据分析的初期阶段,帮助研究人员理解变量之间的关系。

特点:没有预设因子结构,因子数目通常通过统计指标(如特征根、碎石图)来决定。

验证性因子分析(Confirmatory Factor Analysis, CFA)

目的:用于验证某个预先设定的因子结构是否符合数据,测试假设的因子模型是否合理。

应用:用于理论验证阶段,适用于研究中已经假设因子结构的情况。

特点:基于已有的理论或先前的研究,要求模型结构明确并进行验证。

主成分分析(Principal Component Analysis, PCA)

目的:通过线性变换将数据的维度减少,提取出最能解释数据方差的主成分。虽然它与因子分析有相似之处,但PCA的目标是减少数据的维度,而不是提取潜在的因子结构。

应用:主要用于数据降维,特别是在大规模数据集的情况下。

特点:PCA不是一种因子分析方法,虽然其方法与因子分析类似,但其目标是将数据从高维空间映射到低维空间,保留尽可能多的信息。

最大似然因子分析(Maximum Likelihood Factor Analysis, MLFA)

目的:通过最大化似然函数来估计因子模型中的参数,寻找最有可能的因子结构。

应用:当数据符合正态分布并且模型假设较为严格时使用。

特点:相比其他方法,最大似然法提供了更加精确的估计,并能够进行模型适配性检验(如卡方检验)。

最小二乘法因子分析(Least Squares Factor Analysis, LSFA)

目的:通过最小化残差平方和来估计因子模型的参数,解决数据拟合问题。

应用:适用于数据量较小或缺乏复杂分布假设的场合。

特点:通常用于因子分析模型的快速估计,但精度可能低于最大似然法。

加权最小二乘法因子分析(Weighted Least Squares Factor Analysis, WLSFA)

目的:针对非正态数据使用加权最小二乘法来估计因子模型,减少偏差。

应用:常用于小样本或者数据不完全正态分布的情况下。

特点:通过引入权重来修正最小二乘估计,能提高对非正态数据的适应性。

基于旋转的因子分析(Factor Rotation)

目的:对因子载荷矩阵进行旋转,使得每个因子具有更清晰的解释。

应用:在进行探索性因子分析时,旋转帮助研究者找到更简单、更具有解释性的因子结构。

常见旋转方法:

正交旋转(如Varimax旋转):假定因子之间是独立的。

斜交旋转(如Promax旋转):假定因子之间可能有相关性。





因子分析的步骤



1. 检查适用性

相关矩阵:变量间相关系数较高时适用因子分析。

KMO值:Kaiser-Meyer-Olkin值需大于0.6。

巴特利特球形检验:显著性小于0.05表明数据适合因子分析。

2. 因子提取

主成分分析法(PCA):用于提取具有最大方差解释力的因子。

主轴因子法(PAF):常用于探索潜在结构。

3. 确定因子数目

特征值(Eigenvalue):特征值大于1的因子通常被保留。

碎石图(Scree Plot):选择拐点前的因子。

4. 因子旋转

正交旋转(如Varimax):因子之间相互独立。

斜交旋转(如Oblimin):允许因子之间存在相关性。

5. 解释与命名

根据每个因子上变量的载荷值(Factor Loadings),为因子命名并解释其含义。

6.  因子分析的输出

因子载荷矩阵:表示每个变量在各因子上的相关性,载荷值接近1或-1时,变量与因子关联更强。

共同度(Communality):变量被提取因子解释的方差比例。

因子得分(Factor Scores):根据因子计算个体或样本的得分,用于进一步分析。

因子分析的注意事项

样本量要求:一般要求样本量是变量数量的5到10倍。

数据标准化:如果变量的量纲差异较大,需先进行标准化处理。

结果解释的理论基础:因子的命名和解释应基于理论和研究背景。


需要展现的数学单位和统计量



在因子分析的结果分析中,数学单位和统计量如特征值、因子载荷、因子得分、KMO值、方差解释率等都是核心内容。通过这些统计量,可以判断因子分析的有效性、解释因子含义,并为后续的分析提供基础。


1. 因子提取结果

因子数量的选择

碎石图(Scree Plot):用以展示因子特征值(Eigenvalue),选择拐点前的因子数量。

特征值(Eigenvalue):每个因子的特征值,表示该因子对数据方差的解释能力。一般选择特征值大于1的因子。

总方差解释率(Total Variance Explained):每个因子解释的方差比例。例如,某个因子解释了总方差的30%,则该因子的贡献为0.30。

KMO检验和巴特利特球形度检验

KMO值:Kaiser-Meyer-Olkin Measure of Sampling Adequacy,通常要求KMO值大于0.6。

巴特利特球形度检验(Bartlett’s Test of Sphericity):检验矩阵的相关性,p值小于0.05表示数据适合进行因子分析。

2. 因子载荷矩阵

因子载荷(Factor Loadings):表示每个变量与因子的关系强度,通常通过以下公式计算:


3. 旋转方法

正交旋转(Orthogonal Rotation):假设因子之间互相独立,常用的旋转方法有Varimax旋转,其目标是最大化因子载荷的方差。

Varimax旋转:最大化每个因子上的载荷平方和。

斜交旋转(Oblique Rotation):允许因子之间相关,常用的方法是Promax旋转,它基于正交旋转的结果,调整因子间的相关性。

4. 因子相关性分析

因子相关矩阵(Factor Correlation Matrix):在斜交旋转下,因子之间可能存在相关性,相关系数可以表示为矩阵中的元素。例如:


5. 因子得分

因子得分(Factor Scores):每个个体在各个因子上的得分。

得分标准化:因子得分可以标准化为z分数,以便于不同因子间的比较

6. 模型的适配度

Cronbach’s Alpha:用于评估因子的内部一致性,通常要求Alpha值大于0.7:

拟合优度指标(如CFI,RMSEA等):虽然因子分析本身不涉及复杂的拟合检验,但可以通过这些指标来评估模型的适配度:

CFI(Comparative Fit Index):大于0.90通常表示模型拟合良好。

RMSEA(Root Mean Square Error of Approximation):小于0.08表示模型拟合较好。

7. 因子命名与解释

根据载荷较高的变量的实际含义,为因子起名。例如,一个因子上高载荷的变量是关于“社交行为”,则可将该因子命名为“社交动机”。

8. 结果的可视化

因子载荷热图:展示因子载荷矩阵,以颜色表示载荷的强弱。

因子得分分布图:如散点图或直方图,用于展示因子得分的分布和聚类。

如何构建因子载荷热图

因子载荷矩阵:首先,需要提取因子分析的载荷矩阵。这些载荷表示了每个变量与各个因子之间的关系强度。例如,如果变量A和因子1的载荷是0.75,表示变量A与因子1有较强的正相关关系。

热图的构建:在热图中,矩阵的行通常表示变量,列表示因子。每个单元格的颜色强度代表该变量与因子的相关程度,通常使用不同颜色深浅来区分。

颜色编码:常用的颜色编码是通过色阶表示载荷值的大小。例如,载荷值接近1时,颜色为深色(如红色),接近0时为浅色(如蓝色)。

注释与标签:为了便于理解,热图中通常会加上载荷值的数字标注,尤其是对于载荷较高的因子,方便解读。



因子分析的应用场景





THE END



小琳的读博笔记
海外在读博士分享学习日常与科研工具,陪伴式进行科研分享,与大家共同进步
 最新文章