数据分析方法 | 探索性因子分析 EFA

文摘   2025-01-04 17:08   马来西亚  


探索性因子分析



探索性因子分析 (EFA) 是多元统计方法家族中的一种,它试图找出最少数量的假设结构(也称为因子、维度、潜在变量、合成变量或内部属性),这些假设结构可以简约地解释一组测量变量(也称为观测变量、显性变量、效应指标、反射指标或表面属性)之间的协变。也就是说,找出解释测量变量之间顺序和结构的共同因素。



因子分析介绍


因子分析是一类已有 100 年历史的技术,用于识别观测数据的结构/维度并揭示引起观测现象的根本结构。该技术识别和检查相互关联的变量簇;这些簇称为“因子”或“潜在变量”。从统计学角度来看,因子分析是一种使用样本数据对一组变量的总体协方差矩阵进行建模的方法。因子分析用于理论开发、心理测量工具开发和数据缩减。


因子分析法由心理学家兼统计学家查尔斯·斯皮尔曼(因斯皮尔曼相关系数而出名)于 1904 年在其关于智力基本维度的研究中率先提出。在统计计算出现之前,该法的使用一直受到繁琐的手工计算的阻碍;自此以后,该技术便蓬勃发展。

因子分析主要有两种类型:探索性和验证性。在探索性因子分析 (EFA,本资源页面的重点) 中,每个观察到的变量都可能是每个因子的度量,目标是确定(观察到的变量和因子之间的)关系最强。在验证性因子分析 (CFA) 中,假设一个简单的因子结构,每个变量只能是一个因子的度量,并通过拟合优度检验将数据的相关性结构与假设结构进行测试。图 2 是 EFA 和 CFA 的图形表示。



针对不同的测量和数据场景,有不同的因子分析技术:

观测变量是连续的,潜在变量被假设为连续的

观察到的是连续的,潜在的是分类的

观察到的是分类的,潜在的是连续的

观察到的是分类的,潜在的也是分类的



适用性评估



样本量要求

推荐:至少 300 个样本。

标准:100(较差),200(一般),300(好),500(非常好)(Comrey & Lee)。

样本与变量比(N:p比)

推荐范围:3:1 到 20:1,视具体研究设计而定。

相关矩阵的因子性

检查相关矩阵中系数是否大于 0.30。

KMO 和 Bartlett 检验

KMO:>0.50 表示适合因子分析。

Bartlett 球形度检验:p < 0.05,表示适合因子分析。



因子提取


因子提取方法

主成分分析(PCA):适用无先验理论情况,提取最大方差。

主轴因子分析(PAF):更适合变量可靠性较高或变量数量较多的情况。

其他方法:包括最大似然法、最小二乘法等,视需求而定。

因子提取标准

Kaiser 准则:保留特征值大于 1 的因子。

碎石图:通过观察拐点确定因子数量。


图片来源《食品工业科技》期刊


累积方差百分比:根据解释总方差的比例确定因子数量。

平行分析:实际特征值与随机特征值比较,保留实际特征值大于随机值的因子。

因子旋转方法

正交旋转(因子不相关):Varimax:简化因子矩阵列,提取明确关联。Quartimax:简化变量的行。Equimax:行与列同时简化。

斜交旋转(因子相关):如 Promax 旋转,适合因子间相关性较高的情况。

因子结构的解释与命名

因子结构解释
根据因子载荷(Factor Loading)确定变量归属。

+0.30:最低考虑水平

+0.40:更重要

+0.50:具有实际意义

因子命名:根据变量内容为因子赋予有意义的名称。



执行流程


例子背景:研究人格特质的潜在因子

假设研究目标是探讨人格特质的潜在因子。收集了包含以下变量的数据,这些变量来自问卷调查:

外向性相关:喜欢与人交往、容易表达自我。

责任心相关:工作认真负责、按时完成任务。

宜人性相关:乐于助人、关心他人。

我们希望通过因子分析确定是否存在潜在因子,例如“外向性”、“责任心”、“宜人性”。

分析流程:

创建一个调查问卷并收集数据,例如采访200名受访者。

将数据输入到Excel中,并使用分析工具计算。

关键术语:

因子分析中的一些重要术语包括因子载荷(Factor Loadings)、特征值(Eigenvalue)和公因数方差(Communalities)。


确定因子的步骤

1. 收集数据并检查适用性

相关矩阵:计算变量间的相关矩阵,检查是否有显著相关性(通常要求相关系数>0.3)。

KMO值:用Kaiser-Meyer-Olkin测量采样充分性(推荐值>0.5)。

Bartlett球形度检验:检验相关矩阵是否适合进行因子分析(p值<0.05)。

例子:通过相关矩阵,发现“喜欢与人交往”和“容易表达自我”之间的相关系数为0.7,适合进一步分析。

2. 提取因子

使用主成分分析(PCA)或主轴因子分析(PAF)提取因子。

方法1:Kaiser准则(特征值>1):保留特征值大于1的因子。

方法2:碎石图(Scree Test):观察图中拐点之前的因子数量。



3. 旋转因子载荷矩阵

使用旋转(如Varimax或Promax)简化因子结构。

因子载荷:解释变量与因子的关系,载荷值>0.4为显著。

每个变量会更明确地归属于某个因子。



从表中可以看出:

因子1主要解释“外向性”相关变量。

因子2主要解释“责任心”相关变量。

因子3主要解释“宜人性”相关变量。

4. 确定因子数量和命名

根据因子载荷矩阵,结合理论知识和变量的实际含义,命名因子。

因子1命名为“外向性”。

因子2命名为“责任心”。

因子3命名为“宜人性”。

总结

通过上述步骤,探索性因子分析确定了三个因子:外向性、责任心、宜人性。每个因子代表一组高度相关的变量,从而将复杂的数据简化为易于解释的结构。



潜在因子示例


https://en.wikiversity.org/wiki/Exploratory_factor_analysis/Glossary 探索性因子分析:词汇表

ABeginnersGuidetoFactorAnalysis_FocusingonExploratoryFactorAnalysis.pdf

williams-et-al-2010-exploratory-factor-analysis-a-five-step-guide-for-novices.pdf

探索因子参考文献

https://datatab.net/tutorial/exploratory-factor-analysis 

统计方法介绍网址

chapter17_2.pdf spss操作流程

https://statistics.laerd.com/spss-tutorials/principal-components-analysis-pca-using-spss-statistics.php 

spss操作,及数据分析流程




END




小琳的读博笔记
海外在读博士分享学习日常与科研工具,陪伴式进行科研分享,与大家共同进步
 最新文章