因子分析
因子分析法是一种统计方法,主要用于数据降维和探索隐藏在多个变量之间的潜在结构。它在社会科学、心理学、市场研究和其他领域中广泛应用,尤其适合分析具有较强相关性的多变量数据。
因子分析的主要目的
数据简化:通过将多个相关变量整合为较少的因子(因子是潜在变量),减少数据的复杂性。
揭示潜在结构:探索观测数据中隐藏的潜在变量,解释变量之间的相关性。
消除冗余:减少变量间的多重共线性问题。
开发量表:用于心理测量和问卷开发,确保量表具有良好的结构效度。
因子分析的因子是什么?
因子在因子分析中是指一种潜在的、不可直接观测的变量,它用来解释和代表多个观测变量之间的共同特征或关联。因子是通过分析找到的,它可以被视为隐藏在数据背后的结构或趋势。
因子的特点
潜在性:因子本身是看不见、摸不着的,但通过数学模型从数据中推导出来。例如,“学习动机”可能是测试成绩、学习时间和课外阅读量的共同因子。
简化性:一个因子可以总结多个变量的共同特性,大幅减少研究中需要关注的变量数量。
解释性:每个因子代表一组变量之间的共性。例如,一个因子可能解释“健康行为”,而另一个因子可能代表“技术信任”。
因子分析的种类
探索性因子分析(Exploratory Factor Analysis, EFA)
目的:用于探索数据中潜在的因子结构,发现数据中潜在的维度或因子,适用于没有预先假设因子数量的情况。
应用:通常用于数据分析的初期阶段,帮助研究人员理解变量之间的关系。
特点:没有预设因子结构,因子数目通常通过统计指标(如特征根、碎石图)来决定。
验证性因子分析(Confirmatory Factor Analysis, CFA)
目的:用于验证某个预先设定的因子结构是否符合数据,测试假设的因子模型是否合理。
应用:用于理论验证阶段,适用于研究中已经假设因子结构的情况。
特点:基于已有的理论或先前的研究,要求模型结构明确并进行验证。
因子分析的步骤
1. 检查适用性
相关矩阵:变量间相关系数较高时适用因子分析。
KMO值:Kaiser-Meyer-Olkin值需大于0.6。
巴特利特球形检验:显著性小于0.05表明数据适合因子分析。
2. 因子提取
主成分分析法(PCA):用于提取具有最大方差解释力的因子。
主轴因子法(PAF):常用于探索潜在结构。
3. 确定因子数目
特征值(Eigenvalue):特征值大于1的因子通常被保留。
碎石图(Scree Plot):选择拐点前的因子。
4. 因子旋转
正交旋转(如Varimax):因子之间相互独立。
斜交旋转(如Oblimin):允许因子之间存在相关性。
5. 解释与命名
根据每个因子上变量的载荷值(Factor Loadings),为因子命名并解释其含义。
6. 因子分析的输出
因子载荷矩阵:表示每个变量在各因子上的相关性,载荷值接近1或-1时,变量与因子关联更强。
共同度(Communality):变量被提取因子解释的方差比例。
因子得分(Factor Scores):根据因子计算个体或样本的得分,用于进一步分析。
因子分析的注意事项
样本量要求:一般要求样本量是变量数量的5到10倍。
数据标准化:如果变量的量纲差异较大,需先进行标准化处理。
结果解释的理论基础:因子的命名和解释应基于理论和研究背景。
需要展现的数学单位和统计量
在因子分析的结果分析中,数学单位和统计量如特征值、因子载荷、因子得分、KMO值、方差解释率等都是核心内容。通过这些统计量,可以判断因子分析的有效性、解释因子含义,并为后续的分析提供基础。
1. 因子提取结果
因子数量的选择
碎石图(Scree Plot):用以展示因子特征值(Eigenvalue),选择拐点前的因子数量。
特征值(Eigenvalue):每个因子的特征值,表示该因子对数据方差的解释能力。一般选择特征值大于1的因子。
总方差解释率(Total Variance Explained):每个因子解释的方差比例。例如,某个因子解释了总方差的30%,则该因子的贡献为0.30。
KMO检验和巴特利特球形度检验
KMO值:Kaiser-Meyer-Olkin Measure of Sampling Adequacy,通常要求KMO值大于0.6。
巴特利特球形度检验(Bartlett’s Test of Sphericity):检验矩阵的相关性,p值小于0.05表示数据适合进行因子分析。
2. 因子载荷矩阵
因子载荷(Factor Loadings):表示每个变量与因子的关系强度,通常通过以下公式计算:
3. 旋转方法
正交旋转(Orthogonal Rotation):假设因子之间互相独立,常用的旋转方法有Varimax旋转,其目标是最大化因子载荷的方差。
Varimax旋转:最大化每个因子上的载荷平方和。
斜交旋转(Oblique Rotation):允许因子之间相关,常用的方法是Promax旋转,它基于正交旋转的结果,调整因子间的相关性。
4. 因子相关性分析
因子相关矩阵(Factor Correlation Matrix):在斜交旋转下,因子之间可能存在相关性,相关系数可以表示为矩阵中的元素。例如:
5. 因子得分
因子得分(Factor Scores):每个个体在各个因子上的得分。
得分标准化:因子得分可以标准化为z分数,以便于不同因子间的比较
6. 模型的适配度
Cronbach’s Alpha:用于评估因子的内部一致性,通常要求Alpha值大于0.7:
拟合优度指标(如CFI,RMSEA等):虽然因子分析本身不涉及复杂的拟合检验,但可以通过这些指标来评估模型的适配度:
CFI(Comparative Fit Index):大于0.90通常表示模型拟合良好。
RMSEA(Root Mean Square Error of Approximation):小于0.08表示模型拟合较好。
7. 因子命名与解释
根据载荷较高的变量的实际含义,为因子起名。例如,一个因子上高载荷的变量是关于“社交行为”,则可将该因子命名为“社交动机”。
8. 结果的可视化
因子载荷热图:展示因子载荷矩阵,以颜色表示载荷的强弱。
因子得分分布图:如散点图或直方图,用于展示因子得分的分布和聚类。
因子分析的应用场景
THE END