结构方程模型(SEM): 从理论到实践（1）

文摘 2024-12-22 12:16 甘肃

结构方程模型（Structural Equation Modeling, SEM）是一种多变量统计方法，能够用于探究和验证复杂的因果关系模型。SEM结合了因子分析和路径分析的特点，可以对潜在变量（即不能直接观察到的变量）和显性变量（可直接测量的变量）之间的关系进行分析。它能够揭示生态系统中多变量之间的复杂因果关系，从而帮助研究者理解和量化多重驱动因素对生态过程的影响。这种模型能有效地整合观测数据和理论假设，使得生态学研究在分析因果关系和机制上更具严谨性，适用于生物多样性、群落结构、生态功能等多个领域，推动了生态系统复杂关系的解析。这种方法还特别适用于社会科学、心理学、生物学等领域，因为它可以处理多层次、多维度的结构性数据关系。

一、结构方程模型的构成

结构方程模型通常由两个主要部分组成：测量模型和结构模型。

（1）测量模型（Measurement Model）：描述潜在变量与其测量指标之间的关系。这部分通常使用因子分析来解释潜在变量和显性变量的联系。测量模型可以验证我们所定义的潜在变量是否能够通过观测变量来合理地表示。

潜在变量（latent variable）是模型中的核心变量，代表的是一种抽象的概念或特质，无法通过直接观测来获取。例如，在生态学研究中，土壤肥力、生物多样性、生态系统健康等都是典型的潜在变量。潜在变量通常用椭圆或圆形表示，以便与观测指标（通常用方框表示）区分开来。

测量指标（observed variables或indicators）是能够直接观测或测量的变量，用来反映潜在变量的特征。例如，可以通过土壤中的氮含量、磷含量、pH值等具体测量指标来反映“土壤肥力”这一潜在变量。每个潜在变量通常对应多个测量指标，以确保它能被充分且可靠地反映。

潜在变量与其测量指标之间的关系可以通过因子载荷（factor loading）来表示。因子载荷描述了潜在变量对每个测量指标的贡献大小，也可以理解为潜在变量对每个测量指标的解释力。其数值通常在0到1之间，值越高表示潜在变量对该测量指标的解释力越强。在模型图中，这些关系通常用带箭头的路径来表示，路径从潜在变量指向测量指标，路径上的数字即为因子载荷。我们可以通过因子载荷值来解释潜在变量对不同测量指标的影响。例如，假设潜在变量“土壤肥力”对氮含量的因子载荷是0.8，对磷含量的因子载荷是0.6，那么可以解释为“土壤肥力”对氮含量的影响更大。

每个测量指标还包含一个误差项，代表测量过程中不可避免的误差或与潜在变量无关的变异部分。误差项是显性变量的一部分，说明该测量指标的观测值不完全由潜在变量解释。因此，测量模型通常表示为：

在SEM中，潜在变量与测量指标的关系可以用矩阵的形式表达，称为因子载荷矩阵。这种表达方式在模型计算中非常方便，特别是当涉及多个潜在变量时。例如，假设我们有三个测量指标 X1, X2, 和 X3 来测量一个潜在变量 ξ，因子载荷矩阵可以表示为：

（2）结构模型（Structural Model）：描述潜在变量之间的因果关系或路径关系。结构模型中因果关系或路径关系的描述需要结合路径图、路径系数和统计显著性，同时依赖理论背景。SEM提供了一个灵活的框架来刻画复杂系统中的因果关系，为验证复杂的假设模型提供了强大的工具。

路径图中的箭头：因果关系通常用单向箭头表示，箭头从自变量指向因变量，代表自变量对因变量的直接影响。

双向箭头：在一些情况下，潜在变量之间的关系可能是相关的而非因果关系，这时可以用双向箭头（如协方差路径）来表示变量之间的关联，而不是因果影响。

路径系数（Path Coefficient）：路径系数是用来量化一个潜在变量对另一个潜在变量的影响强度的系数。路径系数通常介于 -1 和 1 之间，表示影响的方向和强度。正路径系数表示变量之间的正向关系，即自变量的增加会导致因变量的增加。负路径系数表示变量之间的负向关系，即自变量的增加会导致因变量的减少。路径系数的显著性通常通过统计检验来确定，显著的路径系数意味着该因果关系在统计上有意义。

直接效应（Direct Effect）：直接效应是指自变量对因变量的直接影响路径。例如，如果潜在变量 X 直接影响 Y，则从 X 到 Y 有一个直接的路径。

间接效应（Indirect Effect）：间接效应是指自变量通过一个或多个中介变量对因变量产生的影响。例如，如果 X 通过 M 间接影响 Y，则 X→M→Y 构成了一个间接路径。间接效应可以通过相应路径系数的乘积来计算。

总效应（Total Effect）：总效应是指直接效应和所有间接效应之和，即自变量对因变量的总体影响。

中介效应（Mediation Effect）：中介效应指一个潜在变量（称为中介变量）在自变量与因变量之间传递影响。例如，变量 X 对 Y 的影响可以通过 𝑀来传递，这种关系即为中介效应。

调节效应（Moderation Effect）：调节效应指某个变量（称为调节变量）会影响自变量和因变量之间的关系强度或方向。例如，变量 Z 可以调节 X 对Y 的影响，这意味着Z 会影响 𝑋→X→Y 路径的强度。这种链式结构可以反映多层次因果关系的层级。例如，在研究植被多样性对生态系统功能的影响时，可以假设多样性先影响土壤质量，土壤质量再影响生态功能，形成间接的多层次影响路径。

基于理论的假设：结构方程模型中的路径关系需要基于已有理论提出，因果关系不能仅通过数据来验证，而需要有理论支持。例如，在生态学中，我们可能假设土壤肥力（潜在变量）会直接影响植物多样性（潜在变量），但这种假设应基于生态学理论。

拟合优度（Model Fit）评估：为了检验这些因果关系的合理性，SEM会计算多个拟合优度指标（如CFI、RMSEA等），以评估模型是否与数据相符。如果模型拟合度较好，则表明理论假设的因果关系与数据之间有较好的一致性。

二、结构方程模型的优点

同时估计多个因果关系：SEM允许在一个模型中同时估计多个因果关系，因此在复杂系统的研究中，特别是在具有多层次结构的生态学研究中具有很大优势。

处理潜在变量：SEM能够通过测量模型来构建潜在变量，使得我们能够研究那些无法直接测量的特征，例如心理学中的“态度”或生态学中的“生态功能”。

考虑误差：SEM可以对测量误差进行估计，从而提高模型的精度和解释力。

模型验证与优化：SEM包含了多种拟合指数（如卡方值、CFI、RMSEA等）来评估模型的拟合度，这些指数可以帮助研究者验证和优化模型。

三、结构方程模型的应用步骤

步骤 1：理论建模

在SEM中，建模的第一步是基于理论提出假设模型。这一模型应该清楚地指出潜在变量与显性变量之间的关系，以及潜在变量之间的因果关系。

步骤 2：收集数据并确定测量指标

收集适当的数据并定义每个潜在变量的测量指标。在生态学研究中，指标可能包括植物生物量、土壤养分含量、水文特征等。

步骤 3：模型估计与参数检验

使用统计软件（如AMOS、LISREL、Mplus等）来进行模型估计。SEM采用最大似然估计（Maximum Likelihood Estimation, MLE）等方法来计算路径系数，并检验参数的显著性。

步骤 4：模型拟合度评估

模型拟合度用于评估理论模型与实际数据的吻合度。常用的拟合度指标包括：

卡方值（Chi-Square, χ²）：越小越好，表示模型与数据的差异小。
比较拟合指数（Comparative Fit Index, CFI）：值越接近1越好，通常大于0.90被认为拟合较好。
根均方误差近似（Root Mean Square Error of Approximation, RMSEA）：值越小越好，通常小于0.08被认为是可接受的拟合度。

步骤 5：模型修正与改进

基于拟合度指标和理论解释，可以对模型进行修正，如添加或删除路径，以改进模型的拟合度。

四、结构方程模型的局限性

尽管SEM是一种强大的分析工具，但它也有一些限制：

对样本量的要求较高：SEM通常需要较大的样本量来确保估计的稳定性，尤其是在模型结构复杂时。确保样本量足够大，可以使用样本量估计方法（如Monte Carlo模拟）来确定所需的最小样本量。通常建议每个测量指标对应10-20个样本，以提高估计的准确性和稳健性。

模型假设较强：SEM假设变量之间的关系是线性的，且数据符合正态分布。但在实际应用中，许多数据可能偏离正态性，影响结果的准确性。因此，使用稳健估计方法，数据转换，使用广义结构方程模型等是必要的。还可以通过多种方法，如引入交互项，使用曲线拟合，采用PLS-SEM（偏最小二乘结构方程模型），贝叶斯网络，多层结构方程模型，处理非线性关系。

因果解释的局限：虽然SEM可以检验因果关系，但不能直接证明因果性，因果解释仍需要依赖理论支持。在解释因果关系时，应结合理论框架和已有研究作为支撑。

五、结构方程模型的应用

在R中，有多个R包可以用于结构方程模型（SEM）的分析。以下是几个主要的R包，并对它们的优势、劣势和应用现状进行比较：

这里我们分别运用lavaan、plspm和blavaan等R包来演示如何在 R 中实现结构方程模型。

# lavaan
# 假设 mpg 是被解释变量，hp 和 wt 是潜在变量影响 mpg。
# 安装和加载 lavaan
install.packages("lavaan")
library(lavaan)
          
# 定义模型
model <- '
  # 测量模型
  HP =~ hp   
  WT =~ wt
  # 结构模型
  mpg ~ HP + WT
'
# 拟合模型
fit <- sem(model, data = mtcars)
# 输出结果
summary(fit, fit.measures = TRUE, standardized = TRUE)
          
# plspm
# 模型目标：使用 PLS-SEM 方法分析 mpg 和其他变量的关系。
# 安装和加载 plspm
install.packages("plspm")
library(plspm)
          
# 设置路径矩阵
path_matrix <- rbind(
  c(0, 0, 0),
  c(1, 0, 0),
  c(1, 1, 0)
)
colnames(path_matrix) <- rownames(path_matrix) <- c("HP", "WT", "MPG")  
# 定义测量模型
blocks <- list(2, 1, 1)
modes <- c("A", "A", "A")  
# 拟合模型
plspm_model <- plspm(mtcars, path_matrix, blocks, modes = modes)    
# 输出结果
summary(plspm_model)
          
# blavaan
# 模型目标：使用贝叶斯方法估计结构方程模型。
# 安装和加载 blavaan
install.packages("blavaan")
library(blavaan)
          
# 定义模型
bayes_model <- '
  # 测量模型
  HP =~ hp
  WT =~ wt
  # 结构模型
  mpg ~ HP + WT
'
# 拟合模型
bayes_fit <- bsem(bayes_model, data = mtcars)
# 输出结果
summary(bayes_fit, standardized = TRUE)

###### 感谢阅读！

请记得关注我们！欢迎大家转载、收藏、在看！

麦当的生态学笔记

用于文献信息解读和分享，统计分析相关方法的传递。

最新文章

【模型代码】小样本怎么办？贝叶斯回归模型

Soil Biology and Biochemistry | 如何撰写一篇有效的学术手稿？编辑团队的进一步见解

Annual Reviews | 深层土壤有机碳对全球变化的响应：关键机制与未来展望

Ecology Letters | 环境条件调节变暖对植物凋落物分解的影响

Functional Ecology | 干旱对根和茎叶特性及其可分解性的影响

Scientific Reports | 全球变化背景下根系分解的动态与调控机制

Functional Ecology | 凋落物分解的秘密：根叶的“不同步”现象

Ecosphere | 升高的二氧化碳、氮沉降增加和植物多样性对地上凋落物的影响

Soil Biology and Biochemistry | 如何撰写一篇有效的学术手稿？编辑团队的进一步见解

Nature Climate Change | 高浓度CO2如何同时促进森林中的碳和氮循环

微生物功能多样性：R语言

超全面讲透一个算法模型，XGBoost！！

Functional Ecology | 叶片与根系的协奏曲：揭示土壤动物分解力的秘密

Science Advances | 气候变暖和臭氧升高诱导细根与菌根真菌之间的权衡，并刺激有机碳分解

Soil Biology and Biochemistry | 如何撰写一篇有效的学术手稿？编辑团队的进一步见解

Nature Climate Change | 高浓度CO2如何同时促进森林中的碳和氮循环

Soil Biology and Biochemistry | 如何撰写一篇有效的学术手稿？编辑团队的进一步见解

R语言绘制nature communications款式世界地图

结构方程模型(SEM): 从理论到实践（1）

Global Change Biology | 三种全球变化驱动因素对陆地C:N:P元素计量的影响：全球综合分析

贝叶斯优化

一个强大算法模型，决策树回归！！

Functional Ecology | 叶片与根系的协奏曲：揭示土壤动物分解力的秘密

R语言|meta分析全解析

全球性整合分析只有一张结果图也能发一区

PNAS | 高多样性的生态系统也可以具有最低的稳定性

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

一个强大算法模型，XGBoost ！！

科研进展 | 本刊编委陈伟乐课题组揭示森林菌根对凋落物分解的影响机制

Science Advances | 气候变暖和臭氧升高诱导细根与菌根真菌之间的权衡，并刺激有机碳分解

PNAS | 营养物质添加导致热带雨林土壤二氧化碳释放显著增加

New Phytologist | 植物凋落物中的活性化合物降低分解过程对变暖和干旱的敏感性

Science Advances | 植物根系分泌作用：稳定土壤有机质形成的关键因素

Soil Biology & Biochemistry | 叶凋落物分解模式的影响因素理论探讨

Journal of Ecology | 理解凋落物分解的主导控制因素

《Nature》评选2024年推动科学发展的十个人，中国科学家在列

R画NMDS

Global Change Biology | 三种全球变化驱动因素对陆地C:N:P元素计量的影响：全球综合分析

Nature Ecology & Evolution | 地上与地下的较量：全球植物生物量分布的最新图谱

Soil Biology and Biochemistry/植物通过地上、根系和菌根途径输入的碳对土壤有机碳周转的影响不同

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

glmm.hp包升级了，实现对模型的解释变量按组分解R2的功能

Global Ecology and Biogeography | 全球变化如何影响红树林的碳储量？解析凋落物分解的驱动因素

Ecology Letters | 多重全球变化驱动因素对陆地碳储存的影响：加性效应更常见

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

Nature Communications | 全球变化条件下植物与土壤生物之间响应的解耦现象

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

Science | 气候变化导致的物种灭绝：全球评估与未来趋势

Ecological Research | 植物根系结构与分泌物获取土壤养分的策略

机器学习——XGBoost(梯度提升的集成学习算法)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉