【前言】
这将是一个比较长的有关结构方程模型的系列,因为自己的研究方向的一大部分是结构方程模型,所以这个系列我会花比较多的时间,但是更新得也会比较慢。
我写这个系列的目的很简单,这个系列并不打算把结构方程模型中所有的知识点一条一条地罗列。这个系列旨在写一些我个人的整理与思考,这些思考是在很多教材中没有的,但是对于一个人理解结构方程模型这个方法本身,又是十分受用的!
1 什么是结构方程模型?
我在最初学习结构方程模型的时候,最懵逼的就是结构方程模型到底是什么?我看到了很多方法,它们都放在结构方程模型的课程或者教科书里,老师在课上还教了我怎么用这些方法,但是却没有直接而明白地告诉我结构方程模型本身到底是个什么东西……
首先,我们可以把结构方程模型视作为两大方法的集合:潜变量分析(latent analysis)与联立方程建模(simultaneous equations modeling,不确定中文翻译是否正确)。
我们先关注联立方程建模是个什么方法。在经典的回归模型中,我们往往考察的是双变量之间的关系,比如学习时长对学业成绩的预测关系。但大多数的学术理论往往不仅仅包括两个变量,而是讨论了数个变量之间的相互关系。比如依据上述的例子,我们可以假想一个理论认为,家庭的社会经济地位将会影响学生能够在学习上投入的时长,而这将会进一步影响学业成绩;同时,学生的智力本身也会直接影响学业成绩,而智力具有一定的遗传性,所有父母的智力会影响学生的智力,同时父母的智力也会影响家庭的社会经济地位。由此,我们可以构想出如下的变量关系图:
可以看到,这个系统要比回归模型中的双变量系统复杂得多,所以这个时候我们再使用回归的策略,利用最小二乘法寻找最拟合数据点的直线的方法就行不通了!这时我们需要用一些新的方法去完成这一统计模型的检验,这个方法就叫“联立方程建模”。
值得一提的是,上述的模型仅仅依靠“联立方程建模”是不够的,为什么呢?在该模型中,学生学习的时长我们可以用学生的主观报告作为估计,而学业成绩可以直接参考成绩单。但是,学生和父母的智力该如何测量呢?显然,智力并不是一个可以被直接观察到的东西,社会经济地位也无法直接观察到。这时,我们就需要运用“潜变量分析”,潜变量指的就是没有办法被观察到的变量。
潜变量分析能够帮助我们从一系列能够观察到的变量(比如学生解数学题的分数)中提取出潜变量(比如智力)的信息,所以在潜变量分析的加持下,“联立方程模型”进化成了“结构方程模型”(structural equation modeling)。关于潜变量分析我以后可能会花一篇文章再来细讲,但是基于上述,我们可以看到,结构方程模型可以被定义为:
有关一系列潜变量与可观察到的变量的联立方程建模。
2 结构方程模型与回归有什么联系?
大多数结构方程模型教材最令我痛苦的地方在于,这些教材似乎忘记了读者学过基础的统计,仿佛结构方程模型是读者们接受的第一个统计课,所以很少将其与基础的统计学方法和概念做嫁接。
我在最早学习结构方程模型的时候,就觉得结构方程模型(更准确地说,是联立方程模型)很像一个多段的线性回归模型,所以它和回归到底是否存在联系呢?
答案是肯定的,在线性回归中,我们所做的事情是缩小模型(也就是直线,或平面,或超平面)与实际数据点之间的距离(也就是残差)平方和。而在结构方程模型中,我们也是在缩小某个东西,只不过前面提过,现在的情境比较复杂,线性回归的方法将不再管用。在结构方程模型的情境下,我们做的是缩小理论协方差矩阵和观察到的协方差矩阵之间的差距。结构方程模型可以有很多不同的估计方法,很多估计方法的不同就是从对“差距”不同的数学定义切入的,我在下述将这类方法统称为“拟合协方差矩阵”的方法。
刚刚说的这段话可能有些抽象,比较有意思的是,线性回归也是可以通过这种拟合协方差矩阵的方法完成的,并且获得的结果和最小二乘法是相同的。为了帮助大家理解这个方法,我下面就来演示一下用“拟合协方差矩阵”的方法来估计回归模型中的参数。
假如我们有如下回归模型:
我们有X和Y两个变量,基于上述模型,我们可以计算理论的Y方差与X和Y的协方差,表示如下:
因此,我们可以构建如下的理论协方差矩阵:
而当我们收集到数据以后,我们可以基于数据分别计算观察到的方差与协方差,形成观察到的协方差矩阵如下:
我们假设模型成立,符合数据的情况,实际上就是在说理论协方差矩阵等于观察到的协方差矩阵:
为了让两个矩阵相等(或近似),我们首先需要用X的样本方差作为var(X)的估计值。
因此,我们自然可以得到beta_1的估计公式:
这个估计公式和我们用最小二乘法推导出来的完全一样!进一步地,我们还可以很轻松地获得残差方差的估计公式:
这个公式有点陌生,我们可以将它改写成更加熟悉的形式:
这个公式能够提醒我们在学习回归的时候学到的东西:r square代表了模型能够解释的Y变量的方差比例,而1-r square就代表了模型不能够解释的Y变量的方差比例,而残差方差即为模型不能够解释的Y变量的部分,它的方差正好对应了上式。这一认识进一步确认了我之前的想法:“拟合协方差矩阵”的方法和最小二乘法,在解决简单线性回归问题时是殊途同归的。
通过上述的例子,我们可以看到简单线性回归模型也是可以用“拟合协方差矩阵”去估计的,并且结果与最小二乘法获得的结果相同。我现在还没有把它放到多元回归的案例中进行验证,也没有对这个特点做更高程度的概括与总结,但是它无疑是帮助我们理解结构方程模型背后估计过程的一个切入点。