1 问题的背景
元分析(Meta-analysis)是各个研究领域都会用到的一种研究方法,国内也有人将其翻译为“荟萃分析”。根据我所知道的,元分析最早在药物类的临床试验中得到发展。由于药物疗效在不同的临床试次中往往存在波动,元分析能够把多次实验的结果汇总起来,给出一个更加有信服力的证据。
因此,在元分析中,我们会收集或计算多个相似研究的效应量(Effect sizes),这些效应量被用来表示单个研究操纵/药物的效果(见图1)。为了能够将多个研究的结果合并为更加具有信服力的单一结果,这时,我们就需要将这些个体研究的效应量合并(Pool)起来。
【图1】
我们该如何解决这个问题呢?任何高级的研究方法都具有一个最简单的想法和雏形。针对这个问题,一个初中生可能会给到你一个最简单的想法:将所有研究的效应量取平均数后,就能得到我们想要的“汇合效应量”(Pooled Effect size)。
这个简单的方法有什么问题呢?相信下述的问题大多数读者都可以想到:在纳入元分析的多个研究中,各个研究所拥有的样本量并不相同,如果我们通过简单的求平均的方法来计算汇合效应量,其实就相当于给每个不同样本量的研究赋予了同等的重要性。因此,仅需要简单的质疑,我们就可以看到这种做法的局限性。
为了回应这一质疑,固定效应模型陈述了它背后的假设,以及具体的解决方案。
2 固定效应模型(Fixed-effects Model)
任何统计方法都会假设一些东西,或者说仅适用于一些具有特定情境的问题。固定效应模型也是如此,它的假设隐含在我们使用此模型的目的之中。
首先,我们的目的是计算出一个合并了所有研究信息的效应量,用这个效应量去代表某种实验操纵的效果,因此,我们也就顺带假设了这一实验操纵具有那么一个“真实的,唯一的”效应量,也就是在元分析中常说的“true effect size”,这是固定效应模型最直接,也最简单的一个假设。
既然我们假设了关注的实验操纵具有这么一个true effect size,接下来就需要解释为何我们不同研究中可以观察到多个不同的效应量。固定效应模型的答案十分简单直观的:因为单个研究抽取的样本量有限,无法穷尽总体中的所有个体,所以当使用单个研究的效应量来表示true effect size时,必然伴随着抽样误差(Sampling error)。这一抽样误差其实对应了我们在基础统计学中学习的“标准误”的概念。因此,我们有理由期待这一误差将和标准误一样,随着研究纳入样本量的增大而减少,图2直观地反映了这一趋势:
【图2:沿y轴,由上至下,标准误逐渐增大,由于样本量是标准误计算公式的分母,也就逐渐减小;随着样本量的减小,个体研究的效应量分布也逐渐趋向离散,意味着抽样误差增大】
基于这一叙述,我们可以构建如下的,true effect size与个体研究效应量的等式关系:
【公式1:等号左边为个体研究的效应量,它等于真实/总体效应量加上抽样误差】
刚刚提到,个体研究纳入样本量越小,其抽样误差/标准误越大。因此我们可以推导出,小样本量的研究效应量对于true effect size的代表性就更差,或者说它们的“发言权”更小,也就应该在计算最终的汇合效应量时,给予其更小的权重。基于这一思想,固定效应模型在合并效应量时,基于标准误这一指标,给每个研究分配了相应的权重,这一权重指标可以通过以下公式来表达:
【公式2:Sk即为标准误】
最终的汇合效应量就可以依据这个权重进行加权平均来计算:
【公式3】
如上,就是对固定效应模型的基本阐述。实际上,固定效应模型存在明显的局限性:稍微做过或接触过一些研究的人,都会很清楚,即使是处理相同的问题,不同研究之间所存在的差异仍旧会很大。比如,最直接的,这两个研究的实施地可能天南地北,一个在美国,一个在中国。这时,这两个研究调查的总体实际上就已经不同了,那么这时候就不存在一个固定效应模型中所说的,“唯一的”true effect size了!
进一步地,每个研究者在具体进行实验时,他们的研究设计有可能不同,他们具体主持实验的手活儿也有可能不同……因此,有很多的原因会造成研究间的异质性(Between-study heterogeneity)。所以,假设所有纳入研究存在一个唯一的true effect size并且去估计它是不现实的。因此,学者们提出了更加改良的“随机效应模型”。
4 随机效应模型的可视化阐述
随机效应模型在统计学中的本质是多层线性模型(Multilevel linear model),学过多层线性模型的读者肯定也见过random effects以及fixed effects这类术语,而随机效应模型这一名词即脱胎于这一术语。想要从底层学习多层线性模型/随机效应模型的知识并不容易,而接下来我会通过可视化的方法浅显易懂地呈现随机效应模型到底在干什么。
首先,前述提到固定效应模型假设唯一的true effect size并不靠谱。因此,随机效应模型认为,true effect size并不是唯一的,由于每个研究基于的受试群体,研究设计,研究人员,研究环境等等都有可能不同,所以随机效应模型假设每个研究都有一个“专属的”。我们可以把这一true effect size直观地理解为在理想情况下(也就是这个研究穷尽了受试群体中的所有个体),这一研究将会获得的效应量。图3可视化地描述了这一过程:
【图3:根据多个个体的数据,我们可以获得某个研究的实际效应量,这一实际效应量服从于以实验基于的总体的真实效应量为均数的正态分布】
针对Study 1,我们观察到的是该研究的效应量,进一步地,我们可以通过统计方法去估计它的true effect size及其所对应的正态分布。而观察到的效应量与每个研究个体的true effect size的差距即为抽样误差。由此,我们可以构建出我们的第一个等式/方程关系:
【公式4:这一公式实际上和固定效应模型中的公式1基本相同,只不过右边的真实效应量右下角加了角标k,也就意味着每个研究都有自己对应的真实效应量】
至此,通过上述的模型以及公式,我们已经获得了很多个研究它们背后的true effect sizes,但在具体的元分析中,我们往往只想用一个指标来总结诸多研究的结果。随机效应模型将会根据这一组true effect sizes,进一步地估计出一个有关这组true effect sizes的正态分布,然后取这一分布的均值,来作为模型最后的输出结果(见图4)。
【图4:注意,上述Level 2中用来形成分布的效应量为真实效应量,而非个体研究的效应量】
在这一过程中,我们也可以构建如下的第二个等式/方程关系:
【公式5】
5 总结-固定/随机效应模型的多层线性模型本质
综上所述,固定效应模型认为所有研究背后存在一个唯一的真实效应量,因此我们可以直接对所有研究进行合并的,我们可以看到,固定效应模型的逻辑是“单层的”。而随机效应模型认为,每个研究由于研究的情境,设计,操作人员都不尽相同,所以它们各自具有不同的true effect sizes,倘若我们想要通过一个指标来表示所有研究的整体情况,我们需要先计算每个个体研究的真实效应量,再用这多个真实效应量形成的正态分布的均值来表示所有研究的整体情况。所以,随机效应模型的逻辑是“双层的”。
文中的公式、抽样误差图取自meta-analysis in R教材。如果大家对这篇文章中的内容有任何的疑问,也欢迎各位在评论区与我讨论~