重温Mixed model和Repeated measure的理论基础

2024-03-04 12:05   上海  


01


Mixed Models(Simulation) 



对结果(响应)连续的随机效应设计进行描述。与方差分析 (ANOVA) 一样,该过程用于检验比较各种组均值的假设。与方差分析不同,此过程放宽了对组方差的严格假设。随机效应模型通常用于分析纵向(重复测量)数据。      

 

在介绍Mixed Models之前,我们复习一下one-way repeated measures design;单变量(F 检验和带 Geisser-Greenhouse 校正的 F 检验和Huynh Feldth和Box)和多变量(Wilks λ、Pillai-Bartlett 迹和 Hotelling-Lawley 迹)方法的可以计算one-way repeated measures design的Power;当数据分析使用传统的 F 检验时,必须对误差方差的结构做出额外的假设。当这些假设不成立时,Geisser-Greenhouse 校正会提供合理的调整,以便显著性水平准确。将 F 检验用于重复测量设计的替代方法是使用多变量Approximate F Test:Wilks 的 lambda、Pillai-Bartlett 轨迹或 Hotelling-Lawley 轨迹。这些备选方案很有吸引力,因为它们没有对方差-协方差矩阵的结构做出严格的、通常是不切实际的假设。不幸的是,它们的功效可能低于 F 检验,并且不能在所有情况下使用;协方差矩阵类型:所有 ρ 的相等矩阵(Compound Symmetry)和 AR(1)、Banded(1) 和Banded(2)。其中autocorrelation structure包含Constant(Compound Symmetry),AR(1),LEAR (linear exponent autoregressive),Banded,Unstructured。    

             

 

    

 

       

 

Types of Linear Mixed Models

存在几种线性混合模型子类型,其特征是它们涉及的随机效应、固定效应和协方差结构。这些模型包括固定效应模型、随机效应模型和协方差模式模型

Fixed Effects Models

固定效应模型是模型中仅包含固定效应的模型。如果研究中的水平代表了因子的所有兴趣水平,或者至少代表了对推理很重要的所有水平(例如,治疗、剂量等),则效应(或因子)是固定的。不存在随机分量。一般线性模型是固定效应模型。固定效应模型可以包括交互作用。可以使用 F 检验对固定效应进行估计和检验,模型中的固定效应包括估计均值、标准误差和置信度的区间,并执行假设检验。其他需要调整模型的变量(对估计或假设检验不重要的变量)也可以作为固定因子包含在模型中。

Random Effects Models

随机效应模型包括模型中的固定项和随机项。      

 

如果效应(或因子)的水平代表较大水平组(例如患者)的随机子集,则效应(或因子)是随机的。随机效应未经过检验,但已包含以使模型更逼真。

Longitudinal Data Models

当对研究中的每个受试者测量多个响应时,就会产生纵向数据

响应通常在固定时间点随时间推移进行测量。如果时间点是预先指定的,则该时间点是固定的。可以使用各种方差矩阵结构来模拟重复测量之间的方差和相关性。

Types of Factors

Between-Subject Factors

受试者间因素是将实验对象分成几组的因素。如果将 12 名受试者随机分配到三个治疗组(每组 4 名受试者),则治疗是受试者之间的因素。

Within-Subject Factors

受试者内因素是指在多个时间点对同一受试者进行反应测量的因素。受试者内因素是指在同一受试者上测量多个因素水平的因素。如果每个受试者在治疗的低、中、高水平下进行测量,则治疗是受试者内因素。         

 

在一般线性模型 (GLM) 中,抽取个体的随机样本。对每个人进行治疗,并测量结果。使用包含 F 检验的方差分析表对获得的数据进行分析。        

 

可以制定一个数学模型,作为每个方差分析的基础。该模型将响应变量表示为总体参数和残差之和。例如,双因素实验的常见线性模型是

在此示例中,线性模型仅由固定效应组成。如果研究中的水平代表感兴趣的因子的所有水平,或者至少代表对推理很重要的所有水平(例如,治疗、剂量等),则效果是固定的。

在一般线性模型中使用 F 检验时,应做出以下假设。

1.响应变量是连续的。


2.个人是独立的。


3.eijk 服从均值等于零的正态概率分布。


4.对于 i、j 和 k 的所有值,eijk 的方差都相等。


The Linear Mixed Model (LMM)

线性混合模型 (LMM) 是一般线性模型的自然扩展。混合模型通过允许添加随机效应来扩展线性模型,其中因子的水平表示所有可能水平(例如,给药时间、诊所等)的更大组的随机子集。例如,上面的双因素线性模型可以增强为包括随机效应,例如对

每个患者的调整,因为可以假设患者是从患者分布中随机实现的。矩阵符号中混合模型的一般形式是

如上所述,y 的方差为 V = ZGZ' + R。在这个PASS混合模型模块中,ZGZ'被称为随机分量,R被称为残差分量。由于 V 是块对角线(每个受试者一个块),因此通过指定一个受试者的随机分量和残差分量并重复每个受试者的这些分量来指定它。

ZGZ' + R

Individual Subject Formulation

由于混合模型分析中涉及的矩阵的大小,因此通过一次分析一个受试者的数据来降低问题的维数对于计算目的很有用。由于来自不同受试者的数据在统计上是独立的,因此可以根据以下公式将数据的对数似然相加受试者。在研究似然函数之前,我们先研究一下特定受试者的线性混合模型:

在 LMM 中使用 F 检验时,会做出以下假设。

1.响应变量是连续的。

2.个人是独立的。

3.响应遵循均值等于零的正态概率分布,方差V给出的结构         

 

LMM的一个明显(可以说是最重要的)优势是随机误差和随机效应方差分量建模的灵活性(请注意,GLM的等方差假设对于LMM不是必需的)。LMM 允许您通过为您和ε指定协方差矩阵结构来模拟观测值之间的异构方差和相关性。方差矩阵估计值是使用最大似然 (ML) 或更常见的是受限最大似然(REML) 获得的。混合模型中的固定效应使用 F 检验进行检验。

Structure of the Variance-Covariance Matrix

The G Matrix         

 

G 矩阵是随机效应 u 的方差-协方差矩阵。通常,当使用 G 矩阵指定 y 的方差-协方差结构时,R 的结构就是 σ2。当 G 和 R 都被指定为复杂结构时,应谨慎使用,因为可能会导致大量有时冗余的协方差元素。

The R Matrix

R 矩阵是误差的方差-协方差矩阵,ε。当使用 R 矩阵指定 y 的方差-协方差结构时,不使用 Gsub 矩阵。

如果预计 a 受试者间因子组的方差-协方差参数不同,则可以为每组指定一组不同的 R 或 G 参数。这将产生一组方差-协方差参数,该参数对于所选组变量的每个级别都不同,但

每个组具有相同的结构。

Likelihood Formulas

在混合模型估计中,通常考虑两种类型的似然估计方法:最大似然(ML)和受限最大似然(REML)。REML通常比ML更受青睐,因为使用REML的方差估计对于小样本量是无偏的,而ML估计只是渐近无偏的(参见Littell等人,2006或Demidenko,2004)。这两种估计方法在PASS中都可用。

Maximum Likelihood         

 

         

 

Restricted Maximum Likelihood

Estimating and Testing Fixed Effects Parameters

L Matrix Details

L 矩阵指定与感兴趣的均值或假设检验相对应的β的线性组合。从本质上讲,L 矩阵定义了均值或检验。每个 L 矩阵中的列数与 β 的元素数相同。为了估计特定的平均值,L 矩阵由一行组成。对于假设检验,L 的行数因检验而异。以下是常见分析中出现的 L矩阵的一些示例:

Kenward and Roger Fixed Effects Hypothesis Tests

Solution Algorithms

混合模型过程中有四种技术可用于确定最大似然解或受限最大似然解(最优):Newton-Raphson、Fisher 评分、MIVQUE 和差分进化。

Newton-Raphson、Fisher 评分和差分进化技术的一般步骤是(设 θ 为整体协方差参数向量):

1.根据每个结构的指定结构粗略估计 θ.

2.根据数据和 θ 的估计值评估模型的可能性.

3.使用搜索算法改进 θ 的估计值。改进被定义为可能性的增加

4.根据一些收敛标准进行迭代,直到达到最大似然值β。

Newton-Raphson and Fisher Scoring

MIVQUE

Differential Evolution

    

02


Tests for Two Means in a Multicenter Randomized Design



对于Tests for Two Means in a Multicenter Randomized Design,估计样本量如下:        

 

具有连续结果的多中心设计中,从中心群体中随机选择多个中心(例如,医院或诊所)然后将每个中心的受试者随机分配到两种治疗中的任何一种,使用混合效应模型分析数据,该模型包括固定治疗效应和随机中心效应。感兴趣的检验是治疗效果的 F 检验。这是对没有治疗效果的假设的双侧检验。请注意,中心治疗的相互作用不包括在该模型中,尽管它可能在二次分析中。

Technical Details

Example – Calculating Sample Size

Suppose that a study is to be conducted in which alpha = 0.05; power = 0.90; mean difference = 0.1, 0.2, o0.3; σ = 1.0; and ρ = 0.1. Sample size is to be solved for.

第一步:参数录入

第二步:结果输出


03


Pairwise Contrasts of Fixed Effects in Mixed Models



该模块计算在重复测量设计中测试两个比例之间的时间平均差 (TAD) 的功效。重复测量设计是指随着时间的推移反复观察受试者。可以按预定的时间间隔(例如,每周或在特定时间点在给予特定治疗后)进行测量,也可以在随机时间进行,在重复测量之间具有可变间隔。        

 

当要测量的结果随时间变化时,通常使用这种类型的时间平均差异分析。例如,假设您要根据某个二元反应变量(例如疾病的存在(或不存在)来比较两个治疗组。疾病状态可能会随时间而变化,取决于与治疗无关的各种因素。通过对每个人进行多次测量并比较两组之间比例的时间平均差异来提高实验的精度。在分析中必须小心,因为当从同一个人身上进行多次测量时,会引入相关性。协方差结构可以根据实验的性质和所涉及的受试者采取多种形式。此过程允许您使用四种不同的协方差模式计算样本数量和功效:复合对称性、AR(1)、带状(1)和简单。        

 

此过程可用于计算重复测量数据的混合模型分析中成对对比度检验的样本数量和功效。重复测量数据的混合模型分析也被采用在协方差规范方面提供更大的灵活性,并在存在缺失数据的情况下提供更大程度的鲁棒性,前提是可以假设数据是随机缺失的。

Technical Details

Two Test Statistics

Testing the Time-Averaged Difference between Two Proportions

Theory and Notation

Model Estimation

Hypothesis Test

Power Calculations

        

 

Mixed Models Theory and Notation

Mixed Models Estimation

Take home message:

1.对于定量资料Mixed Models,重复测量likelihood type,推荐用REML;“最大似然ML”解决方案已经变得不那么流行了。REML(推荐) 通常建议使用“受限最大似然”解决方案。这是其他软件程序(如 SAS)中的默认设置。

2.对于定量资料Mixed Models,指定用于求解似然likelihood方程的方法求解方法如下:      

 

·Newton-Raphson

This is an implementation of the popular "gradient search" procedure for maximizing the likelihood equations. Whenever possible, we recommend that you use this method.         

 

·Fisher Scoring

This is an intermediate step in the Newton-Raphson procedure. However, when the Newton-Raphson fails to converge, you may want to stop with this procedure.         

 

·MIVQUE

This non-iterative method is used to provide starting values for the Newton-Raphson method. For large problems, you may want to investigate the model using this method since it is much faster.      

 

·Differential Evolution:

This grid search technique will often find a solution when the other methods fail to converge. However, it is painfully slow--often requiring hours to converge--and so should only be used as a last resort.         

 

3.对于定量资料Mixed Models,G和R的选择如下:


Include G

 Specify whether to include G (the variance of the random effects u) in the model.     

 

·Not Checked

Do not include G in the model, that is, all elements of G are zero. The V(Y) is specified using only R.     

 

·Checked

Use the diagonal matrix G in the computation of V(Y). The diagonal elements of G are all set to g. If a "Grouping Factor" is selected, the elements of G are set to the corresponding values in g.         

 

·g (Subject σ²) 

This is used as the diagonal elements of G. It is the variance of a subject (random effect). The value is usually obtained from a previous run of similar data through a mixed model.       

 

Since the value is a variance, it must be positive.         

 

Specify R Using 

Specify which terms are used in the formation of R, the residual variance matrix.     

 

·Variances Only

Only diagonal (residual variance) elements are used in R (no autocorrelations).      

 

·Variances and Autocorrelations

R includes both diagonal (variance) and off-diagonal (autocorrelation) elements. diagonal (variance) Possible choices are:Constant in σ² for R and Set of σ² for R values proportional to Times and Variance List,off-diagonal (autocorrelation) Possible choices are: Constant in ρ and 1st Order: ρ, ρ², ρ³, .. and ρ List.         

 

G Estimation:

Specify whether to include G (random effects) in the fitted model. Possible choices are        

 

·None

Do not include G in the fitted model.       

 

·Random Effects

Add G to the fitted model. In this case, R should be set to "Diagonal" (which does not include autocorrelations).         

 

R Estimation 

Specify the type of R matrix (Residual Variance) to be generated. The default type for random effects models is the "Diagonal" matrix.         

 

Note

When G is included in the model, this option should be set to "Diagonal".         

 

A brief summary of the various structures follows. For more information, see the PASS help documentation.         

 

ρ = Correlation

ρi = ith Correlation

ρij = correlation between ith and jth time points

σi² = σ² for ith time point         

 

·Diagonal

|1 0 0 0|

|0 1 0 0|

|0 0 1 0| σ²

|0 0 0 1|         

 

·Compound Symmetry

|1 ρ ρ ρ|

|ρ 1 ρ ρ|

|ρ ρ 1 ρ| σ²

|ρ ρ ρ 1|         

 

·AR(1)

|1   ρ  ρ² ρ³|

|ρ   1  ρ   ρ²|

|ρ²  ρ  1   ρ | σ²

|ρ³  ρ² ρ   1 |         

 

·Toeplitz(i)

e.g., Toeplitz(3) =

|1  ρ1 ρ2 0  |

|ρ1 1  ρ1 ρ2|

|ρ2 ρ1 1  ρ1| σ²

|0  ρ2 ρ1 1  |         

 

·Banded(i)

e.g., Banded(2) =

|1 ρ 0 0|

|ρ 1 ρ 0|

|0 ρ 1 ρ| σ²

|0 0 ρ 1|         

 

·Unstructured

|1    ρ12 ρ13 ρ14|

|ρ12 1    ρ23 ρ24|

|ρ13 ρ23 1    ρ34| σ²

|ρ14 ρ24 ρ34 1   |        

 

·Heterogeneous covariance structures allow for nonconstant values for σ².

e.g., Diagonal - Heterogeneous =

|σ1² 0   0  0 |

|0  σ2²  0  0 |

|0   0  σ3² 0 |

|0   0   0 σ4²|         

 

4.对于重复测量定量资料, Covariance Type的选择如下:


·Compound Symmetry

All variances on the diagonal of the within-subject variance-covariance matrix are equal to Sigma^2, and all covariances are equal to R*Sigma^2.         

 

·AR(1)

All variances on the diagonal of the within-subject variance-covariance matrix are equal to Sigma^2, and the covariance between observations t time periods apart is (R^t)*(Sigma^2).        

 

·Banded(1)

All variances on the diagonal of the within-subject variance-covariance matrix are equal to Sigma^2, and the covariance between observations one time period apart is R*(Sigma^2). Covariances between observations more than one time period apart are equal to zero.        

 

·Simple

All variances are equal to Sigma^2, and all covariances are equal to zero.         

 

Sigma (Std Dev of a Single Observation)

Enter a value for the standard deviation of a single observation. This standard deviation is assumed to be equal for the two groups. Range:Sigma > 0         

 

Rho (Autocorrelation) 

Enter a value for the correlation between observations on the same subject. When no previous estimate of the within-patient correlation is available, you should use a conservative prediction of the correlation, i.e., a correlation that is higher than anticipated. Range-1 ≤ Rho ≤ 1.

5.对于重复测量定性资料,Covariance Type区别是少了Sigma(Std Dev of a Signle Observation)    

 

 

    

 

6.单变量(F 检验和带 Geisser-Greenhouse 校正的 F 检验和Huynh Feldth和Box)和多变量(Wilks λ、Pillai-Bartlett 迹和 Hotelling-Lawley 迹)方法的可以计算one-way repeated measures design的Power;当数据分析使用传统的 F 检验时,必须对误差方差的结构做出额外的假设。当这些假设不成立时,Geisser-Greenhouse 校正会提供合理的调整,以便显著性水平准确。将 F 检验用于重复测量设计的替代方法是使用多变量Approximate F Test:Wilks 的 lambda、Pillai-Bartlett 轨迹或 Hotelling-Lawley 轨迹。这些备选方案很有吸引力,因为它们没有对方差-协方差矩阵的结构做出严格的、通常是不切实际的假设。不幸的是,它们的功效可能低于 F 检验,并且不能在所有情况下使用;

指定用于定义方差-协方差矩阵的方法如下:         

 

Constant σ and ρ

Specify a constant standard deviation and autocorrelation from which the variance-covariance matrix is constructed. This option must be used when you want results for the univariate F-test.

1.σ (Std Deviation) 

This is the between subject standard deviation of the response variable (Y) at a particular time point. It is assumed to be the same for all time points. As a standard deviation, the number(s) must be greater than zero.       

 

This represents the variability from subject to subject that occurs when the subjects are treated identically.         

 

2.Pattern of ρ's Across Time

 Specify the correlation structure of the covariance matrix. The number of diagonal elements in the matrix is equal to M.         

 

2.1 All ρ's Equal

ρ is used as the correlation for all off-diagonal elements of the matrix. This matrix pattern is called compound symmetry. The correlation matrix for a four-level factor looks like this:

1 ρ ρ ρ

ρ 1 ρ ρ

ρ ρ 1 ρ

ρ ρ ρ 1

2.2 AR(1)

ρ is used to generate a first order autocorrelation pattern. This pattern reduces the autocorrelation at each successive step by multiplying the value at the last step by ρ. The times (or locations) are assumed to be equi-spaced. An AR(1) autocorrelation matrix for a four-level factor looks like this:

1  ρ  ρ² ρ³

ρ  1  ρ  ρ²

ρ² ρ  1  ρ

ρ³ ρ² ρ  1         

 

2.3 Banded(1)

This is similar to all ρ's equal, except that all elements are set to zero after the first off-diagonal element.

|1 ρ 0 0|

|ρ 1 ρ 0|

|0 ρ 1 ρ|

|0 0 ρ 1|         

 

2.4 Banded(2)

This is similar to all ρ's equal, except that all elements are set to zero after the second off-diagonal element.

|1 ρ ρ 0|

|ρ 1 ρ ρ|

|ρ ρ 1 ρ|

|0 ρ ρ 1|         

 

Non-Constant σ's and ρ's

This option generates a variance-covariance matrix based on the settings for the standard deviations (σ's) and the autocorrelations.其中autocorrelation structure包含Constant(Compound Symmetry or All ρ's Equa),AR(1),LEAR (linear exponent autoregressive),Banded,Unstructured.         

 

7.资料的多中心设计中,从中心群体中随机选择多个中心(例如,医院或诊所)然后将每个中心的受试者随机分配到两种治疗中的任何一种,使用混合效应模型分析数据,该模型包括固定治疗效应和随机中心效应。感兴趣的检验是治疗效果的 F 检验。这是对没有治疗效果的假设的双侧检验。请注意,中心治疗的相互作用不包括在该模型中,尽管它可能在二次分析中。

         

 

参考文献:

PASS说明书                 

 

流行病学与卫生统计学
Pivot数据交流平台,每周分享临床试验研究设计、实施、统计等相关信息。
 最新文章