RCT常用:
单组的率CI,包含Agresti-coll,blaker,精确法,jeffreys,似然比,logit,中位数P,wald和wilson(两者的连续性校正)等方法。尤其注意样本量等于0的情况,需要weight zeros调整实现。
人时常用的单位是人年(person year),用观察人时作为分母计算发病率,因此发病密度有时也被称为人年发病率。对于发病率较低样本量很大的研究,二项分布近似Poisson分布。CI分为精确法和近似法。
crude率差CI包含Agresti-Caffo,精确,HA(要求各个总体的样本大于等于2),MN,Newcom,wald和wilson校正,haldane,jeffereys-perks,Mee,true profile,Mid P等方法。
只考虑分层的率差CI,包含CMH,逆方差,最小风险函数。
考虑定量和多个协变量的率差CI,包含基于logistic回归的delta法和bootstrap法。
RWS常用:
校正的率包含基于marginal standardization的逻辑回归(marginal standardization允许推断出从中提取数据的总人口。Prediction at the modes or means只允许推断到相关的观测层。),标化死亡比,Model based risk adjustment,adjusted binary outcome via logistic model,adjuested person-time rates via possion model,adjusted continuous outcome via generalized regression model,adjusted survival rates via cox model/fine gray model, model-based adjusted outcome via hierarchy model(adjusted binary outcome via hierarchical logistic model,adjusted person-time rates via hierarchical poisson model, adjusted continuous outcome via hierarchical generalized regression model)
校正的率差包含GEE,proc geomod (binominal identity,possion identity,normal identity,log binomial,log passion,logit binomial)。校正率差的计算方法,首推 binomial 或者 Poisson identity。如果模型不收敛,可以尝试 binomial logit (logistic) , log Poisson, 或者normal identity (linear)。
粗的OR的CI包含wald,wald modified,score,LR,exact,MIDP; 如果分母是0,需要waldmodified法。
粗的RR的CI包含wald,wald modified,score,LR,exact; 如果分母是0,需要waldmodified法,如果分子是0, wald法不适用。
校正的OR通过逻辑回归就可以得到。
校正的RR,包含CMH,logit二项式回归,带负截距的log二项式回归,possion回归,改良的possion,OR和RR转换,倾向性得分匹配,logistic回归边际概率和拔靴法,Cox回归,log binomial回归,zhang and Yu estimation, doubling of case method with robust SE,Austin estimation。
一般而言,数据结构本身可能导致应采用的方法估计调整后的RR。
如果没有收敛问题,我们可以只使用对数二项式模型来得到调整后的RR。但是,如果存在收敛问题,我们应该应用修正泊松回归。Petersen 和 Deddens 比较了对数二项式模型和修正泊松回归,发现 (1) 对于非常高的患病率和中等样本量,修正泊松方法产生的患病率估计比对数二项式方法的偏差估计较小;(2) 然而,对于中等患病率和中等样本量,对数二项式方法产生的偏差估计略低于修正泊松方法;(3)在几乎所有情况下,对数二项式方法产生的功率略高于修正泊松方法(Petersen & Deddens 2008).
如果计算时间不是问题,并且对数二项式和修正泊松回归模型都存在问题,那么我们可以使用Logistic回归模型或Cox比例风险回归模型获得调整后的RR。我们不仅能够获得 RR,还能够获得其他有意义的治疗效果衡量标准,例如绝对风险降低、RR 降低和需要治疗的数量(Austin 2010a; Austin 2010b)。
粗的OR和RR的一些置信区间老方法和新方法公式我们一起回顾一下。
OR:
Conditional Exact
比值比的条件精确置信区间是使用 Sahai 和 Khurshid (1995) 中给出的非中心超几何分布计算的。也就是说,通过搜索 ψL 和 ψU 找到 100(1 − α)%置信度区间,使得
如果样本量较大,不建议用。
Farrington and Manning’s Score
请看之前文章test statistic的介绍,Farrington和Manning(1990)建议反转他们的分数检验来找到置信区间。通过求解找到下限
Miettinen and Nurminen’s Score
同FM。
Iterated Method of Fleiss
Fleiss(1981)提出了比值比的改进置信区间。这种方法将置信区间形成为卡方假设检验不会拒绝的比值比的所有值,Fleiss 提供了以下有关如何构建此置信区间的详细信息。要计算下限,执行以下操作。
对于试验值 ψ,使用公式计算数量 X、Y、W、F、U 和 V
最后,使用下面的更新公式,使用更新公式计算比值比的新值
继续迭代,直到 F 的值任意接近于零。在 F 和 V 的公式中,用 +1/2 代替- 1/2来找到上限。可以使用上述过程的最后一次迭代中的预期计数 A、B、C 和 D 来计算相对风险的置信限。相对风险的下限
Mantel-Haenszel
比值比对数的常见估计值用于创建此估计值。那是
该估计器的标准误差是使用 Robins, Breslow, Greenland (1986) 估计器估计的,该估计器在大多数情况下表现良好。标准误差由下式给出
Simple, Simple + ½, and Logarithm
比值比的简单估计使用公式
该估计器的标准误差估计如下:
如果数量 a、b、c 或 d 中的任何一个为零,则会出现问题。为了纠正这个问题,许多作者建议在每个单元格计数中增加一半,这样就不会出现零。现在,公式变为
这些比值比的直接估计值的分布不会像它们的对数那样快速收敛到正态值,因此使用比值比的对数来形成置信区间。对数比值比的标准误差公式为
了解计算方法选择对计算样本量的影响是很有启发性的。在下表中,我们给出了每种方法的验证示例所需的样本量。
基于对比,simple方法是通常推荐的方法。
RR:
Farrington and Manning’s Score
略;参考上边。
Miettinen and Nurminen’s Score
略;参考上边。
Gart and Nam’s Score
略;参考上边。
Logarithm (Katz)
这是最早提出的用于计算风险比置信区间的方法之一。
有关详细信息,请参阅Gart and Nam (1988),第324页。
Logarithm (Walters)
有关详细信息,请参阅Gart and Nam (1988),第324页。
IIterated Method of Fleiss
略;参考上边。
了解计算方法选择对计算样本量的影响是很有启发性的。在下表中,我们给出了每种方法的验证示例所需的样本量。
从表中,我们注意到三个评分区间的样本量要求几乎相同。我们还注意到,O'Neill(1988)最初选择的方法,即Katz的对数算法,需要1,042个受试者。Fleiss 的方法基于比值比,需要额外的 4082 名受试者才能保持精度要求。
幸运的是,Gart 和 Nam 提出的方法就是今天(2020 年)通常推荐的方法。
参考文献:
Overestimation of risk ratios by odds ratios in trials and cohort studies: alternatives to logistic regression,Mirjam J Knol 1, Saskia Le Cessie, Ale Algra, Jan P Vandenbroucke, Rolf H H Groenwold,CMAJ. 2012 May 15;184(8):895-9. doi: 10.1503/cmaj.101715. Epub 2011 Dec 12.
Jiming Fang. Using SAS Procedures FREQ, GENMOD, LOGISTIC, and PHREG to Estimate Adjusted Relative Risks – A Case Study.SAS Global Forum 2011
Estimating predicted probabilities from logistic regression: different methods correspond to
different target populations,Clemma J Muller* and Richard F MacLehose,Int J Epidemiol. 2014 Jun;43(3):962-70. doi: 10.1093/ije/dyu029. Epub 2014 Mar 5.
Model-Based Risk-Adjustment in Clinical Outcome Research,Jiming Fang, Feng Qiu
O'Neill, Robert T. 1988. 'On Sample Sizes to Estimate the Protective Efficacy of a Vaccine'. Statistics in Medicine,Volume 7, Pages 1279-1288.
Farrington, C. P. and Manning, G. 1990. 'Test Statistics and Sample Size Formulae for Comparative Binomial Trials with Null Hypothesis of Non-Zero Risk Difference or Non-Unity Relative Risk.' Statistics in Medicine, Vol. 9, pages 1447-1454.
Fleiss, J. L., Levin, B., Paik, M.C. 2003. Statistical Methods for Rates and Proportions. Third Edition. John Wiley &Sons. New York.
Miettinen, O.S. and Nurminen, M. 1985. 'Comparative analysis of two rates.' Statistics in Medicine 4: 213-226.
Robbins, Breslow, and Greenland. 1986. 'Estimators of the Mantel-Haenszel Variance Consistent in both Sparse Data and Large-Strata Limiting Models.' Biometrics, Volume 42, 311-323.
Sahai, H. and Khurshid, A. 1995. Statistics in Epidemiology. CRC Press. Boca Raton, Florida.
Schlesselman, James. 1982. Case-Control Studies: Design, Conduct, Analysis. Oxford University Press. New York.
Gart, John J. and Nam, Jun-mo. 1988. 'Approximate Interval Estimation of the Ratio of Binomial Parameters: A Review and Corrections for Skewness.' Biometrics, Volume 44, 323-338.
Koopman, P. A. R. 1984. 'Confidence Intervals for the Ratio of Two Binomial Proportions.' Biometrics, Volume 40, Issue 2, 513-517.
Katz, D., Baptista, J., Azen, S. P., and Pike, M. C. 1978. 'Obtaining Confidence Intervals for the Risk Ratio in Cohort Studies.' Biometrics, Volume 34, 469-474.
Walter, S. D. 1976. 'The Distribution of Levin's Measure of Attributable Risk.' Biometrika, Volume 62, 371-375.