听说过逆概率加权吗?这方法听着就特别“高级”。在很多统计分析的场景下,好像都听到过这个“深奥”的方法,他能帮我们干点儿什么呢?今天我们就来画画它吧。
选择一个“亲切”的场景做例子:处理缺失数据中的逆概率加权方法。
临床研究,数据的完整性至关重要。从研究设计的时候其我们就为选择有代表性的研究对象反复的讨论最终确定入选排除标准,并且严格的执行他们确保我的研究对象能够体现我想说明的群体特征。
不过,在前瞻性的随访研究过程中,总会有些人在研究中不告而别或由于各种原因止于中途。所以陪伴我们完成整个研究的总是其中的一部分人。虽然,数据的缺失在前瞻性的研究过程中几乎不可避免,但是,这些没能获得研究信息的情况,会对我们分析结果的可靠性有影响吗?
可是这个“完美”的群体会不会因为其中一部分人的离去而损失代表性呢。当然很有可能啦,只要这种缺失和某种临床特征有关,比如非常容易理解:在治疗相关的研究中,疗效不好的个体一定比治疗效果好的人更有可能离开你“另寻佳途”。
除此之外,其实还有一个重要问题,样本规模的力量咱们都清楚,在确证性研究中样本量可是我针对验证目标算出来的必要规模,虽然估算过程我们通常会预设脱落的比例,但就这样离我而去势必影响检验效能,不觉得残忍吗?
所以,在随机对照试验研究中,病例脱落情况对于临床验证的循证能力具有重要的意义。通常情况,临床试验研究可接受的脱失比例需要控制在20%以内。当然,我们也不难理解,随访时间越长的研究,随访难度越高,病例流失的机会就越大,但同时,远期临床结局的获取对于认识临床规律更显得弥足珍贵。
但不管怎样,缺失数据难以避免,缺失数据不可以放任不管,需要妥善的处置策略:
首先,防范为上,研究设计阶段在科学性原则的基础上,需要在充分考虑可操作性与依从性,从根本上让高质量随访成为可能。
其次,执行过程当然要一直全神贯注,确保方案变成高质量的研究数据
最后,无论怎样的努力,缺失总在那里。拿到我们全力以赴才获得的数据,无论如何数据处理和分析过程我们总得做点什么,把缺失的影响尽可能拉低一点点。
想要对付缺失数据首先还得了解他们。从缺失机制上,我们把数据缺失分成了3个类型:完全随机缺失、随机缺失、非随机缺失。
完全随机缺失:缺失就是随机事件,缺失不依赖任何信息(每个人都有均等的机会中途离开;这个好,剩下的就是入组病例的随机样本,对代表性影响不大吧,可这样的缺失您见过吗
随机缺失:数据缺失与已经观测到的数据特征有关与未观测的数据无关,缺失概率依赖于已观测的数据。
非随机缺失:数据缺失的概率依赖于未观测的数据。
所以从缺失的机制看,我们能做工作的主要是随机缺失也就是这个缺失信息我们能够用已知信息推知的情况。
在缺失数据的处理中我们常用的处理方法有:逆概率加权法,似然函数法,填补法等等。这些方法都值得娓娓道来,不过今天我们先搞清楚这个逆概率加权法
面对研究中,中途离去的个体,如果他们缺失的概率与我们已经获得的信息有关(也就是前面提到的随机缺失),那我们就可以按照已知的特征来了解他们缺失的可能性了。这里我们姑且用“姿势”来“外化”这种与缺失有关的临床特征。
那么既然“叉腰人”完成随访的概率只有0.5,那么如果我们每观察到一个完成研究的“叉腰人”我们就赋予他两倍的权重,视同看到了两个人,这样一来我们就把“叉腰人”入组时原有的“份量”给“矫正”回来了吗。
这个方法妙啊,权重(2)是他们完成随访概率(0.5)的倒数(1/0.5=2),获得随访的概率越小权重就越高,反之亦然,
无论怎样都会把他们的体量都矫正回最初的样子。
这个与概率水平“反其道而行之”的方法就叫做逆概率加权。
这样一来,虽然我们加上去的权重并没有办法完全等同于所有病例都获得结果的情况,但与直接应用完成病例做分析的方式相比,我们总算是对群体的构成特征尽可能地做了纠正,让他更接近入组时的情况和代表性,或可裨益,有胜于无。
这似乎不难理解,但需要注意的是,这种依赖于已知信息的缺失概率计算其实并不会象识别叉腰和举手这样简单。特别是通常缺失情况可能与多个临床信息的综合作用有关,这个概率的求取就不像数人数这么简单了。
对多个因素的综合分析需要更多的努力,比如多变量Logistic回归经常就会被用来计算多个临床因素的综合概率。
Logistic回归之所以能担任这个任务,和Logit变换中引入了结局指标的概率密不可分。这不仅使Logistic回归广泛应用于临床危险因素分析的研究过程中。在计算获得随访的概率时,我们只要以是否完成随访为结局,以影响随访的临床因素们为自变量,就可以计算出依赖于这些临床因素的随访概率,再用这个概率实施逆概率加权就好了
逆概率加权在很多分析过程都有应用,另一个比较常用的场景是倾向性评分分析中的逆概率加权方法(这个还没想好怎么画,因为很可能权重不是整数,这个有点难为我),虽然服务于不同的领域,但它基本的思想是不变的。
同时必须注意的是,这个概率的获得是依赖已知信息的,所以这个概率的准确性需要建立在构建概率的因素们尽可能合理完备的基础上。毕竟学无止境,我们对自然规律的探索不会停止,或许我们永远不会 全面掌握导致失访的全部因素,但我们尽力而为就好,去了解一般规律。
审阅人:卢双老师,您辛苦了!