画说统计 | 逆概率加权方法-从缺失数据画起

学术 2024-12-26 20:15 浙江

听说过逆概率加权吗？这方法听着就特别“高级”。在很多统计分析的场景下，好像都听到过这个“深奥”的方法，他能帮我们干点儿什么呢？今天我们就来画画它吧。

选择一个“亲切”的场景做例子：处理缺失数据中的逆概率加权方法。

临床研究，数据的完整性至关重要。从研究设计的时候其我们就为选择有代表性的研究对象反复的讨论最终确定入选排除标准，并且严格的执行他们确保我的研究对象能够体现我想说明的群体特征。

不过，在前瞻性的随访研究过程中，总会有些人在研究中不告而别或由于各种原因止于中途。所以陪伴我们完成整个研究的总是其中的一部分人。虽然，数据的缺失在前瞻性的研究过程中几乎不可避免，但是，这些没能获得研究信息的情况，会对我们分析结果的可靠性有影响吗？

要知道，我们的研究对象是依据我们“殚精竭虑，缜密思考”才构建出来的入选排除标准，在实施程中严格执行，才好不容易获得的，尽可能具有代表性的样本群体。

可是这个“完美”的群体会不会因为其中一部分人的离去而损失代表性呢。当然很有可能啦，只要这种缺失和某种临床特征有关，比如非常容易理解：在治疗相关的研究中，疗效不好的个体一定比治疗效果好的人更有可能离开你“另寻佳途”。

除此之外，其实还有一个重要问题，样本规模的力量咱们都清楚，在确证性研究中样本量可是我针对验证目标算出来的必要规模，虽然估算过程我们通常会预设脱落的比例，但就这样离我而去势必影响检验效能，不觉得残忍吗？

所以，在随机对照试验研究中，病例脱落情况对于临床验证的循证能力具有重要的意义。通常情况，临床试验研究可接受的脱失比例需要控制在20%以内。当然，我们也不难理解，随访时间越长的研究，随访难度越高，病例流失的机会就越大，但同时，远期临床结局的获取对于认识临床规律更显得弥足珍贵。

但不管怎样，缺失数据难以避免，缺失数据不可以放任不管，需要妥善的处置策略：

首先，防范为上，研究设计阶段在科学性原则的基础上，需要在充分考虑可操作性与依从性，从根本上让高质量随访成为可能。

其次，执行过程当然要一直全神贯注，确保方案变成高质量的研究数据

最后，无论怎样的努力，缺失总在那里。拿到我们全力以赴才获得的数据，无论如何数据处理和分析过程我们总得做点什么，把缺失的影响尽可能拉低一点点。

想要对付缺失数据首先还得了解他们。从缺失机制上，我们把数据缺失分成了3个类型：完全随机缺失、随机缺失、非随机缺失。

完全随机缺失：缺失就是随机事件，缺失不依赖任何信息（每个人都有均等的机会中途离开；这个好，剩下的就是入组病例的随机样本，对代表性影响不大吧，可这样的缺失您见过吗

随机缺失：数据缺失与已经观测到的数据特征有关与未观测的数据无关，缺失概率依赖于已观测的数据。

非随机缺失：数据缺失的概率依赖于未观测的数据。

所以从缺失的机制看，我们能做工作的主要是随机缺失也就是这个缺失信息我们能够用已知信息推知的情况。

在缺失数据的处理中我们常用的处理方法有：逆概率加权法，似然函数法，填补法等等。这些方法都值得娓娓道来，不过今天我们先搞清楚这个逆概率加权法

面对研究中，中途离去的个体，如果他们缺失的概率与我们已经获得的信息有关（也就是前面提到的随机缺失），那我们就可以按照已知的特征来了解他们缺失的可能性了。这里我们姑且用“姿势”来“外化”这种与缺失有关的临床特征。

比如这种“叉腰式”的个体，只有一半人会完成随访研究，也就是叉腰者完成随访的概率为0.5，这显然严重削弱了“叉腰人”在完成远期随访的研究群体中本该占据的“份量”，样本代表性也因此受损。

那么既然“叉腰人”完成随访的概率只有0.5，那么如果我们每观察到一个完成研究的“叉腰人”我们就赋予他两倍的权重，视同看到了两个人，这样一来我们就把“叉腰人”入组时原有的“份量”给“矫正”回来了吗。

这个方法妙啊，权重（2）是他们完成随访概率（0.5）的倒数（1/0.5=2），获得随访的概率越小权重就越高，反之亦然，

无论怎样都会把他们的体量都矫正回最初的样子。

这个与概率水平“反其道而行之”的方法就叫做逆概率加权。

这样一来，虽然我们加上去的权重并没有办法完全等同于所有病例都获得结果的情况，但与直接应用完成病例做分析的方式相比，我们总算是对群体的构成特征尽可能地做了纠正，让他更接近入组时的情况和代表性，或可裨益，有胜于无。

这似乎不难理解，但需要注意的是，这种依赖于已知信息的缺失概率计算其实并不会象识别叉腰和举手这样简单。特别是通常缺失情况可能与多个临床信息的综合作用有关，这个概率的求取就不像数人数这么简单了。

对多个因素的综合分析需要更多的努力，比如多变量Logistic回归经常就会被用来计算多个临床因素的综合概率。

Logistic回归之所以能担任这个任务，和Logit变换中引入了结局指标的概率密不可分。这不仅使Logistic回归广泛应用于临床危险因素分析的研究过程中。在计算获得随访的概率时，我们只要以是否完成随访为结局，以影响随访的临床因素们为自变量，就可以计算出依赖于这些临床因素的随访概率，再用这个概率实施逆概率加权就好了

逆概率加权在很多分析过程都有应用，另一个比较常用的场景是倾向性评分分析中的逆概率加权方法（这个还没想好怎么画，因为很可能权重不是整数，这个有点难为我），虽然服务于不同的领域，但它基本的思想是不变的。

同时必须注意的是，这个概率的获得是依赖已知信息的，所以这个概率的准确性需要建立在构建概率的因素们尽可能合理完备的基础上。毕竟学无止境，我们对自然规律的探索不会停止，或许我们永远不会全面掌握导致失访的全部因素，但我们尽力而为就好，去了解一般规律。

审阅人：卢双老师，您辛苦了！

不正经病案人

传播交流病案管理，病案统计经验，广交天下同行，一起学习，一起进步。

最新文章

画说统计 | 逆概率加权方法-从缺失数据画起

医生必看：2025年1月1日开始，呼吸机这么入医保DRG组！遗漏重要信息将损失惨重……

ZJ—DRG的MDCR特有内涵分组列表分享

浙江省医疗保障疾病诊断相关分组（ZJ-DRG）相关术语

诊断编码乳腺原位癌与乳腺导管原位癌：RW差异惊人！

腮腺切除是否要附加填报“面神经解剖/减压术”,DRG入组方向大不同！

基于决策树模型的不同放疗方式对住院费用影响因素分析

CHS-DRG本土版抢先看：浙江版与国家版的对比

官方：浙江省医疗保障局关于印发浙江省医疗保障疾病诊断相关分组（ZJ—DRG）分组方案（2.0版）的通知

提升肿瘤内科CMI的策略：通过DRG分组规则的编码优化

乳腺癌内分泌治疗和化学治疗的RW，你高？我高？大家高才是真的高！

DRG/DIP2.0即将启用，这些编码将不能做DRG主诊断编码！

经皮甲状腺病损消融术：RW从0.44变成了1.40，是焉非焉？

机械通气这么填才能入先期分组，权重(RW)个个顶呱呱!

PPT播放倒计时小工具

临床诊断与病理诊断不一致怎么办？

探讨交流：纵隔病损切除术还是胸腺病损切除术？

探讨交流：纵隔恶性肿瘤的诊断编码

关于Z53编码的实际应用分析

不正经病案人AI小助手使用总结

郑重声明！！！

宝藏手册系列——骨科

肿瘤部位编码中“#”号是干嘛的

聊一聊WPS比office贴心的小功能

ERCP内镜下的手术编码解析

日间抗肿瘤药物治疗的统计实操

又到金桂飘香时

日间抗肿瘤药物治疗的定义

日间手术的定义与在Excel里面的统计方法

【转载】化疗诊断和手术操作编码

数据透视表日期按月份分组排序乱了怎么办，自定义序列来帮忙

很严重了，我劝大家极限存钱吧...

啥是相对引用？啥是绝对引用？

内镜操作的编码介绍

恶性肿瘤个人史 or 恶性肿瘤投票结果

看过《三体》，你就能理解DRG实施过程中的高靠行为和点值缩水现象了

恶性肿瘤个人史 or 恶性肿瘤？该怎么选？

国卫办医政发〔2024〕16号|门诊信息页规范

“$”除了是美元符号，还是啥？

病案人，不是在学习，就是在学习的路上

皮肤和皮下组织手术编码要点

Excel查看数据，标题消失怎么办？冻结窗格方便查看校对数据

一句话证明我是病案人

谈一谈病案统计工作中的总体和样本

腋窝恶性肿瘤还是躯干皮肤恶性肿瘤？

AI小助手骚扰指南

非计划再入院的统计指标小议

歧义病案就是违背编码原则吗？主要诊断和主要手术选择一定要避开歧义病案吗？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉