对于临床数据缺失，顶级论文是如何处理的？|文献解读

企业教育 2024-10-17 20:03 湖北

大家好，今天咱们来聊一聊做临床研究100%会遇到的问题：数据缺失。

不管是前瞻性研究，还是回顾性研究，我们始终都绕不开数据缺失，那么遇到之后我们应该怎么处理呢？是直接删除，保留不缺失的，还是进行插补？插补之后SCI认可吗？

我们还是用真实的SCI文章，带大家看看是怎么处理的。这篇文章发表在NEJM（IF 96.2），题目是：“Restrictive or Liberal Transfusion Strategy in Myocardial Infarction and Anemia”（中文名：心肌梗死和贫血的限制性或宽松性输血策略），旨在确定对于急性心肌梗死和贫血患者，限制性输血策略（血红蛋白阈值为每分升7至8克）和宽松输血策略（血红蛋白阈值为每分升<10克）之间30天内死亡或心肌梗死的风险是否不同。

数据缺失与插补

在具体分析这篇文章之前，先让我们对这篇文章数据缺失的应对方法进行说明，以便各位小伙伴有一个全面的了解。

在处理缺失数据时，通常有三种策略可供选择：

1.选择删除含有缺失值的数据
2.选择进行数据插补
3.使用敏感性分析，对比删除或插补前后的的结论

鉴于每一份临床数据都是极其宝贵的资源，我们更倾向于尽可能地充分利用这些数据。因此，采用恰当的数据插补方法成为了实现这一目标的理想选择。这种方法不仅能够保留数据的完整性，还能提高分析的准确性和可靠性。

这篇文章采用了多重插补的方式。多重插补是目前使用最广泛的填补方法之一，通过模拟生成一个缺失数据的随机分布，而后从中随机抽取数据作为缺失值的填补。

本文在附录和protocol中详细阐述了其多重插补方法。主要运用的原理是Markov Chain Monte Carlo (MCMC)多重插补法。用于插补随访中退出或缺失患者主要结局数据。

具体方法是：使用二项回归回归模型来估计结局与拥有完整数据参与者的关键变量之间的关系。用于预测缺失30天结果的参与者的结果概率，创建十个插补数据集。将对每个插补数据集估计具有随机效应的对数二项式模型，并将结果合并以获得具有适当调整标准误差的治疗效果的单一估计值。之后进行了许多敏感性分析，结果与各种方法相似。

如果大家对多重插补感兴趣，可以给这篇文章点个赞，点赞数超过100，我们将出一篇快速实现多重插补的教程

接上来正式进入主题！

首先，老规矩，对于RCT先上PICOS原则：

P：患有心肌梗死且血红蛋白水平低于10g/dL 的患者；

I/C：限制性输血策略（输血的血红蛋白截止值为7或8g/dL）和宽松输血策略（血红蛋白截止值为<10g/dL）；

O：主要终点是随机分组后30天内心肌梗死或全因死亡的复合终点。

S：开放标签随机临床试验。

研究图表分析

1.患者基线资料描述

表1是患者基线情况，通常RCT均包含基线表，用于展示随机化后患者特征是否相似。

数据显示：从2017年4月至2023年4月，共纳入3506例患者，其中2例患者未同意使用其数据，最终3504 例患者被纳入分析。患者平均年龄为 72.1岁，45.5%的患者为女性，大多数患者（55.8%）患有2型心肌梗死。

表1 患者基线情况

2.干预措施的实施情况

图1为了让读者更清晰的了解两种输血策略的方法差异，使用折线图和柱状图进行了展示。

限制策略组第1天的平均血红蛋白水平比宽松策略组低1.3 g/dL，第 3 天低 1.6 g/dL。宽松策略组输血的总红细胞单位数是限制策略组的3.5倍。两组从随机分组至出院、退出或死亡的中位住院时长均为5天。

图1 血红蛋白水平和红细胞输血单位数

3.试验结果：森林图

森林图可以直观地比较多个研究结果的效应量（如OR值、RR值等）、置信区间以及整体的汇总效应，这种直观的展示方式有助于研究人员快速理解每个研究的贡献和整体研究结果的可靠性。

由于存在数据缺失的情况，需要用到多重插补的方式进行数据补齐。文章采用了使用链式方程多重插补（MICE）进行多重插补，以插补30天前退出或失访且未发生主要结局事件的患者的缺失结局数据。
并使用对数二项式回归分析主要结局，其中固定效应为设定的输血策略，随机效应为不同临床试验点。

结果显示：限制性策略组1749名患者中有16.9%在30天内发生了心肌梗死或任何原因死亡（主要终点），宽松性策略组1755名患者中14.5%发生了心肌梗死或任何原因死亡。粗风险比（限制性策略 vs 宽松性策略）为 1.16

根据对57名患者（20名采用限制性策略，37名采用宽松性策略）进行多重差补后调整部位和不完全随访后的对数二项式模型，估计的主要结果风险比为1.15。调整基线预后因素后，模型对主要结果的估计值（风险比1.16）与前两次计算一致。

图2 30天的试验结果森林图

主要终点：K-M曲线

文章对主要结果进行了深入的二次分析，采用Kaplan-Meier方法来评估主要结果事件的累积风险。此外，还利用log-rank检验在患者停药和30天时间点对两组累积风险曲线进行了统计学比较。

图3显示了Kaplan-Meier 估计的心肌梗死或任何原因死亡（主要结局）的30天累积发生率，以及在患者退出或失访时对数据进行删失后的任何原因死亡的发生率。

图3 30天内心肌梗塞或死亡（主要结果）或任何原因死亡的累计发生率

亚组分析：森林图

由于亚组分析中包含多个指标，因此再次选用森林图进行展示，可以比较多个指标对于心肌梗死或死亡的影响效力。

在所有预设亚组中，限制性输血策略与宽松性输血策略相比，对主要结局的影响一致。在1型心肌梗死患者中，限制性策略导致的主要结局事件多于宽松性策略（风险比1.32），而在2型心肌梗死患者中没有明显影响（风险比1.05）。

图4 心肌梗死或死亡的亚组分析森林图

文章的优点

在临床研究领域，数据缺失是一个普遍现象，许多研究者在处理数据时都曾遭遇这一挑战。本文也不例外，但它提供了一些值得借鉴的方法，有助于提升我们研究的质量：

数据插补策略：当数据中缺失较多，但是样本量宝贵的时候，不妨考虑本文介绍的多重插补技术，这一方法在近年来的许多高影响力的SCI临床研究中得到了应用。多重插补通过模型估计和重复模拟来构建多个完整的数据集。其核心思想在于模拟缺失数据的随机分布，然后从这个分布中随机抽取数据来填补缺失值。这种方法能够更全面地反映数据的不确定性，从而提高研究结果的稳健性。

选择恰当的统计模型：图表是文章的“视觉焦点”，选择合适的分析方法和呈现方式对于提高文章的可读性和理解度至关重要。鉴于本文涉及了众多影响因素，并且需要进行生存分析，因此采用了Kaplan-Meier曲线和森林图等方法。这些方法不仅提高了文章的可读性，还有助于读者更深入地理解研究内容。通过这些精心设计的图表和分析，我们能够更清晰地展示研究结果，使读者能够更容易地把握研究的关键信息。

好了，以上就是对于本篇文献的解读，对于原文有兴趣的同学可以点击阅读全文查看哦！并且，如果您对于数据缺失不知道该怎么办，也推荐您看看易侕科研以前发布的一篇文章，希望对您有所帮助（患者数据缺失了该怎么办？可以直接删除吗）。

如果大家对多重插补感兴趣，可以给这篇文章点个赞，点赞数超过100，我们将出一篇快速实现多重插补的教程记得关注我们哦

易侕科研

易侕科研隶属于斯录欣（上海）信息科技有限公司，公司成立2014年，是一家高新科技企业。斯录欣由临床研究专家、统计学家组建，公司聚焦于临床研究、数据服务，欢迎和我们联系。

电话：15007152536 （同微信）

邮箱：bp@yunedc.com

官网：http://www.siluxintech.com

👇点击阅读原文查看文献

http://mp.weixin.qq.com/s?__biz=MzA3OTE5MTc2Ng==&mid=2247490455&idx=1&sn=e8d05426a05d5e0bf24002cf8828aa38

易侕科研

专注于临床科研数据管理+数据分析。定期分享一些研究设计、数据分析的内容，也会推荐一些好用的科研工具和网站。每天10min，让科研更简单！（本账号原名为：易侕统计。本账号为斯录欣公司旗下产品，2018年更名为：易侕科研）

最新文章

重复测量数据该如何分析？IF10.5分文献解读

基于LASSO回归筛选变量建立预测模型（IF 22.5）|文献解读

临床预测模型遇到Meta分析，能擦出怎么样的火花|文献解读

NHANES公开数据库+中介效应分析|文献解读

学科带头人的科研规划：构建专病数据库的策略与执行工具

UKB公开数据库+非线性孟德尔随机化（IF9.6）文献解读

SCI发文的敲门砖，写好一篇Cover Letter|附示例

一篇文章搞懂什么是C-RCT集群随机对照试验|附SCI真实案例

易侕eTMF文件管理系统介绍|药物试验

SCI被退稿，了解十大原因不犯错|选刊工具助力投稿（下篇）

SCI被退稿，了解十大原因不犯错|选刊工具助力投稿（上篇）

BMJ上的高分Meta分析：传统与网状相结合|文献解读

传统Meta没新意了，要不试试网状Meta分析？|文献解读

如何建立一个靠谱的专病数据库？微信随访|OCR识别|临床研究

对于临床数据缺失，顶级论文是如何处理的？|文献解读

无需代码，一键完成LASSO回归分析，超简易教程

SEER公共数据库、没有花哨的统计学方法|一篇IF12.5的文献解读

中医针灸RCT研究，如何发表在19.6分的SCI期刊上？|文献解读

面向GCP室/临床研究中心的全院EDC平台搭建

推荐一款100W医学人都在用的医学文献检索、阅读、AI学术搜索工具

临床科研一体化平台建设现状与方案|易侕科研

什么是中央随机化系统|易侕CRS系统介绍

599例患者数据发表28篇SCI论文 | 如何基于数据库开展二次研究？

大型人群队列的开展和数据聚合平台的构建

如何建立一个靠谱的专病数据库？微信随访|OCR识别|医患沟通

斯录欣公司（易侕科研）荣获上海交大和上海健康医学院联合颁发“数字医疗研究中心应用示范基地”

利用UKB公开数据库也能发JAMA？他们是如何做到的|文献解读

斯录欣公司（易侕科研）荣获ISO27001与9001双认证，塑造医疗信息化安全与质量的新典范

2024年JCR最新影响因子发布啦-免费查询！

浅谈随机对照研究 | 附36篇高分文献

基于专病数据库的临床科研平台构建和实施| 易侕科研

科室负责人的科研规划：构建科室数据库的策略与执行工具

我们用GPT做了一个SCI文章选刊工具，让SCI选刊变得超级简单！

大型人群队列的开展和数据聚合平台的构建

【首发】PubMed手机端APP上线啦！

横断面研究：IF=10分文章分析思路解析 | 易侕科研

pubmedpro文献合集 | 横断面研究热门高分文献

易侕EDC眼科专病数据库的应用

如何开展诊断试验研究 | 附24篇高分文献

《NEJM》2023年度最佳文献合集

10分钟搞懂分层区组和动态随机 | 易侕中央随机系统

文献合集 | 《JAMA》2023年度热门文献合集

祝贺斯录欣（易侕科研）成功入选2023年“上海市创新型中小企业”

生存分析研究的方法与应用 | 附32篇SCI

易侕EDC数据库在临床研究中的应用：微信随访|OCR识别|多中心

回顾性真实世界研究分析思路 | 文献解读

阜外医院“心论坛”临床研究方法与实践公开课-第四讲今晚6点开课 | 易侕科研

阜外医院“心论坛”临床研究方法与实践公开课-第四讲 | 易侕科研

基于专病数据库的全院科研平台 | 易侕科研

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉