大家好,今天咱们来聊一聊做临床研究100%会遇到的问题:数据缺失。
不管是前瞻性研究,还是回顾性研究,我们始终都绕不开数据缺失,那么遇到之后我们应该怎么处理呢?是直接删除,保留不缺失的,还是进行插补?插补之后SCI认可吗?
我们还是用真实的SCI文章,带大家看看是怎么处理的。这篇文章发表在NEJM(IF 96.2),题目是:“Restrictive or Liberal Transfusion Strategy in Myocardial Infarction and Anemia”(中文名:心肌梗死和贫血的限制性或宽松性输血策略),旨在确定对于急性心肌梗死和贫血患者,限制性输血策略(血红蛋白阈值为每分升7至8克)和宽松输血策略(血红蛋白阈值为每分升<10克)之间30天内死亡或心肌梗死的风险是否不同。
数据缺失与插补
在具体分析这篇文章之前,先让我们对这篇文章数据缺失的应对方法进行说明,以便各位小伙伴有一个全面的了解。
在处理缺失数据时,通常有三种策略可供选择:
1.选择删除含有缺失值的数据
2.选择进行数据插补
3.使用敏感性分析,对比删除或插补前后的的结论
鉴于每一份临床数据都是极其宝贵的资源,我们更倾向于尽可能地充分利用这些数据。因此,采用恰当的数据插补方法成为了实现这一目标的理想选择。这种方法不仅能够保留数据的完整性,还能提高分析的准确性和可靠性。
这篇文章采用了多重插补的方式。多重插补是目前使用最广泛的填补方法之一,通过模拟生成一个缺失数据的随机分布,而后从中随机抽取数据作为缺失值的填补。
本文在附录和protocol中详细阐述了其多重插补方法。主要运用的原理是Markov Chain Monte Carlo (MCMC)多重插补法。用于插补随访中退出或缺失患者主要结局数据。
具体方法是:使用二项回归回归模型来估计结局与拥有完整数据参与者的关键变量之间的关系。用于预测缺失30天结果的参与者的结果概率,创建十个插补数据集。将对每个插补数据集估计具有随机效应的对数二项式模型,并将结果合并以获得具有适当调整标准误差的治疗效果的单一估计值。之后进行了许多敏感性分析,结果与各种方法相似。
如果大家对多重插补感兴趣,可以给这篇文章点个赞,点赞数超过100,我们将出一篇快速实现多重插补的教程
接上来正式进入主题!
首先,老规矩,对于RCT先上PICOS原则:
P:患有心肌梗死且血红蛋白水平低于10g/dL 的患者;
I/C:限制性输血策略(输血的血红蛋白截止值为7或8g/dL)和宽松输血策略(血红蛋白截止值为<10g/dL);
O:主要终点是随机分组后30天内心肌梗死或全因死亡的复合终点。
S:开放标签随机临床试验。
研究图表分析
1.患者基线资料描述
表1是患者基线情况,通常RCT均包含基线表,用于展示随机化后患者特征是否相似。
数据显示:从2017年4月至2023年4月,共纳入3506例患者,其中2例患者未同意使用其数据,最终3504 例患者被纳入分析。患者平均年龄为 72.1岁,45.5%的患者为女性,大多数患者(55.8%)患有2型心肌梗死。
表1 患者基线情况
2.干预措施的实施情况
图1为了让读者更清晰的了解两种输血策略的方法差异,使用折线图和柱状图进行了展示。
限制策略组第1天的平均血红蛋白水平比宽松策略组低1.3 g/dL,第 3 天低 1.6 g/dL。宽松策略组输血的总红细胞单位数是限制策略组的3.5倍。两组从随机分组至出院、退出或死亡的中位住院时长均为5天。
图1 血红蛋白水平和红细胞输血单位数
3.试验结果:森林图
森林图可以直观地比较多个研究结果的效应量(如OR值、RR值等)、置信区间以及整体的汇总效应,这种直观的展示方式有助于研究人员快速理解每个研究的贡献和整体研究结果的可靠性。
由于存在数据缺失的情况,需要用到多重插补的方式进行数据补齐。文章采用了使用链式方程多重插补(MICE)进行多重插补,以插补30天前退出或失访且未发生主要结局事件的患者的缺失结局数据。
并使用对数二项式回归分析主要结局,其中固定效应为设定的输血策略,随机效应为不同临床试验点。
结果显示:限制性策略组1749名患者中有16.9%在30天内发生了心肌梗死或任何原因死亡(主要终点),宽松性策略组1755名患者中14.5%发生了心肌梗死或任何原因死亡。粗风险比(限制性策略 vs 宽松性策略)为 1.16
根据对57名患者(20名采用限制性策略,37名采用宽松性策略)进行多重差补后调整部位和不完全随访后的对数二项式模型,估计的主要结果风险比为1.15。调整基线预后因素后,模型对主要结果的估计值(风险比1.16)与前两次计算一致。
图2 30天的试验结果森林图
主要终点:K-M曲线
文章对主要结果进行了深入的二次分析,采用Kaplan-Meier方法来评估主要结果事件的累积风险。此外,还利用log-rank检验在患者停药和30天时间点对两组累积风险曲线进行了统计学比较。
图3显示了Kaplan-Meier 估计的心肌梗死或任何原因死亡(主要结局)的30天累积发生率,以及在患者退出或失访时对数据进行删失后的任何原因死亡的发生率。
图3 30天内心肌梗塞或死亡(主要结果)或任何原因死亡的累计发生率
亚组分析:森林图
由于亚组分析中包含多个指标,因此再次选用森林图进行展示,可以比较多个指标对于心肌梗死或死亡的影响效力。
在所有预设亚组中,限制性输血策略与宽松性输血策略相比,对主要结局的影响一致。在1型心肌梗死患者中,限制性策略导致的主要结局事件多于宽松性策略(风险比1.32),而在2型心肌梗死患者中没有明显影响(风险比1.05)。
图4 心肌梗死或死亡的亚组分析森林图
文章的优点
在临床研究领域,数据缺失是一个普遍现象,许多研究者在处理数据时都曾遭遇这一挑战。本文也不例外,但它提供了一些值得借鉴的方法,有助于提升我们研究的质量:
数据插补策略:当数据中缺失较多,但是样本量宝贵的时候,不妨考虑本文介绍的多重插补技术,这一方法在近年来的许多高影响力的SCI临床研究中得到了应用。多重插补通过模型估计和重复模拟来构建多个完整的数据集。其核心思想在于模拟缺失数据的随机分布,然后从这个分布中随机抽取数据来填补缺失值。这种方法能够更全面地反映数据的不确定性,从而提高研究结果的稳健性。
选择恰当的统计模型:图表是文章的“视觉焦点”,选择合适的分析方法和呈现方式对于提高文章的可读性和理解度至关重要。鉴于本文涉及了众多影响因素,并且需要进行生存分析,因此采用了Kaplan-Meier曲线和森林图等方法。这些方法不仅提高了文章的可读性,还有助于读者更深入地理解研究内容。通过这些精心设计的图表和分析,我们能够更清晰地展示研究结果,使读者能够更容易地把握研究的关键信息。
好了,以上就是对于本篇文献的解读,对于原文有兴趣的同学可以点击阅读全文查看哦!并且,如果您对于数据缺失不知道该怎么办,也推荐您看看易侕科研以前发布的一篇文章,希望对您有所帮助(患者数据缺失了该怎么办?可以直接删除吗)。
易侕科研