生存数据如何做中介分析?中国学者用NHANES数据库发文一区top(IF=8.5)

文摘   科学   2025-01-08 17:49   浙江  

 引言

网上的教程这么多,你真的了解生存数据的中介分析到底该怎么做吗?天分享一篇中国学者发表的一区top文章,研究者们基于NHANES数据库,结合多种统计学方法详细描述了中介效应分析的过程,方法严谨,结构清晰,值得借鉴。

接下来,让我们一起看看具体该如何实现吧!

甘油三酯-葡萄糖指数(TGI)作为一个可靠且易于获取的指标,可有效反映人体胰岛素抵抗程度。而幽门螺杆菌作为一种常见的致病菌,可通过多种途径影响人体健康。
有研究表明,幽门螺杆菌感染(幽门螺杆菌免疫球蛋白G(IgG)抗体阳性)可能会加剧人体胰岛素抵抗,从而促进心血管疾病(CVD)的发生和发展。
2024年12月18日,中国学者NHANES数据库,在期刊Cardiovascular Diabetology(医学top一区,IF=8.5)发表题为Relationships among Helicobacter pylori seropositivity, the triglyceride-glucose index, and cardiovascular disease: a cohort study using the NHANES database的研究论文,旨在探讨了幽门螺杆菌IgG抗体阳性、TGI和CVD风险之间的关联,以及TGI在这一关联中的中介作用。
研究结果表明,TGI在幽门螺杆菌增加心血管疾病(CVD)风险和死亡风险的过程中,均发挥了显著的中介作用。同时,研究还发现在一般人群中,TGI≥第75个百分位数且感染幽门螺杆菌者患CVD风险最高。而在CVD患者中,该特征的人群死亡风险最高。

本公号回复“ 原文”即可获得文献PDF等资料。想用NHANES发文,看看这个可一键提取和分析数据的NHANES  Online平台!如感兴趣请联系郑老师团队,微信号:aq566665

研究团队基于美国国家健康与营养调查(NHANES)III(1988-1994)和NHANES数据库1999-2000年的数据,经过纳排,最终纳入了9,399名符合条件的年龄≥18岁的参与者,平均年龄为45岁,50.5%为女性。

  • 其中,4,488名(47.75%)为幽门螺杆菌IgG抗体阳性,3,934名(41.86%)被诊断为CVD。

图1 研究人群筛选流程图

研究团队根据TGI值(≥第75个百分位数为高TGI水平、<第75个百分位数为低TGI水平)以及是否感染幽门螺杆菌幽门螺杆菌血清状态[阳性或阴性])对参与者进行分组。

主要暴露变量是TGI和幽门螺杆菌IgG抗体阳性。

主要结局指标为CVD风险及其全因死亡率(ACM)。

CVD包括冠心病(CHD)、心肌梗死、中风、充血性心力衰竭(CHF)、心绞痛和高血压。

图2 研究流程



主要研究结果


TGI、幽门螺杆菌血清学状态和CVD风险之间的关联

研究团队首先进行了加权单变量和多变量logistic回归,探究TGI水平、幽门螺杆菌IgG抗体状态及其组合与CVD之间的关联。
在调整了混杂因素后,结果显示,在一般人群中,高TGI水平以及高TGI水平且感染幽门螺杆菌者患CVD风险显著升高。
表1 在一般人群中,TGI和幽门螺杆菌与CVD风险的关联
模型 1:未调整;
模型 2:根据年龄、性别和种族进行调整;
模型 3:根据年龄、性别、BMI、种族、教育程度、吸烟状况、HDL、T2DM进行调整

多变量logistic回归的基础上,团队进一步探讨TGI、幽门螺杆菌IgG抗体状态与CVD之间潜在的非线性关系。RCS结果表明,在一般人群中,仅TGI和CVD风险之间存在显著的线性关系。

图3 TGI和幽门螺杆菌与CVD风险之间的RCS曲线

√TGI、幽门螺杆菌血清学状态与CVD死亡率之间的关联

同时,研究团队通过生存分析来评估CVD患者中TGI水平、幽门螺杆菌IgG抗体阳性与CVD患者死亡风险之间的关系。
  • KM曲线结果显示,在CVD患者中,高TGI水平且感染幽门螺杆菌者死亡风险最高。Cox比例风险模型结果与其一致,进一步证明了该结果。
图4 不同TGI水平和幽门螺杆菌IgG抗体状态下,CVD患者中ACM的Kaplan-Meier曲线

表2 在CVD患者中,TGI以及幽门螺杆菌与ACM的关联

在此基础上,研究团队再次绘制了RCS曲线,探讨CVD患者TGI水平、幽门螺杆菌IgG抗体阳性与死亡风险之间可能存在的非线性关系。

结果显示,在CVD患者中,也是仅TGI与死亡风险之间存在显著的线性关系。

图5 TGI水平和幽门螺杆菌与全因死亡风险之间的RCS曲线

√亚组分析

为了进一步验证研究结果,团队还根据糖尿病前期、糖尿病状态、代谢综合征和肥胖对CVD患者进行了分层,并开展了亚组分析。

分析结果与上述一致,表明高TGI水平且感染幽门螺杆菌的患者面临最高的全因死亡风险

中介效应分析

最后,中介分析的结果揭示了,TGI在幽门螺杆菌增加CVD风险和死亡风险的过程中,均发挥了显著的中介作用。

这意味着幽门螺杆菌可能通过影响胰岛素抵抗等机制,间接增加患CVD风险和CVD患者的死亡风险。

图6 中介分析结果

综上所述,幽门螺杆菌可通过TGI水平间接提高心血管疾病风险和死亡风险。此外,将幽门螺杆菌与TGI水平相结合,可以提高对个体患心血管疾病风险以及心血管疾病患者的死亡风险的预测能力。

统计知识点汇总

1. 数据来源

国国家健康与营养调查(NHANES)III和NHANES数据库:

NHANES数据库是一项旨在评估美国成人和儿童的健康和营养状况的研究计划。该数据库涵盖了多种健康指标的数据收集和分析。其中,NHANES III,即第三次国家健康和营养调查,特指在1988年至1994年期间进行的这一轮调查。
2.研究设计思路:

P(Population)参与者:从NHANES III(1988-1994)和NHANES数据库1999-2000年的数据中,纳入的9,399名接受幽门螺杆菌血清学检测并提供空腹血液样本的年龄≥18岁的参与者;

E(exposure)暴露因素:甘油三酯-葡萄糖指数(TGI)和感染幽门螺杆菌

O(outcome)结局:心血管疾病(CVD)风险及其全因死亡风险(ACM);

S(Study design)研究类型:横断面和队列研究相结合。

3. 统计方法
  • 加权变量和多变量Logistic回归

  • 变量Logistic回归:指在模型中只包含一个自变量的情况。这种类型的模型用来评估单一因子对结果概率的影响大小和方向。
  • 变量Logistic回归:包含两个或两个以上的自变量。这种模型允许研究者同时考察多个因素对结果变量的影响。

在本文中,研究团队先分别对TGI水平、幽门螺杆菌IgG抗体状态进行加权单变量logistic回归分析,以初步了解它们各自与CVD的关系。

加权处理是为了考虑样本的代表性,使得结果更能反映总体情况。
在此基础上,团队进一步考虑了其他可能影响CVD的协变量(如年龄、性别、种族、BMI、糖尿病状态等),并进行了加权多变量logistic回归分析。这样做可以更加准确地评估TGI和幽门螺杆菌IgG抗体状态在多个因素共同作用下的影响。
变量与多变量Logistic回归的关系
变量和多变量Logistic回归之间的关系是包含与被包含的关系。单因素Logistic回归是多变量Logistic回归的一个特例,后者是更为一般的形式。
在实际应用中,研究者通常首先进行单变量Logistic回归分析,以识别可能的重要预测因素。然后,在多变量Logistic回归中包含这些因素,以控制混杂变量,准确估计每个因素的效应。
  • 生存分析

生存分析是一种用于分析事件发生时间的统计方法,其关注的重点是从观测开始到目标事件发生的时间,旨在了解和预测这些事件发生的时间及其影响因素。

常见的生存分析方法包括:Kaplan-Meier曲线、Log-rank检验和Cox比例风险模型。

本文主要用了这个三个方法,评估CVD患者中TGI水平、幽门螺杆菌IgG抗体阳性与CVD全因死亡率之间的关系。

  • Kaplan-Meier曲线:用于估计生存函数。团队绘制了不同TGI水平、幽门螺杆菌IgG抗体状态下的K-M曲线,以直观展示各组患者的生存率差异;

  • log-rank检验:用于比较两个或多个组的生存曲线是否存在显著差异。研究者们K-M曲线进行log-rank检验,以评估不同组别(按TGI水平、幽门螺杆菌IgG抗体状态及其组合进行的分组之间生存率的差异是否具有统计学意义;

  • Cox比例风险模型:一种半参数模型,能够同时探讨多个风险因素与事件结局(包括发生情况与发生时间)之间的关系。团队用其进行多因素校正,以全面评估TGI水平、幽门螺杆菌IgG抗体状态等因素对患者预后的影响。
  • 限制性立方样条(RCS)曲线
RCS曲线是一种平滑的曲线拟合方法,可以用于评估自变量与因变量之间的非线性关系。
在本文的研究中,研究团队绘制了两次RCS曲线。
  • 一般人群中,暴露与CVD风险之间的RCS曲线;
  • CVD患者中,暴露与全因死亡风险之间的RCS曲线。
  • 亚组分析

亚组分析是将研究人群按照某种特征划分为不同的亚组,然后分别对每个亚组进行分析,以探究该特征是否会对主要关联结果产生影响。

在本文中,研究团队在每个亚组内,运用加权多变量Cox比例风险模型分析,以评估TGI水平、幽门螺杆菌IgG抗体状态在该亚组中与CVD及全因死亡风险的关系。

  • 中介效应分析

介效应分析旨在探究自变量X如何通过中介变量M,对因变量Y产生影响的作用机制。通过该方法,我们可以更加明确X对Y的影响是否以及是如何通过中介变量M间接发生,而不仅仅是直接的因果关系。

在本文的研究中,研究团队构建了一个中介效应模型,探究了TGI是否是感染幽门螺杆菌增加CVD风险及全因死亡风险的中介变量及其中介效应大小,该研究步骤通过'mediation' 包实现。

生存数据的中介分析
本文中用到的就是中介分析中最常用的R包mediation。该R包使用简单,只需分别运行中介模型和结局模型,然后使用mediate函数获得中介分析结果,可分析多种类型的中介和结局,但是只能实现单中介模型。
在后台回复“中介分析”即可获得该资源。
研究团队采用了特定的公式来计算中介效应的大小,考虑了直接效应和间接效应(即通过TGI的中介作用)对结果变量的影响。
  • 其中,感染幽门螺杆菌被指定为暴露变量(X), TGI≥第75个百分位数被指定为中介变量(M),CVD发生率或CVD患者的全因死亡率被指定为结局变量(Y)。

中介分析的过程包括以下四个步骤:
(1)验证X与Y之间的相关性(模型 Y = βTot X),其中βTot表示总效应;
(2)建立了X与M之间的关联(模型 M = β1 X),其中β1表示间接效应;
(3)确定了经X调整后的Y部分(模型 Y = β2 m + βDir X),其中β2代表间接效应,βDir代表直接效应;

(4)计算中介效应的百分比:中介效应(%)=(β1 × β2 / βTot)× 100%。

这篇文章的分析思路全面但清晰易懂,对于想用NAHNES数据库发文的同学而言,是一篇值得参考的好文章。想了解更多有关NHANES数据库发文思路的同学,郑老师的NHANES一对一统计服务课程值得了解一下!现在报名还会送一年的NHANES Online平台使用权,像本研究中涉及的NHANES指标TGI,平台可零代码一键提取和分析数据。
欢迎关注“公共数据库与孟德尔随机化”公众号,我们将持续为你提供NHANES数据库统计分析方法的详细解读!

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!

我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导
GBD、NHANES医学数据库挖掘1对1R语言指导
联系助教陈老师咨询(微信号sas555777



公共数据库与孟德尔随机化
我们专门介绍公共数据库与孟德尔随机化,每周文献周报,呈现精品文献阅读
 最新文章