NHANES数据可以不加权吗?中国学者用LASSO回归筛选变量构建预测模型
文摘
科学
2025-01-16 17:49
浙江
众所周知,在分析NHANES数据时,需要进行加权以减少结果的偏差。但LASSO回归和列线图在分析数据时却需要使用不加权数据。
今天分享的这篇文章就是同样的情况,中国学者就在Cox回归时用加权数据,而在后续筛选变量和构建预测模型时,用的是不加权数据,数据不一致照样拿下SCI二区。
类风湿关节炎(RA)是一种常见的慢性自身免疫性关节疾病,其发病与遗传、免疫系统、周围环境等密切相关。而饮食作为重要的环境因素之一,在坚持科学规范诊疗的基础上,适当饮食,会对疾病的恢复预防等方面起很大作用。然而,目前对于不同的饮食模式及其联合模式对RA患者预后的影响,尚不明确。2024年12月23日,中国学者用NHANES数据库,在期刊《Arthritis Research & Therapy》(医学top二区,IF=4.4)发表题为:“The comprehensive relationship between combined anti-inflammatory and healthy diets and all-cause mortality in rheumatoid arthritis: results from NHANES 2003–2018”的研究论文,旨在探讨了不同饮食模式与RA患者死亡率之间的关联,并构建了预测RA患者死亡风险的模型。研究结果表明,与不健康且促炎饮食模式的患者相比,健康且抗炎饮食模式患者的死亡风险降低了30%。此外,研究团队确定了与13种与类风湿性关节炎患者死亡显著相关的饮食因素,并成功构建了预测性能良好的列线图。本公号回复“ 原文”即可获得文献PDF等资料。想用NHANES发文,看看这个可一键提取和分析数据的NHANES Online平台!如感兴趣请联系郑老师团队,微信号:aq566665
研究团队基于美国国家健康与营养调查(NHANES)数据库2003-2018年的数据,经过纳排,最终纳入了2,069名年龄≥20岁且患有RA的参与者,中位年龄为59岁,57.9%为女性。团队根据健康饮食指数(HEI-2015)和饮食炎症指数(DII)评分的中位数,将患者的饮食模式分为四种:√加权多变量Cox回归
研究团队采用加权多变量Cox回归评估不同饮食模式(是否健康、抗炎或促炎以及二者联合的饮食模式)与患者死亡风险的关联。
结果表明,在调整潜在的混杂因素后,仅二者联合的饮食模式与死亡风险存在关联。具体表现为:模型1:无调整;
模型2:调整了年龄、性别和种族;
模型3:进一步调整了教育程度、吸烟状况、身体活动、BMI、膳食补充剂摄入量、总热量摄入和病史(自述糖尿病、高血压和冠心病)√限制性立方样条(RCS)曲线
同时,RCS曲线结果表明,DII和HEI-2015评分与患者长期死亡率之间不存在非线性关系。
√亚组分析
亚组分析的结果也表明,在BMI正常、当前吸烟者和高血压患者中,健康且抗炎饮食模式的患者死亡风险更低。
通过最小绝对收缩和选择运算符(LASSO回归),研究团队在DII(27种)和HEI-2015 评分(13种)的膳食成分中,最终筛选出13种可预测RA患者全因死亡率的饮食成分。具体包括咖啡因、总脂肪、锌、多不饱和脂肪酸、蛋白质、膳食纤维、总水果、全谷物、蔬菜、精制谷物、脂肪酸、海洋植物蛋白和饱和脂肪酸。B.40种膳食成分和3个协变量(性别、年龄、种族)的系数收缩过程
基于上述的性别、年龄、种族和13种饮食因素,研究团队开发了一个列线图模型用于预测RA患者的长期死亡率。
为了验证列线图中的饮食变量与RA患者死亡率之间的关联,团队还为每位患者生成饮食风险评分。并根据评分中位数将患者分为低风险患者(得分低于中位数)和高风险患者(得分高于中位数)。Kaplan-Meier曲线结果表明,与低风险患者相比,高风险患者的长期死亡率显著升高。√敏感性分析
敏感性分析的结果与上述一致,表明了研究结果的稳健性。
综上所述,研究团队认为健康的饮食(HEI-2015评分>49.95)和抗炎饮食(DII评分≤1.78),二者均不与类风湿性关节炎患者的全因死亡率存在关联,但二者联合的饮食模式能够将其风险降低30%。此外,研究团队发现其中有13种饮食成分与全因死亡率显著相关。
美国国家健康与营养调查(NHANES)数据库:
NHANES数据库是一项旨在评估美国成人和儿童的健康和营养状况的研究计划。该数据库涵盖了多种健康指标的数据收集和分析。P(Population)参与者:从NHANES数据库2003-2018年的数据中,纳入的2,069名年龄≥20岁且患有类风湿性关节炎(RA)的参与者;
E(exposure)暴露因素:由饮食炎症指数(DII)、健康饮食指数-2015(HEI-2015)评分所评估的参与者的饮食模式;
O(outcome)结局:RA患者的全因死亡率;
S(Study design)研究类型:横断面研究。
Cox回归是一种半参数回归模型,用于研究时间到事件数据(如生存分析)中的危险因素。加权多变量Cox回归则是在此基础上考虑了样本权重和多变量调整,以更准确地估计危险因素对事件发生时间的影响。在本文中,研究团队使用该方法估计由DII和HEI-2015评分所评估的饮食模式与RA患者全因死亡率之间的关系。RCS曲线是一种平滑的曲线拟合方法,可以用于评估自变量与因变量之间的非线性关系。本文中,研究团队就探究了DII和HEI-2015评分与患者死亡率之间的非线性关系。在本文中,研究团队通过亚组分析探讨了在不同特征(如BMI、吸烟状态、高血压等)的RA患者中,饮食模式对全因死亡率的影响是否存在差异,以进一步验证加权多变量Cox回归分析的结果。
LASSO回归是指在常用的多元线性回归中,添加惩罚函数,不断压缩系数,从而达到精简模型的目的,以避免共线性和过拟合。当系数为0时,同时达到筛选变量的效果。其一般会生成两个图:该图用于展示在不同正则化参数值下,模型参数(系数)如何变化,我们可以了解特征对模型的预测贡献的程度。其中,x轴代表正则化参数的值,而y轴则代表模型参数的大小。一种用于选择最优正则化参数(即λ值)的可视化工具。其中,x轴代表正则化参数的值,而y轴通常表示模型的性能指标。以本文的图为例,图中有两条虚线,lambda.min意味着模型的拟合效果最好,lambda.lse意味着模型的拟合效果很好,同时纳入方程的个数更少,模型更简单。本文选择的是lambda.min,因此筛选出了13个与RA死亡率密切相关的饮食成分。LASSO回归的R包中不包含加权数据的分析,因此显而易见,本文进行LASSO回归和构建列线图时用的都是不加权数据,只是没有在文中明确表述。而这就与前文中的加权COX回归分析中的数据有冲突,在一篇文章中,应该保持数据的一致性。但大多数复杂的统计学方法,并没有R包可以对加权数据进行处理,例如LASSO回归,这样做属于是没有办法的办法了。列线图是建立在回归分析结果的基础上,用于将复杂的统计模型转化为易于理解的预测工具。它结合了多个预测因子的效应,可以提供直观的预测结果。
在本文中,研究团队就构建了基于LASSO回归结果的列线图,用于预测RA患者的全因死亡率风险。
ROC曲线是指通过绘制真阳性率(灵敏度)对假阳性率(1-特异度)的曲线来展示模型在不同阈值下的性能。
本文就通过ROC曲线下面积评估了列线图对RA患者死亡率的预测能力。
AUC反映了诊断试验价值的大小,面积越大,越接近1.0,诊断的真实度越高;越接近0.5,诊断的真实度越低;当等于0.5时,则无诊断价值。KM曲线是一种生存分析方法,用于描述和比较不同组别中事件(如死亡)随时间发生的概率。它提供了直观的生存函数估计。本文通过Kaplan-Meier曲线比较了高风险组和低风险组(基于LASSO回归结果分组)的RA患者的生存概率,直观展示了不同饮食模式对RA患者预后的影响。敏感性分析是指在主分析后,使用不同的统计分析方法进行重复分析,以评估结果稳健性的统计分析方式。
例如,在本次研究中,研究团队进行了两次敏感性分析,以评估结果的稳健性。本文研究思路全面且清晰,是一篇值得参考的好文章。大家也可以在探究关联的基础上进一步构建预测模型!想了解更多有关NHANES数据库发文思路的同学,郑老师的NHANES一对一统计服务课程了解一下!现在报名还会送一年的NHANES Online平台使用权,选题我们帮你参考,需要的指标我们帮你提取!欢迎关注“公共数据库与孟德尔随机化”公众号,我们将持续为你提供NHANES数据库优秀文章的思路剖析和方法解读!全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!