一键生成多模型（调整不同的协变量）比较的论文发表级表格

文摘科学 2024-02-29 21:01 上海

本文介绍了利用MSTATA软件，根据调整协变量的不同组合，同时建立多个模型，一键完成确证性影响因素分析。支持线性回归/Logisti回归/cox回归/Poisson回归，自动将多个模型的结果组合在一个表里，并自动在底注标明每个模型调整了哪些协变量，直接输出论文投稿级的表格。并可以一键标化、一键将连续性变量拆分成 N 个组的分类变量，四分位数等等。

软件在 www.mstata.com ，点击 MSTATA 医学统计机器人 VIP 版进入后下拉菜单选“因果推断” - “确证性影响因素研究” 即可进入：

一键生成多模型（调整不同的协变量）比较的论文发表级（Publication - ready) 表格：

一键完成多模型评价指标（拟合优度、多重共线性分析）比较：

引言

在医学统计分析中，我们经常要评估各种因素如何影响某个特定的健康结局。这些因素可以是生活习惯（如抽烟、饮酒）、遗传倾向、疾病状态（如心脏病）、环境暴露或者医疗干预（如药物治疗）。为了理解这些影响因素（或自变量）与健康结局（或因变量）之间的关系，研究者会运用多种统计回归模型来分析数据。

回归分析是一种强大的统计工具，它可以揭示一个或多个自变量对一个因变量的影响。根据因变量的类型和研究的需求，可以选择不同类型的回归分析：

逻辑回归（Logistic regression）适用于二分类结果变量，如疾病有无。
线性回归（Linear regression）适合连续结果变量，如血压或胆固醇水平。
Cox回归（Cox proportional hazards regression）用于分析生存时间数据，即时间到一个事件（如死亡或复发）的发生。
Poisson 回归适用于计数数据或事件发生率的分析。

研究者会拟合多个模型来比较的原因是，这可以帮助他们理解在控制了其他变量（如性别、年龄等）后，主要自变量（如抽烟）的独立效应是否仍然显著。这也有助于识别和校正混杂因子的影响，这些混杂因子可能扭曲了主要自变量和结果变量之间的真实关系。

例如，在研究抽烟是否增加心脏病风险的研究中，一个简单的模型可能只考虑抽烟的影响。而更复杂的模型可能会加入年龄、性别、饮食和运动等协变量。通过比较这些模型，研究者可以更好地了解在不同情境下抽烟和心脏病风险之间的关系。

为了判断模型的效度，研究者会查看比值比（Odds Ratio）、风险比（Hazard Ratio）或回归系数，以及它们的统计显著性（p-value）和置信区间（Confidence Interval, CI）。如果在多个模型中，这些统计量保持稳定，这增加了研究结果的可靠性。

综上所述，通过拟合和比较多个模型，研究者可以更全面地评估影响因素对健康结局的影响，这为制定预防策略和治疗干预提供了科学依据。

准备数据

首先务必按照下面的格式准备数据（网站上可下载，下载后在此基础上修改）：

下载csv样例数据（右击另存为）

打开如下图：

本样例数据的规则：

一个患者一行（这是准备数据最重要的前提）。
每个患者准备两大类数据，影响因素变量和结局变量，影响因素和结局分别都可以有多个变量。
如图所示，hospital, treatment, age, age2, sex, obstruct, prfor, adhear, differ, extent 为影响因素（自变量），而blood, effect, status, time, occurrence在本例中是结局变量。
影响因素变量有两种，连续性变量（值是连续数据，它可以在变量值所属区间内任意进行取值，如年龄[岁]、血糖值、人的身高、智商等）以及分类变量（是说明事物类别的一个名称，其取值是分类数据。如”性别”就是一个分类变量，其变量值为”男”或”女”；“行业”也是一个分类变量，其变量值可以为”零售业”、“旅游业”、“汽车制造业”等），在本例中 age是连续性变量（numeric）, 其他的是分类变量（factor）。age单位为”岁”时为连续变量，而age2为年龄段分组，这时候为分类变量。
以上概念很重要，后面有一个页面专门设置连续变量和分类变量。
结局变量在本工具中分为几类：

连续型结局变量
如本例中的blood（某血液检测指标）
二分类结局变量
如本例中的effect（疗效）为二分类变量（Good，Bad）
生存型结局变量
需要用两个变量组合来表示，如本例中的status和time。
status代表患者在研究结束时的状态，在本工具中只能取0和1两个数字，不要用字符文本，否则会出错。0 代表没观察到事件发生（如没死或者失访），1 代表观察到了事件发生（如已经死亡且录入了死亡日期）。
time代表从开始日期（开始日期的定义由你的研究目的决定，如随机对照研究往往取随机化入组的那一天为开始日期，而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定）到结局日期的时间差。当status=1时，结局日期为发生事件（如死亡）的日期，当status=0时，结局日期为最后一次活着的日期（如研究结束日，或随后一次随访日）。
总之，time是一个数值型变量，您需要填入患者从开始到死亡或者随后一次随访时，一共活着的天数。如time为56，status为1时代表患者从开始到死亡活了56天；当time为56，status为0时代表患者没观察到死亡，从开始到最后一次随访，活了56天。
准备数据时，time填入一个非负的整数，status填入0或1，time和status都不能为空，每个患者都必须填入数字。time或status不确定（缺失）时，该患者最好不要放入本数据库。
计数型结局变量
计数型的结局变量为一个非负的整数，如本例中occurrence，是急性发作次数，无法取负数，也不可能取小数。
分数型结局变量
当结局变量为一个分数，如发病率、患病率、受精率等，结局包含一个分子和一个分母。如要研究全国各地疾病患病率的影响因素时，按照每个地区一行来准备数据，分子和分母设置成两个变量（列），如分子为患病人数，分母为地区人口数。
准备数据的规则是：分子和分母都是非负整数，不允许填入负数，也不允许填入小数，分子的数值不能大于分母。

操作步骤

步骤 1: 数据准备

在开始之前，请确保您已经在软件的“数据准备”页面上传了您的数据集，并在“定义字段”选项卡检查并应用了更改。

步骤 2: 等待数据转换

打开页面后，请耐心等待半分钟让系统处理并加载您的数据。如果您的数据库较大，这个过程可能需要更长时间。系统会自动把水平数低于6的数值型变量转换为分类变量，当然您也可以手动改回来不做转换

步骤 3: 选择模型类型

接下来，您需要根据结局变量的类型选择合适的模型。可选的模型包括二分类变量（Logistic回归）、连续性变量（线性回归）、生存变量（Cox回归）、计数变量（Poisson回归）等。

步骤 4: 选择结局变量

根据您选择的模型类型，系统会要求您从数据库中选择相应的结局变量。例如，如果您选择了Logistic回归，就需要选择一个二分类的结局变量。

步骤 5: 定义模型协变量

确定您想要在模型中调整哪些协变量。协变量可以帮助控制混杂因素，提高模型的准确性。
如果选择了连续性变量，还可以选择仅按照连续性变量进行回归分析，还是进行标准化，或者转换成分类变量（例如 Q1/Q2/Q3/Q4 四分位数等）同时进行多种分析

步骤 6: 模型比较

您可以建立并比较多个模型。选择要比较的模型数量，并为每个模型选择要调整的协变量。请确保不同模型之间的协变量选择不完全相同。

步骤 7: 分类变量参照组设定

对于非数值型的分类变量，您需要为每个变量选择一个参照组。

步骤 8: 结果呈现

确定您如何呈现结果数据，包括是否显示N和Event值，以及效应量和P值的小数位数。

步骤 9: 生成结果

完成上述设置后，点击相应的按钮生成影响因素分析表。

在整个过程中，如果您在某个步骤遇到了问题，系统可能会提供警告或错误信息。请按照提示进行相应的修改。如果一切顺利，您将能够生成反映不同影响因素对结果影响的统计模型比较表格。

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247487350&idx=1&sn=46fbfc166114dbea0fd0bbab08846f0b

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

一键完成复杂抽样加权（NHANES 等）回归分析的亚组（分层）分析及森林图的绘制

NHANES 复杂抽样加权：为何层内 PSU 只有 1 个时 R 软件会报错？

NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

一键完成亚组（分层）分析及其森林图，支持连续性及二分类的自变量了！

一键完成单因素+多因素竞争风险模型分析

MSTATA 升级至 0.93 版，使用 docker 预启动技术

一键生成NHANES等复杂抽样加权的基线表（Table 1）

告别长时间加载, MSTATA医学统计机器人0.93版预告

一键完成NHANES复杂抽样加权的单因素+多因素回归分析并自动生成R代码

有序分类 Logistic 回归 R 包横向测评及自动代码生成 AI 工具介绍

为何SPSS计算的中位生存期，是10个月，而R计算的中位生存期，是18个月？

基线表（Table 1）里的值到底应该保留几位小数

基线表（Table 1）如何一键增加显示统计量（t 值，卡方值、F值等）

重磅！一键自动秒生产 10+分 SCI 新套路：什么人群治疗有效？治疗组和连续性变量交互作用的立方样条图

一键生成多模型（调整不同的协变量）比较的论文发表级表格

一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

双结局展现在同一个亚组森林图！从Excel结果数据到华丽森林图一键转换

亚组分析森林图生成器万能加强版

一键自动生成临床试验不良事件 AE 表格

MSTATA 0.92版预览

医院行风建设背景下，医生如何进行风险管理？

MSTATA 改版倒计时

一键自动生成 Cox-nomogram 临床预测研究 SCI 论文

MSTATA 智能版取得重要突破

外部验证集的AUC比训练集还大，正常吗

陆续公布统计软件的源代码

勘误：在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

Mstata 全新颠覆性的版本将在新年上线

医学科研中连续性变量离散化的原因和价值

请选择开放分析源代码的统计分析平台

如何自动得到亚组分析森林图，并显示Events/N

基线表模块升级：根据Q-Q图判断正态性并选择统计方法

超强！一键完成中介效应分析并自动生成投稿级别的论文表格

一键生成十种绚丽色彩的临床基线特征表PPT

当分类变量的分组数量>20时，还能放入回归模型吗

Mstata访问故障的公告

GPT终于可以根据用户自己上传的临床数据一键生成可投稿级的SCI 论文了

MSTATA为什么最近没有更新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉