一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

文摘科学 2024-02-17 08:18 上海

本文介绍了利用MSTATA软件，根据是否调整协变量，一键完成确证性影响因素分析。支持线性回归/Logisti回归/cox回归/Poisson回归，自动将不调整协变量，以及调整协变量的结果组合在一个表里，并在底注标明调整了哪些协变量，直接输出论文投稿级的表格。并可以一键标化、一键将连续性变量拆分成N个组的分类变量，四分位数等等。

经典的单因素、多因素回归结果组合表，会将所有的自变量回归结果都呈现在一张表格里，适用于探索性影响因素分析，而对于确证性影响因素研究，更关注某一个或某几个感兴趣的影响因素，而其他影响因素则作为混杂因素或协变量放入模型，无需呈现在主表格里，通常作为表格底注说明调整了哪些因素。

MSTATA 可以一键生成这样的表格，请访问www.mstata.com主页，上方点击 vip服务器入口，进入软件后选 “因果推断” 下拉菜单，并选以下模块进入：

分析完成后，还会自动生成 R 代码，一键即可在 R 软件中复现分析过程:

全自动验证性性影响因素分析（显示主要研究因素的回归结果，协变量做底注）机器人

本模块适合做验证性影响因素研究，验证某个影响因素（如治疗分组、或者是否饮酒等）对某个临床结局（事件）的影响，并控制混杂因素或协变量（如性别、年龄、基线血糖等等）。

所谓 “验证性”，是指研究开始已经有明确的目的，特定要研究某个固定的感兴趣的影响因素，而其他影响因素仅作为协变量处理，不展开讨论。

主要特点：

根据上传的科研数据，简单点击设置后，自动完成不调整协变量和调整协变量的回归分析
支持线性回归、Logistic 回归、Cox 回归、Poisson 回归
支持一键自动把连续性变量拆分成分类变量，如 Q1、Q2、Q3、Q4 等
支持一键把连续性变量做标化、取对数等
生成 word 统计报告，自动生成 Title, Objective, Methods 和 Results, 生成 SCI 期刊标准统计表格

准备数据

首先务必按照下面的格式准备数据（网站上可下载，下载后在此基础上修改）：

下载csv样例数据（右击另存为）

打开如下图：

本样例数据的规则：

一个患者一行（这是准备数据最重要的前提）。
每个患者准备两大类数据，影响因素变量和结局变量，影响因素和结局分别都可以有多个变量。
如图所示，hospital, treatment, age, age2, sex, obstruct, prfor, adhear, differ, extent 为影响因素（自变量），而blood, effect, status, time, occurrence在本例中是结局变量。
影响因素变量有两种，连续性变量（值是连续数据，它可以在变量值所属区间内任意进行取值，如年龄[岁]、血糖值、人的身高、智商等）以及分类变量（是说明事物类别的一个名称，其取值是分类数据。如”性别”就是一个分类变量，其变量值为”男”或”女”；“行业”也是一个分类变量，其变量值可以为”零售业”、“旅游业”、“汽车制造业”等），在本例中 age是连续性变量（numeric）, 其他的是分类变量（factor）。age单位为”岁”时为连续变量，而age2为年龄段分组，这时候为分类变量。
以上概念很重要，后面有一个页面专门设置连续变量和分类变量。
结局变量在本工具中分为几类：

连续型结局变量
如本例中的blood（某血液检测指标）
二分类结局变量
如本例中的effect（疗效）为二分类变量（Good，Bad）
生存型结局变量
需要用两个变量组合来表示，如本例中的status和time。
status代表患者在研究结束时的状态，在本工具中只能取0和1两个数字，不要用字符文本，否则会出错。0 代表没观察到事件发生（如没死或者失访），1 代表观察到了事件发生（如已经死亡且录入了死亡日期）。
time代表从开始日期（开始日期的定义由你的研究目的决定，如随机对照研究往往取随机化入组的那一天为开始日期，而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定）到结局日期的时间差。当status=1时，结局日期为发生事件（如死亡）的日期，当status=0时，结局日期为最后一次活着的日期（如研究结束日，或随后一次随访日）。
总之，time是一个数值型变量，您需要填入患者从开始到死亡或者随后一次随访时，一共活着的天数。如time为56，status为1时代表患者从开始到死亡活了56天；当time为56，status为0时代表患者没观察到死亡，从开始到最后一次随访，活了56天。
准备数据时，time填入一个非负的整数，status填入0或1，time和status都不能为空，每个患者都必须填入数字。time或status不确定（缺失）时，该患者最好不要放入本数据库。
计数型结局变量
计数型的结局变量为一个非负的整数，如本例中occurrence，是急性发作次数，无法取负数，也不可能取小数。
分数型结局变量
当结局变量为一个分数，如发病率、患病率、受精率等，结局包含一个分子和一个分母。如要研究全国各地疾病患病率的影响因素时，按照每个地区一行来准备数据，分子和分母设置成两个变量（列），如分子为患病人数，分母为地区人口数。
准备数据的规则是：分子和分母都是非负整数，不允许填入负数，也不允许填入小数，分子的数值不能大于分母。

操作步骤

选择结局变量

机器人根据结局变量的类型来选择分析方法。二分类变量，系统会选择logistic回归，如果是连续性变量，系统会选择一般线性回归。如果是生存变量Time和Status的组合，系统会采用Cox回归。如果是计次计数变量，系统会选择Poisson回归，当然如果是率或者百分比，也会采用Poisson/负二项回归。

选择影响因素变量

根据提示选择影响因素变量，这里的影响因素是指研究的主要目的，感兴趣的研究变量，论文标题里的主要因素。

选择混杂因素/协变量变量

根据提示选择混杂因素/协变量变量，这里主要指需要调整的其他变量，不是研究主要目的，不感兴趣的自变量，如性别、年龄、是否高血压、糖尿病等。

连续性变量拆成分类变量

连续性变量需要拆成分类变量的场景有：

本身就是一个分类变量，如 I 期，II 期，III 期，IV 期等，只不过用了数字1，2，3，4来表示，这可以在前面筛选变量的界面直接把它设置为分类变量（factor）即可。

前面如果忘记了，或者不方便，这里提供了一个功能，可以设置唯一取值数小于多少个水平的变量，全部转换成分类变量。例如只有5个取值 （比如只有数字1-5可取）以下的变量，全部批量转换成分类变量；

如上图，对于只能取值6以下的变量，统统变成分类变量。

本身是连续性变量，例如年龄、血糖等等，但需要转换成低、高的二分类变量，或低、中、高的三分类变量，或Q1，Q2，Q3，Q4的四分位数分类变量，这里也提供了一个自动化转换工具，可以根据患者数量，平均拆分成N个组。

如上图，将blood和occurrence两个连续性变量，切成三等分的分类变量

显示了切割分界点的界值。

多大支持切割成20组，因为更多分组没有太大医学价值。

如果需要更强大的分组功能呢，例如自定义切割点，如<10岁，>65岁等，或者用K-means 聚类分组等，可以去本软件的准备数据模块，选择”数据离散化” 模块进行复杂的分组操作。

下载word文件

最后进入”下载word文件”

生成文字版的报告。

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247487330&idx=1&sn=23a82300d7969bf3d3abaf4d7d2438a9

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

一键完成复杂抽样加权（NHANES 等）回归分析的亚组（分层）分析及森林图的绘制

NHANES 复杂抽样加权：为何层内 PSU 只有 1 个时 R 软件会报错？

NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

一键完成亚组（分层）分析及其森林图，支持连续性及二分类的自变量了！

一键完成单因素+多因素竞争风险模型分析

MSTATA 升级至 0.93 版，使用 docker 预启动技术

一键生成NHANES等复杂抽样加权的基线表（Table 1）

告别长时间加载, MSTATA医学统计机器人0.93版预告

一键完成NHANES复杂抽样加权的单因素+多因素回归分析并自动生成R代码

有序分类 Logistic 回归 R 包横向测评及自动代码生成 AI 工具介绍

为何SPSS计算的中位生存期，是10个月，而R计算的中位生存期，是18个月？

基线表（Table 1）里的值到底应该保留几位小数

基线表（Table 1）如何一键增加显示统计量（t 值，卡方值、F值等）

重磅！一键自动秒生产 10+分 SCI 新套路：什么人群治疗有效？治疗组和连续性变量交互作用的立方样条图

一键生成多模型（调整不同的协变量）比较的论文发表级表格

一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

双结局展现在同一个亚组森林图！从Excel结果数据到华丽森林图一键转换

亚组分析森林图生成器万能加强版

一键自动生成临床试验不良事件 AE 表格

MSTATA 0.92版预览

医院行风建设背景下，医生如何进行风险管理？

MSTATA 改版倒计时

一键自动生成 Cox-nomogram 临床预测研究 SCI 论文

MSTATA 智能版取得重要突破

外部验证集的AUC比训练集还大，正常吗

陆续公布统计软件的源代码

勘误：在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

Mstata 全新颠覆性的版本将在新年上线

医学科研中连续性变量离散化的原因和价值

请选择开放分析源代码的统计分析平台

如何自动得到亚组分析森林图，并显示Events/N

基线表模块升级：根据Q-Q图判断正态性并选择统计方法

超强！一键完成中介效应分析并自动生成投稿级别的论文表格

一键生成十种绚丽色彩的临床基线特征表PPT

当分类变量的分组数量>20时，还能放入回归模型吗

Mstata访问故障的公告

GPT终于可以根据用户自己上传的临床数据一键生成可投稿级的SCI 论文了

MSTATA为什么最近没有更新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉