本文介绍了利用MSTATA软件,根据是否调整协变量,一键完成确证性影响因素分析。支持线性回归/Logisti回归/cox回归/Poisson回归,自动将不调整协变量,以及调整协变量的结果组合在一个表里,并在底注标明调整了哪些协变量,直接输出论文投稿级的表格。并可以一键标化、一键将连续性变量拆分成N个组的分类变量,四分位数等等。
经典的单因素、多因素回归结果组合表,会将所有的自变量回归结果都呈现在一张表格里,适用于探索性影响因素分析,而对于确证性影响因素研究,更关注某一个或某几个感兴趣的影响因素,而其他影响因素则作为混杂因素或协变量放入模型,无需呈现在主表格里,通常作为表格底注说明调整了哪些因素。
MSTATA 可以一键生成这样的表格,请访问www.mstata.com主页,上方点击 vip服务器入口,进入软件后选 “因果推断” 下拉菜单,并选以下模块进入:
分析完成后,还会自动生成 R 代码,一键即可在 R 软件中复现分析过程:
全自动验证性性影响因素分析(显示主要研究因素的回归结果,协变量做底注)机器人
本模块适合做验证性影响因素研究,验证某个影响因素(如治疗分组、或者是否饮酒等)对某个临床结局(事件)的影响,并控制混杂因素或协变量(如性别、年龄、基线血糖等等)。
所谓 “验证性”,是指研究开始已经有明确的目的,特定要研究某个固定的感兴趣的影响因素,而其他影响因素仅作为协变量处理,不展开讨论。
主要特点:
根据上传的科研数据,简单点击设置后,自动完成不调整协变量和调整协变量的回归分析
支持线性回归、Logistic 回归、Cox 回归、Poisson 回归
支持一键自动把连续性变量拆分成分类变量,如 Q1、Q2、Q3、Q4 等
支持一键把连续性变量做标化、取对数等
生成 word 统计报告,自动生成 Title, Objective, Methods 和 Results, 生成 SCI 期刊标准统计表格
准备数据
首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):
下载csv样例数据(右击另存为)
打开如下图:
本样例数据的规则:
一个患者一行(这是准备数据最重要的前提)。
每个患者准备两大类数据,影响因素变量和结局变量,影响因素和结局分别都可以有多个变量。
如图所示,hospital, treatment, age, age2, sex, obstruct, prfor, adhear, differ, extent 为影响因素(自变量),而blood, effect, status, time, occurrence在本例中是结局变量。
影响因素变量有两种,连续性变量(值是连续数据,它可以在变量值所属区间内任意进行取值,如年龄[岁]、血糖值、人的身高、智商等)以及分类变量(是说明事物类别的一个名称,其取值是分类数据。如”性别”就是一个分类变量,其变量值为”男”或”女”;“行业”也是一个分类变量,其变量值可以为”零售业”、“旅游业”、“汽车制造 业”等),在本例中 age是连续性变量(numeric), 其他的是分类变量(factor)。age单位为”岁”时为连续变量,而age2为年龄段分组,这时候为分类变量。
以上概念很重要,后面有一个页面专门设置连续变量和分类变量。
结局变量在本工具中分为几类:
连续型结局变量
如本例中的blood(某血液检测指标)
二分类结局变量
如本例中的effect(疗效)为二分类变量(Good,Bad)
生存型结局变量
需要用两个变量组合来表示,如本例中的status和time。
status代表患者在研究结束时的状态,在本工具中只能取0和1两个数字,不要用字符文本,否则会出错。0 代表没观察到事件发生(如没死或者失访),1 代表观察到了事件发生(如已经死亡且录入了死亡日期)。
time代表从开始日期(开始日期的定义由你的研究目的决定,如随机对照研究往往取随机化入组的那一天为开始日期,而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定)到结局日期的时间差。当status=1时,结局日期为发生事件(如死亡)的日期,当status=0时,结局日期为最后一次活着的日期(如研究结束日,或随后一次随访日)。
总之,time是一个数值型变量,您需要填入患者从开始到死亡或者随后一次随访时,一共活着的天数。如time为56,status为1时代表患者从开始到死亡活了56天;当time为56,status为0时代表患者没观察到死亡,从开始到最后一次随访,活了56天。
准备数据时,time填入一个非负的整数,status填入0或1,time和status都不能为空,每个患者都必须填入数字。time或status不确定(缺失)时,该患者最好不要放入本数据库。
计数型结局变量
计数型的结局变量为一个非负的整数,如本例中occurrence,是急性发作次数,无法取负数,也不可能取小数。
分数型结局变量
当结局变量为一个分数,如发病率、患病率、受精率等,结局包含一个分子和一个分母。如要研究全国各地疾病患病率的影响因素时,按照每个地区一行来准备数据,分子和分母设置成两个变量(列),如分子为患病人数,分母为地区人口数。
准备数据的规则是:分子和分母都是非负整数,不允许填入负数,也不允许填入小数,分子的数值不能大于分母。
操作步骤
选择结局变量
机器人根据结局变量的类型来选择分析方法。二分类变量,系统会选择logistic回归,如果是连续性变量,系统会选择一般线性回归。如果是生存变量Time和Status的组合,系统会采用Cox回归。如果是计次计数变量,系统会选择Poisson回归,当然如果是率或者百分比,也会采用Poisson/负二项回归。
选择影响因素变量
根据提示选择影响因素变量,这里的影响因素是指研究的主要目的,感兴趣的研究变量,论文标题里的主要因素。
选择混杂因素/协变量变量
根据提示选择混杂因素/协变量变量,这里主要指需要调整的其他变量,不是研究主要目的,不感兴趣的自变量,如性别、年龄、是否高血压、糖尿病等。
连续性变量拆成分类变量
连续性变量需要拆成分类变量的场景有:
本身就是一个分类变量,如 I 期,II 期,III 期,IV 期等,只不过用了数字1,2,3,4来表示,这可以在前面筛选变量的界面直接把它设置为分类变量(factor)即可。
前面如果忘记了,或者不方便,这里提供了一个功能,可以设置唯一取值数小于多少个水平的变量,全部转换成分类变量。例如只有5个取值 (比如只有数字1-5可取)以下的变量,全部批量转换成分类变量;
如上图,对于只能取值6以下的变量,统统变成分类变量。
本身是连续性变量,例如年龄、血糖等等,但需要转换成 低、高的二分类变量,或低、中、高的三分类变量,或Q1,Q2,Q3,Q4的四分位数分类变量,这里也提供了一个自动化转换工具,可以根据患者数量,平均拆分成N个组。
如上图,将blood和occurrence两个连续性变量,切成三等分的分类变量
显示了切割分界点的界值。
多大支持切割成20组,因为更多分组没有太大医学价值。
如果需要更强大的分组功能呢,例如自定义切割点,如<10岁,>65岁等,或者用K-means 聚类分组等,可以去本软件的 准备数据 模块,选择”数据离散化” 模块进行复杂的分组操作。
下载word文件
最后进入”下载word文件”
生成文字版的报告。