在科研分析中,非编程统计软件虽方便,却常因不提供源代码而产生“黑箱效应”,导致结果不透明并引发争议。MSTATA 解决了这一问题,鼠标一键生成 Table 1 基线特征表,并自动生成详细的 R 源代码,包含中英文注释。相比其他只提供结果的 R 包,MSTATA 代码拆解到每个变量的原始统计过程,确保透明性与可追溯性。让您的分析更加严谨、透明,确保学术成果可信。访问 www.mstata.com 即刻体验。
为什么要生成源代码?
MSTATA 软件 Table 1 基线表开源
tableone
或 createtableone
可以快速生成基线特征表,但它们本质上也是一种“黑匣子”解决方案。除非用户对编程有深入的了解,能够到 GitHub 查看这些包的源代码,否则很难溯源这些包中所用的统计方法和细节。与市面上很多封闭的统计软件不同,MSTATA 提供了对数据分析每一步骤的完全控制。它的核心优势在于生成的源代码不仅透明,还严格溯源,确保学术分析的每一个步骤都能经得起检验。相比那些依赖 R 包自动生成结果的方式,MSTATA 生成的代码更加贴近原始的统计分析过程。每个步骤都使用了最基本的 R 函数,如 t.test()、chisq.test() 等,极大程度地避免了不必要的复杂性和隐藏的统计假设。
通过 MSTATA,您不仅可以获得学术研究所需的 Table 1 基线特征表,还能确保每一个变量的分析过程清晰透明,从而提高研究的可信度和重复性。这种完全公开和透明的做法,不仅让您的研究更加可靠,也有助于在学术领域内树立正直和严谨的形象。
此外,MSTATA 不仅仅提供 R 源代码的下载,同时也直接将 R 源代码在 R 里运行的结果直接提供,非常方便,可以直接拷贝和截图,不用自己再本地运行了:
附录:MSTATA 基线表生成使用说明书:
全自动基线统计表(Table One)生成工具
这是一款智能进行统计分析的工具,用来生成论文里患者基线人口学特征表(Table one)。
主要特点:
根据上传的科研数据,简单点击设置后,一键自动生成基线特征统计表
支持不分组(一维表)/分组(二维表)/分层+分组(三维表)描述统计
支持自动和手动指定组间比较的统计方法
支持人工智能自动进行正态性检验和自动选择合适的统计学方法计算 P 值
支持人工智能生成描述性文字
生成 SCI 投稿格式的 word 统计报告(黑白表格)
支持生成 PPT 文件(彩色表格)
一键生成 R 源代码,作为存档提供给投稿期刊
一维表:
二维表:
三维表:
彩色 PPT:
软件自动给表格添加文字描述:
准备数据
首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):
下载csv样例数据(右击另存为)
打开如下图:
本样例数据的规则:
一个患者一行(这是准备数据最重要的前提)。
本例中 treatment 为分组变量,下面有三个治疗组。
所有变量分为连续性变量和分类变量两种,连续性变量(值是连续数据,它可以在变量值所属区间内任意进行取值,如年龄[岁]、血糖值、人的身高、智商等)以及分类变量(是说明事物类别的一个名称,其取值是分类数据。如”性别”就是一个分类变量,其变量值为”男”或”女”;“行业”也是一个分类变量,其变量值可以为”零售业”、“旅游业”、“汽车制造 业”等),在本例中 age 、blood 等是连续性变量(numeric), 其他的是分类变量(factor)。有些数据虽然是用1, 2, 3, 4 数字表示的,但代表的是职业”工人”,“农民”,“知识分子”,“干部”,其实也是个分类变量。
以上概念很重要,后面有一个页面专门设置连续变量和分类变量。
操作说明书:自动生成患者人口和临床特征表(Table One)
1. 设置统计表的基本选项
在开始生成统计表之前,首先需要设置一些基本选项:
选择统计表语言:
您可以选择统计表的语言,选项包括:
英文:统计表将以英文显示,推荐首选。
中文:统计表将以中文显示。
统计表外观:
选择统计表的外观风格,选项包括:
舒展型:表格宽,字体较大,视觉上更舒适。
紧凑型:表格较窄,字体较小,能够在屏幕上显示更多内容。
是否分组统计:
确定统计表的类型,选项包括:
否,整体人群单组描述(一维表):对整体人群进行描述,不进行分组。
分组分析描述(二维表):根据某个变量将人群分组,进行组间比较。
分层+分组分析描述(三维表):在分层的基础上,再进行分组分析。
2. 选择分层和分组变量
根据您的统计表类型,可能需要选择分层和分组变量:
分层变量(仅当选择三维表时):
在下拉菜单中选择一个用于分层的变量。例如,性别、年龄组等。
分层分析可以帮助您在不同的亚组中进行比较,揭示潜在的差异。
分组变量(当选择二维表或三维表时):
在下拉菜单中选择一个用于分组的变量。例如,治疗组别、疾病状态等。
分组分析用于比较不同组别之间的特征差异。
注意:如果在下拉菜单中未找到您需要的变量,可能是因为该变量未被识别为分类变量。请返回数据准备部分,将该变量设置为因子(factor)类型。
3. 选择需要统计的变量
选择统计变量:
在多选列表中选择您希望在统计表中展示的变量。
您可以选择多个变量,支持鼠标拖拽排序,调整变量的展示顺序。
提示:建议选择与研究相关的关键变量,包括人口学特征、临床指标等。
4. 数值型变量的处理
是否将数值型变量转换为分类变量:
如果选择自动转换,您可以设置:
水平数小于多少视为分类变量:设置一个阈值,变量的取值种类数小于该值时,自动转换为分类变量。默认值为6。
不转换,当做普通连续性变量:数值型变量将以连续变量的形式进行统计(如计算均值、标准差)。
将取值范围较少的数值型变量自动转换为分类变量:对于取值种类较少的数值型变量(如只有0/1或1/2/3),可以自动转换为分类变量。
5. 连续性变量的分组
将连续性变量根据分位数转换成分类变量:
如果希望将连续性变量分组(如将年龄分为低、中、高三组),可以:
勾选 将连续性变量根据分位数转换成低、中、高等 n 等分的分类变量。
选择需要转换的变量。
设置分组数目(一般医学研究中,分2-4组较为合适)。
勾选 显示每个分组的切点界值,以便了解各组的划分标准。
6. 选择统计方法
数值型变量的统计方法:
您需要选择连续性变量的描述方式和组间比较方法:
均值(标准差)统计,用参数法检验:适用于服从正态分布的变量,使用 t 检验或方差分析。
中位数(IQR)统计,用非参数法检验(推荐):适用于非正态分布的变量,使用 Mann-Whitney U 检验或 Kruskal-Wallis 检验。
同时显示均值、标准差、中位数、IQR、最小值、最大值:提供更全面的描述。
自动选择统计方法:计算机根据 Shapiro-Wilk 正态性检验结果,自动选择参数法或非参数法(样本量小于5000时适用)。
手动指定统计方法(推荐):您可以人为指定每个变量使用哪种统计方法,需先观察 Q-Q 图判定正态性。
提示:对于样本量较大的数据,Shapiro-Wilk 检验可能不可靠,建议通过 Q-Q 图或其他方法判断正态性。
查看 Q-Q 图:
点击 显示 Q-Q 图以观察变量的正态性 按钮,查看各连续性变量的 Q-Q 图,以判断其分布形态。
手动指定统计方法(当选择手动指定时):
对于每个连续性变量,选择使用 均值(标准差)统计,用参数法检验 或 中位数(IQR)统计,用非参数法检验。
7. 统计表的详细设置
连续性变量统计方式的标注:
在表格下方统一底注:在表格底部统一说明连续性变量的统计方法。
对每个字段分别标注:在每个变量的名称后直接标注统计方法。
是否显示 P 值列(当进行组间比较时):
是:显示各变量的组间比较 P 值。
否:不显示 P 值(在随机对照研究中不推荐显示 P 值)。
P 值计算方法的标注:
在表格底注统一标注:在表格底部统一说明各变量的 P 值计算方法。
为每个变量逐一拆分标注:在每个变量的名称后标注所用的检验方法(仅适用于二维表)。
是否显示统计量:
如果选择显示统计量,可以设置:
统计量的小数位数:调整统计量的精度,默认保留2位小数。
是:在表格中显示统计检验的统计量(如 t 值、F 值、χ² 值)。
否:不显示统计量。
是否显示 95% 置信区间(当不进行组间比较时):
是:显示连续性变量的95%置信区间。
否:不显示。
是否增加“合计”列(当进行分组分析时):
是:在表格中增加一列显示所有组别的合计数据。
否:不增加合计列。
是否显示缺失值数量:
是:在表格中显示每个变量的缺失值数量。
否:不显示缺失值信息。
8. 设置小数位数
连续性变量的小数位数:
系统自动设置:软件根据数据自动决定保留的小数位数。
手动设置:您可以为每个连续性变量单独设置均值或中位数保留的小数位数,标准差会在此基础上自动增加一位。
百分比的小数位数:
设置分类变量的百分比保留的小数位数,默认保留1位小数。
P 值的小数位数:
设置 P 值保留的小数位数,通常为3位。
9. 生成统计表
点击生成/更新基线表:
在所有设置完成后,点击 生成/更新基线表 按钮,软件将根据您的设置生成统计表。
10. 重要统计学概念解释
参数法与非参数法:
参数法:假设数据服从某种分布(如正态分布),使用均值和标准差进行描述,适用于 t 检验、方差分析等。
非参数法:不依赖于数据的分布形式,使用中位数和四分位数间距(IQR)进行描述,适用于 Mann-Whitney U 检验、Kruskal-Wallis 检验等。
正态性检验:
Shapiro-Wilk 检验:用于检验数据是否服从正态分布,适用于样本量较小的数据集。
Q-Q 图:通过绘制理论分位数与实际数据分位数的散点图,直观判断数据的分布形态。
P 值:
表示统计检验中观察到的结果在零假设成立的条件下出现的概率。P 值越小,拒绝零假设的证据越强。
置信区间(Confidence Interval, CI):
用于估计总体参数的范围,通常使用95%置信区间,表示有95%的概率包含真实的总体参数。
缺失值处理:
在统计分析中,了解变量的缺失情况有助于评估数据的完整性和分析结果的可靠性。
下载word文件
最后进入”下载word文件”