当分类变量的分组数量>20时，还能放入回归模型吗

文摘科学 2023-08-15 10:47 中国香港

近期收到用户的提问，为什么 MSTATA 软件的很多功能模块中，都在 UI 界面中禁止放入水平数>20的分类变量进入回归模型。现在解释和科普如下：

任何软件都没有禁止水平数>20的分类变量进入模型，但 MSTATA 确实禁止了
原因是MSTATA的适用对象很多都不是成熟的统计人员，更多的是临床业余爱好者，先说说为什么咱们的数据中会有水平数很多的分类变量吧：

a. 最多的场景，这并不是一个分类变量，而是一个连续性变量，例如血压值，在用户使用.xlsx文件时，由于各种原因，在 excel 中设置的是文本，text，导致导入后变成了一个character文本变量，尽管 MSTATA 中反复提示，需要将相应的变量类型重新正确设置，但是很多用户还是直接忽视。因此变成了一个水平数很多的分类变量，这样进入模型，得出的结果会误导用户，因此我们直接做了禁止。

b. 当分类变量水平数很多时，例如>20, 这时候我们通常并不关心亚组之间的比较了，也就是说，这样的变量往往不是研究关注的因子，通常只是作为协变量进行调整。例如多中心临床试验中，有100家医院，这时候，医院就是一个水平数很多的分类变量，但我们只关注试验组和对照组哪个好，并不关心哪家医院的疗效更好，我们不想比较医院之间的疗效差别。

但是我们更关心医院这个因素，有没有对试验组和对照组的疗效比较产生作用，众所周知，每家医院的患者特征，医疗水平都有不同，是否会对两组疗效的方向和大小产生作用，这个是要控制的。

我们并不想让用户直接把这样的变量放进回归模型，因此我们做了禁止，这是 MSTATA 的自身定位决定的。SPSS 和 R 等统计软件能够无差别的让用户做任何分析，而 MSTATA 不是这样的统计软件，我们更需要把临床研究的理念贯穿到软件中，潜移默化的防止用户用错统计方法，这也是MSTATA存在的价值之一。

那么，水平数很多的分类变量怎么放入模型呢？我们建议使用混和效应模型。

在实践中，我们经常遇到分类变量，如性别、地区、品牌等。当我们需要将这些分类变量纳入模型时，一个常用的技巧是使用哑变量（又称“虚拟变量”）。但是，当分类变量的水平数目过多，特别是超过20时，直接使用哑变量放入普通的回归模型可能并不是一个好的选择（前提是我们并不关心这些亚组之间的互相比较）。这时，混合效应模型提供了一个更优雅的解决方案。下面我们来探讨原因：

参数估计和稳定性问题：当一个分类变量有大量的水平时，为每个水平设置一个哑变量会产生大量的参数。这使得模型过于复杂，容易出现过拟合，尤其是当某些水平的观测数很少时。这些少数的观测会导致参数估计不稳定，使得模型的泛化能力下降。

计算复杂度：大量的哑变量将增加模型的计算复杂度。这不仅增加了拟合模型的时间，也可能在求解过程中遇到困难。

结果解释：大量的哑变量会使得模型结果难以解释。尤其是当我们希望了解某个具体水平与其他水平之间的差异时，这种差异可能会因为过多的参数而变得模糊不清。

那么，如何处理这种情况呢？答案是使用混合效应模型。

混合效应模型是线性模型的一种扩展，它可以处理固定效应和随机效应。当我们面对大量水平的分类变量时，可以考虑将其视为随机效应。这种方式允许我们为每个水平估计一个随机偏差，而不是一个固定的参数。这有几个优点：

参数简化：随机效应模型不需要为每个水平估计一个固定的参数，而是估计一个整体的方差。这大大减少了模型的参数数量。

灵活性：混合效应模型可以同时处理固定效应和随机效应，为研究者提供了一个灵活的框架来探讨数据中的不同效应。

具体操作：

进入www.mstata.com 左侧选MSTATA，选以统计学方法分类 - 混和效应模型 - 广义混和效应模型：

在这个例子中，我们把 hospital 作为随机效应放入了模型，这是一个比较合适的选择。

当然，如果您的研究目的是要比较哪家医院疗效好，这就是另一回事了，就要放入固定效应了。不过，很少有需要比较100家医院互相之间哪家好的情况出现。如果真有这样的需求，可能也不一定要用普通回归分析来完成，有很多其他的排序类的现代统计学方法可以采用。

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247486144&idx=1&sn=00fe123a4f834eb5601b69e573e970d1

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

一键完成复杂抽样加权（NHANES 等）回归分析的亚组（分层）分析及森林图的绘制

NHANES 复杂抽样加权：为何层内 PSU 只有 1 个时 R 软件会报错？

NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

一键完成亚组（分层）分析及其森林图，支持连续性及二分类的自变量了！

一键完成单因素+多因素竞争风险模型分析

MSTATA 升级至 0.93 版，使用 docker 预启动技术

一键生成NHANES等复杂抽样加权的基线表（Table 1）

告别长时间加载, MSTATA医学统计机器人0.93版预告

一键完成NHANES复杂抽样加权的单因素+多因素回归分析并自动生成R代码

有序分类 Logistic 回归 R 包横向测评及自动代码生成 AI 工具介绍

为何SPSS计算的中位生存期，是10个月，而R计算的中位生存期，是18个月？

基线表（Table 1）里的值到底应该保留几位小数

基线表（Table 1）如何一键增加显示统计量（t 值，卡方值、F值等）

重磅！一键自动秒生产 10+分 SCI 新套路：什么人群治疗有效？治疗组和连续性变量交互作用的立方样条图

一键生成多模型（调整不同的协变量）比较的论文发表级表格

一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

双结局展现在同一个亚组森林图！从Excel结果数据到华丽森林图一键转换

亚组分析森林图生成器万能加强版

一键自动生成临床试验不良事件 AE 表格

MSTATA 0.92版预览

医院行风建设背景下，医生如何进行风险管理？

MSTATA 改版倒计时

一键自动生成 Cox-nomogram 临床预测研究 SCI 论文

MSTATA 智能版取得重要突破

外部验证集的AUC比训练集还大，正常吗

陆续公布统计软件的源代码

勘误：在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

Mstata 全新颠覆性的版本将在新年上线

医学科研中连续性变量离散化的原因和价值

请选择开放分析源代码的统计分析平台

如何自动得到亚组分析森林图，并显示Events/N

基线表模块升级：根据Q-Q图判断正态性并选择统计方法

超强！一键完成中介效应分析并自动生成投稿级别的论文表格

一键生成十种绚丽色彩的临床基线特征表PPT

当分类变量的分组数量>20时，还能放入回归模型吗

Mstata访问故障的公告

GPT终于可以根据用户自己上传的临床数据一键生成可投稿级的SCI 论文了

MSTATA为什么最近没有更新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉