医学科研中连续性变量离散化的原因和价值

文摘科学 2023-10-17 19:44 上海

医学科研中连续性变量离散化的原因和价值

在医学和其他科学研究领域中，数据可以分为连续性变量和分类变量。连续性变量可以在一个范围内取任何值，如身高、体重或血压等。而分类变量则是有限的几个类别或组别，例如：性别（男、女）、血型（A、B、O、AB）等。

什么是连续性变量的离散化呢？

离散化是将连续性变量转化为分类变量的过程。这通常涉及将一个连续范围的值划分为几个特定的区间，并为每个区间分配一个标签或分类。

例如：假设我们有一个关于成年人年龄的数据集，年龄是一个连续性变量，因为它可以取从18岁到90岁或更大的任何值。如果我们希望将这些年龄数据离散化，我们可以将其分为几个年龄段，如：

18-30岁: “青年”
31-50岁: “中年”
51岁及以上: “老年”

这样，原先的连续性年龄数据就被转化成了三个分类：“青年”、“中年”和“老年”。

离散化的过程虽然简化了数据，但它为何在医学科研中如此普遍呢？以下我们将详细探讨这个问题的答案。

统计学的考量：

简化模型：离散化可以减少连续性数据的复杂性，使得模型更加简单、直观。
处理非线性关系：有些时候，连续性变量与研究的结果之间的关系并不是线性的，而离散化后的分类变量更容易揭示这种非线性关系。
容易与公众和专业人员沟通：分类后的数据更直观、易于理解。例如，说“18-40岁的人群中有60%患某病”，比说“年龄每增加一岁，患病的几率增加2%”更易于大众理解。

2. 医学的考量：

生物学意义：在生物学和医学中，连续变量的某些特定区间可能有特定的意义。如18岁以下是青少年，可能会受到荷尔蒙等生理变化的影响；而40岁以上可能更容易受到慢性疾病的影响。
引导临床决策：离散化的结果更容易转化为临床建议和指南。例如，指导医生针对不同年龄段的患者采用不同的治疗策略。

医学科研的例子：

心血管疾病风险与年龄关系：在评估心血管疾病风险时，年龄是一个重要的风险因素。而在实际的临床指南中，通常会根据年龄段（如<40岁、40-60岁、>60岁）来评估风险，而不是使用具体的年龄值。
骨密度与年龄关系：骨密度随年龄的增长逐渐减少，但是在女性进入更年期后，骨密度下降的速度会加快。因此，将年龄离散化为更年期前和更年期后两个分类，可以更准确地反映骨密度与年龄的关系。
糖尿病的研究：在研究血糖与糖尿病的关系时，尽管血糖是一个连续性变量，但在实际的诊断中，我们通常使用一个血糖阈值（如空腹血糖≥7.0 mmol/L）来确定一个人是否患有糖尿病。

因此，连续性变量的离散化既有统计学上的考量，也有医学的实际需要。在医学科研中，我们需要在保持数据的科学性和准确性的同时，也使其易于理解和应用。因此，适当地离散化连续性变量是非常必要的。

如何进行连续性变量的离散化

离散化连续性变量的方法有很多，以下是几种常用的方法及其示例：

1. 自定义分组界值（拐点）

描述：基于实际需要或已知的知识，手动设置界值来划分连续性变量。

示例：对于年龄，我们可以基于生命周期的不同阶段来设定界值。

<18岁: 儿童
18-65岁: 成年
≥ 65岁: 老年

2. 按照每组人数自动均衡分组

描述：确保每个分类中的样本数是相似的。

假设我们有关于患者的BMI（Body Mass Index）数据，其分布如下：

最小值 (Min): 18
25th 百分位数 : 22
50th 百分位数，即中位数: 25
75th 百分位数: 28
最大值 (Max): 35

基于上述的百分位数，BMI数据可以被划分为以下四组：

18-22: （Q1） BMI组
22.1-25: （Q2） BMI组
25.1-28: （Q3） BMI组
28.1-35: （Q4） BMI组

这种方法利用了数据的内在分布特性，可以确保每个组间的数值差异有实际意义。

3. 按照每组取值范围自动均衡分组

描述：确保每个分类的取值范围宽度是相同的。

示例：对于从5g/dL到25g/dL的血红蛋白数据，如果我们想将其划分为4组，那么每组的血红蛋白范围为5g/dL。

5-9 g/dL
10-14 g/dL
15-19 g/dL
20-25 g/dL

4. K-means 聚类分组

描述：使用K-means聚类算法，将数据分为K个群集，每个群集的中心是该群集中所有点的均值。

示例：假设我们有关于患者胆固醇水平的数据，并且我们决定使用K-means将其划分为3组。算法可能会找到三个胆固醇水平的中心，如180, 220, 和 260 mg/dL，并根据这些中心将所有患者进行分类。

使用 MSTATA 软件进行连续性变量的离散化

MSTATA 可以用上述四种方法，人工智能一键批量完成连续性变量的离散化分组，进入 www.mstata.com 网站左侧点MSTATA医学统计机器人，进入后可以点“数据预处理工具入口”，进入专门的连续性变量分组模块进行，也可以在其他统计模块里内置的数据修改页面进行离散化操作。

选择需要离散化的变量:

该应用首先会从数据集中筛选出数值型的变量，并确保这些变量具有超过2个唯一值。
用户可以从下拉菜单中选择想要离散化的变量。

选择离散化方法:

自定义分组界值（拐点）
按照每组人数自动均衡分组
按照每组取值范围自动均衡分组
K-means 聚类分组

设定分组数量:

用户可以通过滑动条选择将数据分为多少个组。分组数量的上限取决于所选变量的唯一值数量，但最大不超过30。

输入拐点（仅在选择“自定义分组界值”时需要）:

基于用户选择的组数，应用会生成若干个输入框，用户可以在其中输入各个拐点。默认情况下，拐点值会基于所选变量的最大值和最小值进行预设。

选择数据分割方式（仅在选择“自定义分组界值”时需要）:

用户可以选择用于定义范围的符号："< 和 ≥" 或 "≤ 和 >"。

输入/修改分组标签（仅在选择“自定义分组界值”时需要）:

根据用户输入的拐点和所选的分割方式，应用会生成默认的分组标签。用户可以选择保留这些标签，或进行修改。

输入新的变量名称:

用户可以为离散化后的新变量输入名称。默认名称是原变量名后加上“_group”。

开始离散化:

用户点击“进行离散化分组”按钮开始离散化过程。

复位:

如果用户想要重新开始，可以点击“复位（所有分组清零）”按钮，清除所有之前的设置

所以，整个过程极其简单和傻瓜，只要输入要分几组，输入一下拐点值，也可以选用 < 号还是 ≤ 号来分割数据，点一下开始键，系统就自动分好组，并设置好合适的分组名称，您也可以自己改名称，整个过程不超过30秒，非常的好用，赶紧试试吧！

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247486634&idx=1&sn=723f0958d9ff24f781ac231c39c672f0

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

一键完成复杂抽样加权（NHANES 等）回归分析的亚组（分层）分析及森林图的绘制

NHANES 复杂抽样加权：为何层内 PSU 只有 1 个时 R 软件会报错？

NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

一键完成亚组（分层）分析及其森林图，支持连续性及二分类的自变量了！

一键完成单因素+多因素竞争风险模型分析

MSTATA 升级至 0.93 版，使用 docker 预启动技术

一键生成NHANES等复杂抽样加权的基线表（Table 1）

告别长时间加载, MSTATA医学统计机器人0.93版预告

一键完成NHANES复杂抽样加权的单因素+多因素回归分析并自动生成R代码

有序分类 Logistic 回归 R 包横向测评及自动代码生成 AI 工具介绍

为何SPSS计算的中位生存期，是10个月，而R计算的中位生存期，是18个月？

基线表（Table 1）里的值到底应该保留几位小数

基线表（Table 1）如何一键增加显示统计量（t 值，卡方值、F值等）

重磅！一键自动秒生产 10+分 SCI 新套路：什么人群治疗有效？治疗组和连续性变量交互作用的立方样条图

一键生成多模型（调整不同的协变量）比较的论文发表级表格

一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

双结局展现在同一个亚组森林图！从Excel结果数据到华丽森林图一键转换

亚组分析森林图生成器万能加强版

一键自动生成临床试验不良事件 AE 表格

MSTATA 0.92版预览

医院行风建设背景下，医生如何进行风险管理？

MSTATA 改版倒计时

一键自动生成 Cox-nomogram 临床预测研究 SCI 论文

MSTATA 智能版取得重要突破

外部验证集的AUC比训练集还大，正常吗

陆续公布统计软件的源代码

勘误：在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

Mstata 全新颠覆性的版本将在新年上线

医学科研中连续性变量离散化的原因和价值

请选择开放分析源代码的统计分析平台

如何自动得到亚组分析森林图，并显示Events/N

基线表模块升级：根据Q-Q图判断正态性并选择统计方法

超强！一键完成中介效应分析并自动生成投稿级别的论文表格

一键生成十种绚丽色彩的临床基线特征表PPT

当分类变量的分组数量>20时，还能放入回归模型吗

Mstata访问故障的公告

GPT终于可以根据用户自己上传的临床数据一键生成可投稿级的SCI 论文了

MSTATA为什么最近没有更新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

医学科研中连续性变量离散化的原因和价值

统计学的考量：

2. 医学的考量：

医学科研的例子：

1. 自定义分组界值（拐点）

2. 按照每组人数自动均衡分组

3. 按照每组取值范围自动均衡分组

4. K-means 聚类分组