医学科研中连续性变量离散化的原因和价值

文摘   科学   2023-10-17 19:44   上海  


医学科研中连续性变量离散化的原因和价值



在医学和其他科学研究领域中,数据可以分为连续性变量和分类变量。连续性变量可以在一个范围内取任何值,如身高、体重或血压等。而分类变量则是有限的几个类别或组别,例如:性别(男、女)、血型(A、B、O、AB)等。

什么是连续性变量的离散化呢?



离散化是将连续性变量转化为分类变量的过程。这通常涉及将一个连续范围的值划分为几个特定的区间,并为每个区间分配一个标签或分类。

例如:假设我们有一个关于成年人年龄的数据集,年龄是一个连续性变量,因为它可以取从18岁到90岁或更大的任何值。如果我们希望将这些年龄数据离散化,我们可以将其分为几个年龄段,如:

  • 18-30岁: “青年”

  • 31-50岁: “中年”

  • 51岁及以上: “老年”


这样,原先的连续性年龄数据就被转化成了三个分类:“青年”、“中年”和“老年”。

离散化的过程虽然简化了数据,但它为何在医学科研中如此普遍呢?以下我们将详细探讨这个问题的答案。

  1. 统计学的考量


  • 简化模型:离散化可以减少连续性数据的复杂性,使得模型更加简单、直观。

  • 处理非线性关系:有些时候,连续性变量与研究的结果之间的关系并不是线性的,而离散化后的分类变量更容易揭示这种非线性关系。

  • 容易与公众和专业人员沟通:分类后的数据更直观、易于理解。例如,说“18-40岁的人群中有60%患某病”,比说“年龄每增加一岁,患病的几率增加2%”更易于大众理解。


2. 医学的考量


  • 生物学意义:在生物学和医学中,连续变量的某些特定区间可能有特定的意义。如18岁以下是青少年,可能会受到荷尔蒙等生理变化的影响;而40岁以上可能更容易受到慢性疾病的影响。

  • 引导临床决策:离散化的结果更容易转化为临床建议和指南。例如,指导医生针对不同年龄段的患者采用不同的治疗策略。


医学科研的例子


  1. 心血管疾病风险与年龄关系:在评估心血管疾病风险时,年龄是一个重要的风险因素。而在实际的临床指南中,通常会根据年龄段(如<40岁、40-60岁、>60岁)来评估风险,而不是使用具体的年龄值。

  2. 骨密度与年龄关系:骨密度随年龄的增长逐渐减少,但是在女性进入更年期后,骨密度下降的速度会加快。因此,将年龄离散化为更年期前和更年期后两个分类,可以更准确地反映骨密度与年龄的关系。

  3. 糖尿病的研究:在研究血糖与糖尿病的关系时,尽管血糖是一个连续性变量,但在实际的诊断中,我们通常使用一个血糖阈值(如空腹血糖≥7.0 mmol/L)来确定一个人是否患有糖尿病。


因此,连续性变量的离散化既有统计学上的考量,也有医学的实际需要。在医学科研中,我们需要在保持数据的科学性和准确性的同时,也使其易于理解和应用。因此,适当地离散化连续性变量是非常必要的。


如何进行连续性变量的离散化



离散化连续性变量的方法有很多,以下是几种常用的方法及其示例:

1. 自定义分组界值(拐点)


描述:基于实际需要或已知的知识,手动设置界值来划分连续性变量。

示例:对于年龄,我们可以基于生命周期的不同阶段来设定界值。

  • <18岁: 儿童

  • 18-65岁: 成年

  • 65岁: 老年

2. 按照每组人数自动均衡分组


描述:确保每个分类中的样本数是相似的。

假设我们有关于患者的BMI(Body Mass Index)数据,其分布如下:

  • 最小值 (Min): 18

  • 25th 百分位数 : 22

  • 50th 百分位数 ,即中位数: 25

  • 75th 百分位数: 28

  • 最大值 (Max): 35


基于上述的百分位数,BMI数据可以被划分为以下四组:

  • 18-22: (Q1) BMI组

  • 22.1-25: Q2 BMI组

  • 25.1-28: Q3 BMI组

  • 28.1-35: Q4 BMI组


这种方法利用了数据的内在分布特性,可以确保每个组间的数值差异有实际意义。

3. 按照每组取值范围自动均衡分组


描述:确保每个分类的取值范围宽度是相同的。

示例:对于从5g/dL到25g/dL的血红蛋白数据,如果我们想将其划分为4组,那么每组的血红蛋白范围为5g/dL。

  • 5-9 g/dL

  • 10-14 g/dL

  • 15-19 g/dL

  • 20-25 g/dL


4. K-means 聚类分组


描述:使用K-means聚类算法,将数据分为K个群集,每个群集的中心是该群集中所有点的均值。

示例:假设我们有关于患者胆固醇水平的数据,并且我们决定使用K-means将其划分为3组。算法可能会找到三个胆固醇水平的中心,如180, 220, 和 260 mg/dL,并根据这些中心将所有患者进行分类。


使用 MSTATA 软件进行连续性变量的离散化



MSTATA 可以用上述四种方法,人工智能一键批量完成连续性变量的离散化分组,进入 www.mstata.com  网站左侧点MSTATA医学统计机器人,进入后可以点“数据预处理工具入口”,进入专门的连续性变量分组模块进行,也可以在其他统计模块里内置的数据修改页面进行离散化操作。

  1. 选择需要离散化的变量:

  • 该应用首先会从数据集中筛选出数值型的变量,并确保这些变量具有超过2个唯一值。

  • 用户可以从下拉菜单中选择想要离散化的变量。

  • 选择离散化方法:

    • 自定义分组界值(拐点)

    • 按照每组人数自动均衡分组

    • 按照每组取值范围自动均衡分组

    • K-means 聚类分组

  • 设定分组数量:

    • 用户可以通过滑动条选择将数据分为多少个组。分组数量的上限取决于所选变量的唯一值数量,但最大不超过30。

  • 输入拐点(仅在选择“自定义分组界值”时需要):

    • 基于用户选择的组数,应用会生成若干个输入框,用户可以在其中输入各个拐点。默认情况下,拐点值会基于所选变量的最大值和最小值进行预设。

  • 选择数据分割方式(仅在选择“自定义分组界值”时需要):

    • 用户可以选择用于定义范围的符号:"< 和 ≥" 或 "≤ 和 >"。

  • 输入/修改分组标签(仅在选择“自定义分组界值”时需要):

    • 根据用户输入的拐点和所选的分割方式,应用会生成默认的分组标签。用户可以选择保留这些标签,或进行修改。

  • 输入新的变量名称:

    • 用户可以为离散化后的新变量输入名称。默认名称是原变量名后加上“_group”。

  • 开始离散化:

    • 用户点击“进行离散化分组”按钮开始离散化过程。

  • 复位:

    • 如果用户想要重新开始,可以点击“复位(所有分组清零)”按钮,清除所有之前的设置


    所以,整个过程极其简单和傻瓜,只要输入要分几组,输入一下拐点值,也可以选用 < 号还是 ≤ 号来分割数据,点一下开始键,系统就自动分好组,并设置好合适的分组名称,您也可以自己改名称,整个过程不超过30秒,非常的好用,赶紧试试吧!






    真实世界数据
    介绍真实世界数据,真实世界研究和真实世界证据
     最新文章