logistic回归分析时,经常需要将本来是连续数据的转换为分类数据,术语上叫做连续数据离散化,Excel用户把这项工作称之为分组,还有一些教材称之为分箱分桶。
举个最简单的案例,将具体的年龄转换为年龄段,将具体的收入转换为收入水平。
01
案例数据和目的
现在我们有一个工龄变量,是连续型的数据,记录的是职工参加工作的年数,现在我有一个任务,就是将工龄转换为分段的。
如何分段?一般是凭专业知识和经验规则,再或者可以考虑使用四分位数法,或五分位数法进行分段。小兵今天这个案例就用SPSS做四分位法分段。
02
四分位法分段
先就“工龄”连续数据,直接在【分析】→【描述统计】→【频率】菜单,做个频率的条形图,观察一下工龄的分布状态。如下:
所谓四分位法分段,即计算四分位数,然后以四分位数为分割点,将连续数据切割为4个水平分组。第一个分割点即Q1(低于Q1),第二个分割点即中位数(Q1~Q2),第三个分割点即Q3(Q2~Q3),以及剩余的Q3~Q4。所以四分位法分箱只需要3个分割点。
03
SPSS可视离散化
读者朋友先不要着急去描述统计计算“工龄”数据的四分位数,小兵今天将使用的是【可视分箱】菜单,这个菜单下,可以自动计算百分位数并分段分组。
依次点菜单【转换】→【可视分箱】,将“工龄”选入要分箱的变量框内。
1)离散化会新生成一个新的分段变量,所以先给新变量命名,比如本例“工龄分箱”;
2)点击【生成分割点】;
弹出对话框,我们在这里设置百分位数分箱。
1)勾选【基于所扫描个案的相等百分位数】,即我们将命令软件按照百分位数来进行分箱;
2)分割点数输入数字3,这个前面我已经分析过了,四分位数法分段,是3个分割点。
返回主对话框,点【生成标签】按钮,我们再给每个分段自动匹配一个标签,通俗点说,就比如数字1代表30岁以下,数字2代表30-40岁之间的。
参数设置搞定。命令执行。
04
结果展示与解读
数据视图下的结果,如上。
对新的【工龄分箱】变量做条形图,如下:
原来是连续数据的,现在被我们强行分割为4个分段或分组,第一组是工龄小于等于3年的,第二组的是工龄在4到7年之间的,以此类推去解释。
再来一个分箱转换前后的对比:
本文完
文/图=数据小兵
◢ 为你推荐以下文章 ◣
直方图和条形图有没有区别?
SPSS直方图是可以自主分箱的
SPSS图形法检验正态分布
SPSS统计图形:箱线图/盒须图
SPSS频数表、频数分布图制作
矩阵散点图:多变量关系探查利器
数据小兵坚持写博客已经17年
坚持写微信公号文章11年
坚持更新SPSS视频课程5年
坚持一对一答疑讨论5年
绝对超值:一对一答疑
欢迎加入SPSS视频课程
竭诚服务
特别提示,这个课程现在只需要129元了,非常划算。