3 分钟小案例，秒懂决策树构建思路

科技 2024-10-24 17:04 上海

点击蓝字，关注我们

数据分析软件 | JMP

今天我们一起看看关于决策树的技术干货！

本文作者

邓老师 - JMP 资深数据分析顾问

决策树是一种机器学习方法，每次根据某个规则，选择一个特征，并以该特征的某个值作为阈值，把训练样本递归的分为若干子树，以同样的规则递归拆分，最后得到一棵可用于决策分类的树形分类器，其主要算法有：ID3、C4.5、CART 等。

决策树是一种常用的分类方法，需要监督 (Supervised) 学习，监督学习就是给出一组样本，每个样本都有对应的变量和分类结果，在分类结果已知的前提下，通过学习这组样本得到一颗决策树，这颗决策树就能够对新的样本进行预测分类。

接下来，我们通过一个简单的案例帮助大家理解决策树的构建思路。

案例分析

决策树的生成

开门见山，如下有一组数据，该数据包含了 20 个样本，希望通过“今天是否周末”及“今天心情如何”来预测“是否外出看电影”。

然后用这一组附带分类结果的样本进行训练，这里为了简化过程，我们假设决策树为二叉树，且类似于下图：

通过样本数据的学习，可以发现每个变量节点都有一个具体的判断指标，如周末、非周末，心情好、一般、不好，我们将其称之为阈值。如果是数值型的变量节点，则阈值一般为一个具体的值，如年龄是否超过 30 岁对结果进行判断，则 30 称为阈值。

决策树的生成一般分为两步，通过学习已知样本的分类结果来实现：

第一步

一般来说，变量的节点无法给出结果的判断时，节点会一分为二，如果不是二叉树则一分为多，直到分无可分。如该样本数据中，“今天是否周末”无法直接判断看或者不看电影，则加入新的变量节点“心情如何”再进行拆分，直至无法拆分为止。

第二步

选择合适的阈值使得误分类率最小。

案例分析

决策树算法

前面介绍过，常用的决策树算法有 ID3、C4.5 和 CART（Classification And Regression Tree），其中CART 分类效果优于其他算法，也是 JMP 所采用的方法。

接下来我们分别进行介绍：

ID3 算法

采用信息增益来评估拆分条件，对于一组样本数据增益越大说明分类效果越好。信息增益的过程其实是一种熵降的过程，熵定义的是信息的混乱程度，ID3 建模的过程也是将信息由混乱变单纯的过程。

上面案例中提到两个变量，是否周末、心情如何。例如我们想要判断决定”看电影“，我们看看每个变量节点分类效果如何：

变量节点	确定变量节点的样本数	决定”看电影“的样本数量	决定”看电影“的误分类数量
今天是周末	11	10	1
心情好	6	6	0
心情一般	6	4	2

最后发现“心情好”决定“看电影”的误分类率最低，也就是信息增益最大，所以 ID3 构建决策树的时候会优先拆分“今天心情如何”这项变量。

C4.5 算法

观察上面ID3的算法会发现，水平数越多的拆分变量节点拆分时的误分类率越低，熵也会随之越小。假如使用“ID”作为拆分变量，则子集纯度可以达到最高 (因为此时每个子集只有1个样本)，信息增益最大。但显然，这样的拆分变量对于预测是毫无意义的，这也是所谓的过度拟合（Over Fitting）。

因此，为了避免拆分类别过多的“陷阱”，C4.5算法采用信息增益率来评估拆分条件，信息增益率的分母会随着拆分水平数增加而增大，从而导致信息增益率降低。如果按照C4.5算法进行拆分，虽然“今天心情如何”作为拆分变量可以得到更单纯的子集，但是其拥有“心情好、一般、不好”三个水平，导致其信息增益率反而低于“今天是否周末”这个变量，所以C4.5优先选择的是“今天是否周末”为拆分变量。具体信息增益率的算法本文就不做赘述。

CART 算法

CART 算法与 C4.5 算法思路是非常相似的，但是在具体实现和应用场景上略有不同：CART 算法不仅仅能够处理分类型的目标响应，同时也能处理连续型的目标响应，这也是其被称作分类与回归树的原因；ID3 算法只能处理分类响应，即只能建立分类树。

CART 可以是一个回归树。理想地说每一个子节点里都只有一个类别时分类应该停止，但是很多数据并不容易完全划分，或者完全划分需要很多次拆分，必然造成很长的运行时间，所以CART可以对每个子节点里的数据分析其均值标准差，当标准差小于一定值可以终止拆分，从而降低计算成本。

CART 算法采用基尼指数 (分类树) 及标准差(回归树) 作为纯度的度量；而 ID3 算法采用信息熵作为纯度的度量。两者也有相似之处，总体内包含的类别越混乱，基尼指数就越大。CART 算法只能建立二叉树，而 ID3、C4.5 算法能够建立多叉树 (注：只能建立二叉树并不是指响应变量只能选取二水平变量，CART 算法会采用对多水平进行合并的原则，从而输出二叉树)。

CART 存在一些细小分割，即过度拟合的问题，为了解决这一问题，对特别长的树进行剪枝处理，直接剪掉。当然也可以采用一些交叉验证的方法协助构建决策树以防止出现过度拟合的问题。

利用 JMP 分析-预测建模-分割（即决策树）可快速进行 CART 的模型建立，并形成树。但要说明的是 JMP 中针对分类树采用的是 G²（似然比卡方，与基尼指数类似），G² 越小，纯度越高，分类的效果越好。如下所示：

上图展示如何将响应与变量放置在分割平台对话框中

上图 CART 分类树显示，对于“是否看电影”这件事情的决定，“今天是否周末”是最重要的变量，也是使得 G² 下降最快的变量。再对“今天是周末”这个分支进行拆分，可以得到一个G²为0的子分支（是周末且心情好，即100%决定看电影），达到分无可分的目的，分类树构建完成。

这就是 JMP 构建决策树的过程，希望对大家有所帮助。

欢迎来 JMP 统计社区精进您的技能！

关于 JMP

1989 年第一版 JMP 软件问世以来，JMP 一直致力于通过交互式可视化统计分析，发现数据背后的价值，被广泛应用于业务可视化、探索性数据分析(EDA)、数据挖掘、建模预测、实验设计、产品研发、生物统计、医学统计、可靠性分析、市场调研、六西格玛质量管理等领域，裨益半导体和电子、医药、化工、食品、金融和服务、政府和教育等各行各业。

JMP Pro

专为科学家和工程师打造的预测分析软件

JMP Pro 提供一系列丰富的算法，让您能够构建高效的模型，您还可以通过模型筛选，轻松找到最适合您的数据的模型，轻松构建候选模型，然后使用 C、Python、JavaScript、SAS 或 SQL 进行分析、对比和生成评分代码。

近期微信公众号又又又更改了规则，各位亲爱的JMPer们一定要把我们"星标⭐"起来，否则你就接收不到我们的推送啦。

只需两步👇 把JMP星标起来，这样你不会失去我们啦~

JMP官方微信公众号

敏捷分析成就无限

在看

点击“阅读原文”，立即免费下载JMP试用！

http://mp.weixin.qq.com/s?__biz=MjM5MDA3NjYyOQ==&mid=2650114442&idx=1&sn=48f9f9fb4da0113faddc234a4b35bb6c

JMP数据分析

JMP是全球领先的数据分析方法及咨询供应商，致力于帮助客户从数据中获取价值，优化决策，驱动创新，成就未来。

让您的案例成为行业标杆！2025年Discovery Summit数据分析峰会案例展示报名开启！

庆祝 #世界质量周加入闯关挑战，免费学习资源等你来拿！

60分钟掌握JMP如何调用Python实现更强大的数据分析 | 立即报名

明日开营 | 9个案例聚焦数据可视化典型应用， JMP 用户训练营见！

工程师必备的25个数据清洗妙招，立刻获取即查即用的数据清洗手册

3 分钟小案例，秒懂决策树构建思路

明日开播！制药人必备的统计方法与案例实战，60分钟完全掌握 | 立即报名课程

案例解析 | JMP 混料设计在配方开发和优化中的应用

JMP 35 岁，正迎黄金时代！

课程预告 | 药品工艺表征的关键统计方法与核心流程，60分钟完全掌握

快来挑战你的质量侦探力！破案有礼~

可靠性实战：从方法到案例，90分钟掌握寿命分布与加速寿命试验的应用

JMP 统计新课上架 | 质量工程师的质量改善与六西格玛分析必修课

可靠性必修课：寿命分布与加速寿命试验的应用与实践 | 立即报名

JMP 学习问答中文社区 —— JMP 统计，你好！

不良晶圆侦测的关键：SPC 如何减少过程变异

60分钟进阶DOE高手：3大案例详解DOE在产品研发与工艺优化过程中的应用与实践

听说你们在玩一种很新的 DOE？

两大质量案例剖析 | 不良品监控与报告自动生成

立即报名 | DOE 经典案例实战：产品研发与工艺优化的 3 种实验设计方法

趣话假设检验：抛硬币真的公平吗？

明日开播！轻松搞定数据预处理：高效数据导入、整合与清洗实战

混料设计和响应曲面设计分别适用什么场景？| JMP 星球社区精选

图说奥运：奥运冠军来自哪里？

巧用 JMP 公式列，灵活探索数据

产品不良率提升怎么办？10个质量分析功能步骤剖析 + 5 大分析流程详解

DOE 前沿案例详解：使用确定性筛选，4 步优化细胞培养工艺

数据缺失、异常、重复怎么办？超全数据清洗招数一堂课讲透

拟合模型的图形化解读：JMP 杠杆图实例

JMP 如何批量导入规格限？| JMP 星球社区精选

都有谁活跃在 JMP 星球？| 社区榜单 2024 Q2

案例分享 | 改善产品良率的 5 个关键阶段，从 0-1 详解六西格玛 DMAIC

JMP入门课明日开播！从数据导入、清洗到分析，完成你的第一个分析报告

质量持续改善：利用六西格码减少产品缺陷与变异性

3 天进阶 DOE 实操，这个夏天云南见 | JMP 官方认证培训

1小时零基础上手JMP：从数据导入、清洗到分析，完成你的第一个分析报告

工程师必备 30 种图形速查手册+4堂可视化视频课程

如何在 JMP 中自动更新导入数据？| JMP 星球社区精选

用数据洞见未来，以智能革新制造 | JMP 2024 数据分析峰会圆满落幕！

JMP 官方认证培训 | DOE 实战案例培训讲座开启报名！

留言抽价值 880 元 JMP 数据分析峰会门票，手慢无！

早鸟票最后1天| JMP 数据分析峰会议程抢先看！

两组数据，如何在同一个图里画直方图，并计算Cpk？| JMP 星球社区精选

你只需要用鼠标，点、点、点，就可以让分析报告自动”跑“起来

立即报名 | 60分钟学会一键生成重复性报表与分析流程，让你的报告自动跑起来

案例详析：简单七步，使用 DOE 实验设计优化 3D 打印工艺参数

无代码自动化：从数据标准化到复杂探索与分析，一次性搞定重复性报表与分析流程

这样优化3D打印工艺参数，质量高、速度快！超饱和实验设计实战（上）

（Q1榜单揭晓）单个产品和一组产品，怎么进行 cpk 的计算？| JMP 星球问答社区精选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉