一个强大算法模型，决策树回归！！

文摘 2024-12-20 10:08 甘肃

大家好~

咱们今天分享的是决策树回归，作为在回归和决策树学习阶段的同学，完全可以看看，非常全面~

首先，什么是决策树回归？

决策树回归是一种用树的结构来预测数值的方法。
你可以想象这棵树像是在玩「20 问题」：通过一系列有条件的问题（比如“是”或“不是”）一步步缩小范围，最终得出一个数值结果。

区别是，20 问题是回答“对还是错”，而决策树回归是回答“最终的数值预测是多少”。

全文内容，非常详细！~

文末已经给大家准备好了本文的 PDF版本 方便学习使用~

下面，咱们就从非常简单的方面和大家聊聊~

决策树长啥样？

这棵树：

根节点：树的起点，所有数据都在这里。
内部节点：每个节点是一个条件，比如“房子的面积 > 100 平米？”。
叶子节点：树的终点，每片叶子代表一个预测值（比如“房价是500万”）。

它是怎么工作的？

决策树回归的工作流程分三步：

1. 划分数据：

把数据分成一堆“小块”，每一块数据的值差不多。
比如，我们有一堆房价数据，决策树会问：“按照房子面积划分行不行？”然后再细分，直到每一块数据的房价差不多。

2. 设定预测值：

每个“叶子节点”的预测值是这一块数据的平均值。
比如，这片叶子里有5个房子，它们的房价分别是480万、500万、520万、510万和490万，叶子节点的预测值就是它们的平均值 = 500万。

3. 对新数据做预测：

用同样的问题路径，把新数据分到某个叶子节点，返回这个节点的平均值作为预测。

举个例子：预测房价

已有数据（训练数据）：

房子面积（平方米） 和 房价（万元）

80平 -> 300万
100平 -> 400万
120平 -> 450万
150平 -> 500万
200平 -> 800万

决策树回归过程：

决策树的第一个问题可能是：

“房子面积 > 130平？”

是：去右边分支（房子面积更大的那类）。
否：去左边分支（房子面积较小的那类）。

接着继续分：

在左边分支里再问：“房子面积 > 90平？”

是：这片叶子包含 [100平, 120平]，平均房价是 (400+450)/2 = 425万。
否：这片叶子只包含 [80平]，预测值是300万。

在右边分支里再问：“房子面积 > 170平？”

是：这片叶子只有 [200平]，预测值是800万。
否：这片叶子只有 [150平]，预测值是500万。

预测新数据：

假设你有个新房子，面积是110平。

决策树会问：

“面积 > 130平？” → 否，去左边。
“面积 > 90平？” → 是，去 [100平, 120平] 的叶子。

预测房价 = 425万。

决策树回归的优点和缺点

优点：

直观易懂：像玩问答游戏。
灵活：能处理数值和分类问题。

缺点：

容易过拟合：树太复杂会“记住”训练数据，而不适用于新数据。
分裂点选择依赖性：划分数据时的选择可能影响最终结果。

上面大家有了一个整体认识之后，下面，咱们从原理理论方面，好好给大家细化~

决策树回归公式推导

决策树回归的核心目标

目标：找到最优分割点，将数据划分成若干区域，每个区域的预测值是该区域内样本目标值的均值，目标函数最小化为：

其中：

是真实值，
是区域内目标值的均值。

核心步骤

遍历所有可能的特征和分割点。
计算分割后的损失函数：

找到使最小的特征和分割点，作为当前节点的最优分割。
递归执行上述步骤，直到满足停止条件（如节点样本数小于最小值或深度限制）。

实现代码

手动实现决策树回归算法。
生成虚拟数据集。
绘制多张分析图表。

Python代码

import numpy as np
import matplotlib.pyplot as plt

# 1. 生成虚拟数据集
np.random.seed(42)
X = np.sort(5 * np.random.rand(100, 1), axis=0)  # 特征: [0, 5) 的随机数
y = np.sin(X).ravel() + np.random.normal(0, 0.2, X.shape[0])  # 加噪音的目标值

# 2. 决策树回归手动实现
class DecisionTreeRegressor:
    def __init__(self, min_samples_split=10, max_depth=5):
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.tree = None

    def fit(self, X, y):
        def split(X, y, feature_index, threshold):
            left_mask = X[:, feature_index] <= threshold
            right_mask = ~left_mask
            return (X[left_mask], y[left_mask]), (X[right_mask], y[right_mask])

        def find_best_split(X, y):
            best_feature, best_threshold, best_loss = None, None, float('inf')
            for feature_index in range(X.shape[1]):
                thresholds = np.unique(X[:, feature_index])
                for threshold in thresholds:
                    (X_left, y_left), (X_right, y_right) = split(X, y, feature_index, threshold)
                    if len(y_left) < self.min_samples_split or len(y_right) < self.min_samples_split:
                        continue
                    left_mean, right_mean = np.mean(y_left), np.mean(y_right)
                    loss = np.sum((y_left - left_mean)**2) + np.sum((y_right - right_mean)**2)
                    if loss < best_loss:
                        best_feature, best_threshold, best_loss = feature_index, threshold, loss
            return best_feature, best_threshold

        def grow_tree(X, y, depth):
            if depth >= self.max_depth or len(y) < self.min_samples_split:
                return np.mean(y)
            feature_index, threshold = find_best_split(X, y)
            if feature_index is None:
                return np.mean(y)
            (X_left, y_left), (X_right, y_right) = split(X, y, feature_index, threshold)
            return {
                'feature_index': feature_index,
                'threshold': threshold,
                'left': grow_tree(X_left, y_left, depth + 1),
                'right': grow_tree(X_right, y_right, depth + 1),
            }

        self.tree = grow_tree(X, y, 0)

    def predict_single(self, x, tree):
        if not isinstance(tree, dict):
            return tree
        feature_index = tree['feature_index']
        threshold = tree['threshold']
        if x[feature_index] <= threshold:
            return self.predict_single(x, tree['left'])
        else:
            return self.predict_single(x, tree['right'])

    def predict(self, X):
        return np.array([self.predict_single(x, self.tree) for x in X])

# 3. 训练模型
tree = DecisionTreeRegressor(min_samples_split=5, max_depth=4)
tree.fit(X, y)
y_pred = tree.predict(X)

# 4. 可视化分析
plt.figure(figsize=(16, 12))

# 图1: 数据分布与预测值
plt.subplot(2, 2, 1)
plt.scatter(X, y, color="blue", label="True Values")
plt.plot(X, y_pred, color="red", label="Predicted Values", linewidth=2)
plt.title("Data Distribution and Predictions")
plt.xlabel("Feature X")
plt.ylabel("Target Value y")
plt.legend()

# 图2: 残差分布
plt.subplot(2, 2, 2)
residuals = y - y_pred
plt.hist(residuals, bins=20, color="orange", edgecolor="black")
plt.title("Residual Distribution")
plt.xlabel("Residuals")
plt.ylabel("Frequency")

# 图3: 决策树分割示意图
plt.subplot(2, 2, 3)
plt.scatter(X, y, color="blue", label="True Values")
plt.plot(X, y_pred, color="red", linewidth=2)
plt.axvline(x=tree.tree['threshold'], color="green", linestyle="--", label="Split Point")
plt.title("Decision Tree Split Visualization")
plt.xlabel("Feature X")
plt.ylabel("Target Value y")
plt.legend()

# 图4: 深度对拟合效果的影响
max_depths = [1, 2, 3, 4, 5]
mse_list = []
for depth in max_depths:
    tree = DecisionTreeRegressor(min_samples_split=5, max_depth=depth)
    tree.fit(X, y)
    y_pred = tree.predict(X)
    mse = np.mean((y - y_pred)**2)
    mse_list.append(mse)

plt.subplot(2, 2, 4)
plt.plot(max_depths, mse_list, marker="o", color="purple")
plt.title("Effect of Depth on Fitting")
plt.xlabel("Max Tree Depth")
plt.ylabel("Mean Squared Error (MSE)")

plt.tight_layout()
plt.show()

虚拟数据生成：使用正弦函数加噪音模拟非线性数据。
决策树手动实现：手动实现了分裂、损失计算、树的生长和递归预测。

图1：展示真实值与预测值对比。
图2：分析残差的分布，评估模型效果。
图3：可视化决策树分割点的影响。
图4：展示不同深度对模型拟合的影响（防止过拟合或欠拟合）。

有任何问题，大家评论区留言~

最后

需要本文 PDF 的同学，扫码备注「文章PDF」即可！

最近准备了16大块的内容，124个算法问题的总结，完整的机器学习小册，免费领取~

另外，今天给大家准备了关于「深度学习」的论文合集，往期核心论文汇总，分享给大家。

点击名片，回复「深度学习论文」即可~

如果你对类似于这样的文章感兴趣。

欢迎关注、点赞、转发~

麦当的生态学笔记

用于文献信息解读和分享，统计分析相关方法的传递。

Soil Biology and Biochemistry | 如何撰写一篇有效的学术手稿？编辑团队的进一步见解

Nature Climate Change | 高浓度CO2如何同时促进森林中的碳和氮循环

Soil Biology and Biochemistry | 如何撰写一篇有效的学术手稿？编辑团队的进一步见解

R语言绘制nature communications款式世界地图

结构方程模型(SEM): 从理论到实践（1）

Global Change Biology | 三种全球变化驱动因素对陆地C:N:P元素计量的影响：全球综合分析

贝叶斯优化

一个强大算法模型，决策树回归！！

Functional Ecology | 叶片与根系的协奏曲：揭示土壤动物分解力的秘密

R语言|meta分析全解析

全球性整合分析只有一张结果图也能发一区

PNAS | 高多样性的生态系统也可以具有最低的稳定性

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

一个强大算法模型，XGBoost ！！

科研进展 | 本刊编委陈伟乐课题组揭示森林菌根对凋落物分解的影响机制

Science Advances | 气候变暖和臭氧升高诱导细根与菌根真菌之间的权衡，并刺激有机碳分解

PNAS | 营养物质添加导致热带雨林土壤二氧化碳释放显著增加

New Phytologist | 植物凋落物中的活性化合物降低分解过程对变暖和干旱的敏感性

Science Advances | 植物根系分泌作用：稳定土壤有机质形成的关键因素

Soil Biology & Biochemistry | 叶凋落物分解模式的影响因素理论探讨

Journal of Ecology | 理解凋落物分解的主导控制因素

《Nature》评选2024年推动科学发展的十个人，中国科学家在列

R画NMDS

Global Change Biology | 三种全球变化驱动因素对陆地C:N:P元素计量的影响：全球综合分析

Nature Ecology & Evolution | 地上与地下的较量：全球植物生物量分布的最新图谱

Soil Biology and Biochemistry/植物通过地上、根系和菌根途径输入的碳对土壤有机碳周转的影响不同

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

glmm.hp包升级了，实现对模型的解释变量按组分解R2的功能

Global Ecology and Biogeography | 全球变化如何影响红树林的碳储量？解析凋落物分解的驱动因素

Ecology Letters | 多重全球变化驱动因素对陆地碳储存的影响：加性效应更常见

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

Nature Communications | 全球变化条件下植物与土壤生物之间响应的解耦现象

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

Science | 气候变化导致的物种灭绝：全球评估与未来趋势

Ecological Research | 植物根系结构与分泌物获取土壤养分的策略

机器学习——XGBoost(梯度提升的集成学习算法)

机器学习——XGBoost(梯度提升的集成学习算法)介绍和代码

Nature Ecology & Evolution | 土壤生物多样性在城市绿地中支持多种生态系统功能的作用

Journal of Ecology | 植物叶片凋落物碳、氮和磷浓度及其返回量的全球光谱

Ecology Letters | 多重全球变化驱动因素对陆地碳储存的影响：加性效应更常见

Global Change Biology | 三种全球变化驱动因素对陆地C:N:P元素计量的影响：全球综合分析

实例教程 | 系统发育多样性指数的统一框架：丰富度，离散性，规律性

兰州大学黄晓东教授团队重建1982-2020年青藏高原高寒草地NDVI逐月时序产品

Ecology Letters | 气候变化如何改变大型土壤动物对叶凋落物分解的影响？

R语言|快速构建机器学习模型、评估与比较（fastml）

Global Change Biology | 耳石在评估升温和二氧化碳酸化对鱼类生长影响中的可靠性具有情境依赖性

Soil Biology & Biochemistry | 叶凋落物分解模式的影响因素理论探讨

【悦读365·第1169天】植物地上和地下物候对全球变暖的不匹配响应

Science Advances | 人类活动引发的营养输入对气候驱动的海洋碳氧循环变化的竞争和加速作用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉