GBDT、XGBoost、LightGBM，树模型全面对比！！

文摘 2024-09-29 16:26 北京

哈喽，我是cos大壮~

今儿再来和大家聊聊GBDT、XGBoost和LightGBM的区别和联系~

GBDT（Gradient Boosting Decision Trees）、XGBoost（eXtreme Gradient Boosting）和LightGBM（Light Gradient Boosting Machine）都是基于梯度提升（Gradient Boosting）的集成学习算法模型。

它们通过构建一系列决策树，逐步减少误差，从而提升模型的预测性能。

老规矩：如果大家伙觉得近期文章还不错！欢迎大家点个赞、转个发，文末赠送《机器学习学习小册》。

文末可取本文PDF版本~

GBDT

GBDT 是通过迭代训练多个弱学习器（通常是决策树），每一棵树都拟合前一棵树的残差，从而优化模型性能。它适用于分类和回归问题，如信用评分、用户分类、销量预测等。

XGBoost

XGBoost 是 GBDT 的改进版，具备更高的训练速度和性能优化。它引入了正则化控制模型复杂度，能够处理缺失值、具有更好的并行计算性能，适用于大规模数据集，如推荐系统、广告点击率预测等。

LightGBM

LightGBM 是一个基于梯度提升框架的高效算法，优化了大规模数据集下的训练效率，尤其在内存占用和计算速度方面表现出色。它常用于高维数据的分类和回归任务，如电商用户行为分析和金融风险评估。

能解决的问题：

分类问题：垃圾邮件分类、用户群体分类等。
回归问题：房价预测、股票价格预测等。
排序问题：推荐系统中的物品排序等。

总体而言，这些模型广泛应用于工业界和学术界的多种任务，擅长处理大规模、复杂的数据集，并具备较高的预测准确性和良好的性能表现。

下面，咱们详细的从原理方面解释一下：

原理部分

1. GBDT

GBDT 是基于梯度提升（Gradient Boosting）思想的一种集成学习方法。其核心思想是通过多个决策树模型的叠加，不断优化模型误差。每一棵树拟合的是前一棵树的残差（即预测误差），通过迭代减少误差，最终形成强大的预测模型。

核心公式

对于回归问题，GBDT 的目标是最小化损失函数，其中表示模型的预测值。模型通过以下过程迭代更新：

初始模型：

迭代训练第棵树时，首先计算前一轮的残差：

通过拟合残差构建新的决策树，并更新模型：

其中，是学习率，是拟合残差的新树。

算法流程：

使用损失函数的一阶和二阶导数拟合每棵新树。
加入正则化项，防止模型过拟合。
使用树的结构得分（gain）决定分裂点，以提高树的质量。
使用并行和分布式计算提升效率。

优缺点：

优点：计算效率高（支持并行和分布式）；加入正则化防止过拟合；支持自动处理缺失值；灵活性高，适合多种任务。
缺点：模型参数较多，调参复杂；占用内存较大，特别是在处理超大规模数据集时。

适用场景：

大规模数据集上的分类、回归和排序任务，如广告点击率预测、推荐系统、金融预测等。

2. XGBoost

XGBoost 是 GBDT 的优化版本，核心思想仍然是梯度提升，但它在计算效率、模型精度等方面进行了多种优化。它通过使用正则化控制模型复杂度，防止过拟合，并且支持分布式计算和多线程并行，提升了计算速度。

核心公式

XGBoost 的目标是通过加法模型最小化目标函数：

其中，是损失函数，是正则化项，用于控制模型的复杂度。XGBoost 的优化过程使用了泰勒展开的二阶导数加速计算梯度和误差更新：

其中，和分别是损失函数的一阶和二阶导数，能更快地拟合新树。

算法流程：

使用损失函数的一阶和二阶导数拟合每棵新树。
加入正则化项，防止模型过拟合。
使用树的结构得分（gain）决定分裂点，以提高树的质量。
使用并行和分布式计算提升效率。

优缺点：

优点：计算效率高（支持并行和分布式）；加入正则化防止过拟合；支持自动处理缺失值；灵活性高，适合多种任务。
缺点：模型参数较多，调参复杂；占用内存较大，特别是在处理超大规模数据集时。

适用场景：

大规模数据集上的分类、回归和排序任务，如广告点击率预测、推荐系统、金融预测等。

3. LightGBM

LightGBM 是一个高效的梯度提升框架，专为大数据集和高维数据集设计。LightGBM 使用基于直方图（Histogram-based）的决策树构建方法，并在算法设计上引入了多个优化，如叶节点按深度生长（Leaf-wise Growth）、GOSS（Gradient-based One-Side Sampling）等技术，来提升训练速度和资源利用率。

核心公式

LightGBM 仍然基于梯度提升的基本思想，但其改进在于：

直方图近似算法：通过将连续特征值离散化到直方图中，大幅减少了计算复杂度，尤其在高维度大规模数据时。
叶节点生长策略：LightGBM 使用的是叶节点按深度生长策略，优先选择提升最大的叶节点进行分裂，而不是按层生长。这样能更快找到最优分裂，提升训练效率。

算法流程：

生成直方图，离散化连续特征。
按照叶节点的增益优先生长，选择分裂。
利用 GOSS 技术，优先选取梯度较大的样本，提高计算效率。
重复上述步骤，直到达到预设的树的数量或误差收敛。

优缺点：

优点：训练速度快（基于直方图的算法），尤其适合大数据集；内存占用少；在分类和回归任务中表现优异。
缺点：复杂模型解释性较差；对于小数据集和浅层模型，效果不如其他方法。

适用场景：

超大规模、高维数据的分类、回归任务，如电商推荐系统、大规模金融风险分析、海量文本分类任务等。

三者的优缺点对比：

模型	优点	缺点	适用场景
GBDT	稳定，适合小数据集；无需特征归一化和特征工程	训练时间较长，无法并行处理，调参复杂	小数据集的分类和回归任务
XGBoost	支持并行计算，加入正则化防止过拟合；训练速度快	内存占用大，调参复杂	大规模数据集的分类、回归、排序
LightGBM	训练速度快，适合大规模数据；内存占用少	对小数据集不如 XGBoost 稳定，模型解释性较差	超大规模数据集，高维任务

总结来说：

GBDT 更适合处理小规模数据任务，具有稳定的表现。
XGBoost 在中大规模数据集上表现优异，适合复杂任务和需要较强模型解释性的时候。
LightGBM 在大数据、高维度场景下具有极高的计算效率，适合大规模机器学习任务。

最后，咱们举一个全面的案例进行比较，大家也有一个更加深层次的理解~

完整案例

案例标题：GBDT vs. XGBoost vs. LightGBM：集成学习模型的性能与适用性对比

要解决的问题

在该案例中，我们希望解决一个典型的分类问题，即对虚拟数据集中的数据点进行准确分类。数据集将具有较大的维度和噪声。我们比较三种算法模型（GBDT、XGBoost和LightGBM）在分类任务中的性能和适用性，包括训练速度、模型性能（如AUC-ROC）、调参难度和模型的可扩展性。

目标

提升模型的分类准确率。
优化模型训练时间，提升在大规模数据集上的计算效率。
分析模型的可扩展性以及调参的难易度。

数据集与方法

我们将生成一个虚拟的二分类数据集，其中包含2个类别的样本，并具有100个特征，部分特征具有噪声。通过对比XGBoost、LightGBM和GBDT的分类效果、训练速度和模型复杂性，得出适用性结论。

1. 代码实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_auc_score, accuracy_score, roc_curve
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
import lightgbm as lgb
import time

# 数据集
X, y = make_classification(n_samples=10000, n_features=100, n_informative=10, 
                           n_redundant=10, n_classes=2, random_state=42, flip_y=0.01)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型、性能指标的功能
def evaluate_model(model, X_train, y_train, X_test, y_test):
    start_time = time.time()
    model.fit(X_train, y_train)
    train_time = time.time() - start_time
    
    y_pred = model.predict(X_test)
    y_pred_prob = model.predict_proba(X_test)[:, 1]
    
    accuracy = accuracy_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred_prob)
    
    return train_time, accuracy, roc_auc

# 1. GBDT model
gbdt = GradientBoostingClassifier()
gbdt_time, gbdt_accuracy, gbdt_auc = evaluate_model(gbdt, X_train, y_train, X_test, y_test)

# 2. XGBoost model
xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_time, xgb_accuracy, xgb_auc = evaluate_model(xgb, X_train, y_train, X_test, y_test)

# 3. LightGBM model
lgbm = lgb.LGBMClassifier()
lgbm_time, lgbm_accuracy, lgbm_auc = evaluate_model(lgbm, X_train, y_train, X_test, y_test)

# 比较结果
print(f"GBDT - Time: {gbdt_time:.2f}s, Accuracy: {gbdt_accuracy:.4f}, AUC: {gbdt_auc:.4f}")
print(f"XGBoost - Time: {xgb_time:.2f}s, Accuracy: {xgb_accuracy:.4f}, AUC: {xgb_auc:.4f}")
print(f"LightGBM - Time: {lgbm_time:.2f}s, Accuracy: {lgbm_accuracy:.4f}, AUC: {lgbm_auc:.4f}")

2. 模型调参与比较

使用GridSearchCV进行XGBoost和LightGBM模型的超参数调优，并记录调参前后的性能变化。

# XGBoost超参数调整
xgb_params = {
    'n_estimators': [50, 100],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 6, 9]
}

grid_xgb = GridSearchCV(XGBClassifier(use_label_encoder=False, eval_metric='logloss'), xgb_params, cv=3, scoring='roc_auc')
grid_xgb.fit(X_train, y_train)
print("Best XGBoost Parameters:", grid_xgb.best_params_)
xgb_best = grid_xgb.best_estimator_

# LightGBM超参数调整
lgb_params = {
    'n_estimators': [50, 100],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 6, 9]
}

grid_lgbm = GridSearchCV(lgb.LGBMClassifier(), lgb_params, cv=3, scoring='roc_auc')
grid_lgbm.fit(X_train, y_train)
print("Best LightGBM Parameters:", grid_lgbm.best_params_)
lgbm_best = grid_lgbm.best_estimator_

3. 模型对比：可视化分析

接下来，我们将通过绘制ROC曲线、训练时间对比条形图以及AUC-ROC对比图来进行不同模型的性能对比。

# Plot ROC curves
def plot_roc_curve(models, X_test, y_test, title):
    plt.figure(figsize=(10, 6))
    
    for name, model in models.items():
        y_pred_prob = model.predict_proba(X_test)[:, 1]
        fpr, tpr, _ = roc_curve(y_test, y_pred_prob)
        plt.plot(fpr, tpr, label=f"{name} (AUC = {roc_auc_score(y_test, y_pred_prob):.4f})")
    
    plt.plot([0, 1], [0, 1], 'k--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title(title)
    plt.legend(loc="lower right")
    plt.show()

# Model ROC Curves
models = {
    "GBDT": gbdt,
    "XGBoost": xgb_best,
    "LightGBM": lgbm_best
}
plot_roc_curve(models, X_test, y_test, "ROC Curves for GBDT, XGBoost, and LightGBM")

# Plot training time comparison
def plot_training_time(times, title):
    plt.figure(figsize=(8, 5))
    model_names = ['GBDT', 'XGBoost', 'LightGBM']
    plt.barh(model_names, times, color=['#FF6347', '#4682B4', '#32CD32'])
    plt.xlabel('Training Time (seconds)')
    plt.title(title)
    plt.show()

train_times = [gbdt_time, xgb_time, lgbm_time]
plot_training_time(train_times, 'Training Time Comparison')

# Plot AUC comparison
def plot_auc_comparison(aucs, title):
    plt.figure(figsize=(8, 5))
    model_names = ['GBDT', 'XGBoost', 'LightGBM']
    plt.barh(model_names, aucs, color=['#FF6347', '#4682B4', '#32CD32'])
    plt.xlabel('AUC Score')
    plt.title(title)
    plt.show()

aucs = [gbdt_auc, xgb_auc, lgbm_auc]
plot_auc_comparison(aucs, 'AUC Score Comparison')

4. 分析与结论

训练时间：10000条数据训练模型情况下，XGBoost表现出最快的训练速度，紧随其后的是LightGBM，而GBDT速度最慢。这表明XGBoost在比较大的数据场景中的计算效率优势。如果在再大规模的数据集下，可能LightGBM要比XGBoost更快速。

GBDT - Time: 21.93s, Accuracy: 0.9100, AUC: 0.9694
XGBoost - Time: 0.86s, Accuracy: 0.9245, AUC: 0.9781
LightGBM - Time: 1.66s, Accuracy: 0.9305, AUC: 0.9793

AUC评分：XGBoost和LightGBM在AUC评分上略高于GBDT，说明它们在处理该分类问题时的性能更好。

调参复杂度：LightGBM和XGBoost都有较多可调节的超参数，但XGBoost由于其算法复杂度，调参更加繁琐，而LightGBM相对容易。

通过对比不同的集成学习模型，我们发现XGBoost和LightGBM在分类任务上不仅表现优异，而且拥有更快的训练速度和更好的扩展性。使用这些算法，我们提升了分类准确率和模型训练速度。

这个是在10000数据量下的测试，在不同的数据量和不同情况下，表现还会不同。总的来说，XGBoost和LightGBM会更加的高效。

最后

大家有问题可以直接在评论区留言即可~

喜欢本文的朋友可以收藏、点赞、转发起来！

需要本文PDF的同学，扫码备注「最佳算法」即可~

关注本号，带来更多算法干货实例，提升工作学习效率！

最后，给大家准备了《机器学习学习小册》PDF版本，16大块的内容，124个问题总结！

100个超强算法模型，大家如果觉得有用，可以点击查看~

推荐阅读

原创、超强、精华合集
100个超强机器学习算法模型汇总
机器学习全路线
机器学习各个算法的优缺点
7大方面，30个最强数据集
6大部分，20 个机器学习算法全面汇总
铁汁，都到这了，别忘记点赞呀~

http://mp.weixin.qq.com/s?__biz=Mzk0MjUxMzg3OQ==&mid=2247490274&idx=1&sn=b63b135055bffedd4f700883b43f45bc

深夜努力写Python

Python、机器学习算法

最新文章

突破LSTM！时间序列预测！！

最强总结！复盘kaggle时间序列竞赛！

涨点神器！100个即插即用缝合模块！！

突破最强时间序列模型，LightGBM！！

生成理解大一统：多模态大模型最新研究进展【附最新论文】

讲透一个强大算法模型，Transformer ！！

突破最强时间序列模型，自回归积分滑动平均！！

通透！十大时间序列技术！！

突破最强集成算法模型，Adaboost！！

完全突破GBDT！GBDT用户行为分析！！

突破100个强大算法模型！！

超全总结！245个目标检测项目合集！！

突破GBDT！GBDT在用户行为分析中的应用！！

突破最强时间序列模型，自回归滑动平均！！

最强比较！GBDT 与 LightGBM ！！

Transformer，一个神奇的算法模型！！

完全突破KNN，利用KNN进行分类！！

突破最强时间序列模型，移动平均！！

被导师放养，后果可能很严重。。。

突破XGBoost算法，利用XGBoost进行行为分析！！

发一篇顶会真不难！！

突破GBDT算法，使用GBDT进行预测！！

突破最强时间序列模型，自回归！！

机器学习各算法的优缺点！！

突破最强分类算法，高斯混合模型！！

突破LightGBM，LightGBM在广告点击率预测中的应用！！

快速学会Nature热门算法模型，LSTM！！

Kaggle拿牌技巧，从python到金牌！！

突破LSTM！利用LSTM进行时间序列预测！！

我发现了找顶会创新点的最强套路，真的不需要脑子。。

突破最强时间序列模型，LightGBM！！

通透！十大时间序列技术！！

大模型杀疯了，LLM-Multi Agent ！！

不要跟风申博，给真正想要25、26申博人的破局建议！！

突破最强回归算法模型，SVR ！！

面试大厂被怼：怎么连Attention都不会？

突破XGBoost，XGBoost在股票市场趋势预测中的应用！！

突破最强分类算法模型，SVM！！

突破最强时间序列模型，自回归！！

GBDT、XGBoost、LightGBM，树模型全面对比！！

kaggle，YYDS ！！

最强总结！11种注意力机制！！

讲透一个强大算法模型，决策树！！

通透！十大数据清洗方法！！

突破100个强大算法模型！！

再见了！Numpy ！！

再见！Pandas！！

突破最强算法模型，KAN ！！

RNN vs. Transformer，从循环到自注意力最强比较！！

王者归来！MedSAM-2 刷新图像分割 SOTA 榜！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

GBDT、XGBoost、LightGBM，树模型全面对比 ！！

原理部分

1. GBDT

核心公式

算法流程：

优缺点：

适用场景：

2. XGBoost

核心公式

算法流程：

优缺点：

适用场景：

3. LightGBM

核心公式

算法流程：

优缺点：

适用场景：

三者的优缺点对比：

完整案例

要解决的问题

目标

数据集与方法

1. 代码实现

2. 模型调参与比较

3. 模型对比：可视化分析

4. 分析与结论

最后

推荐阅读

GBDT、XGBoost、LightGBM，树模型全面对比！！