GBDT、XGBoost、LightGBM,树模型全面对比 !!

文摘   2024-09-29 16:26   北京  

哈喽,我是cos大壮~

今儿再来和大家聊聊GBDT、XGBoost和LightGBM的区别和联系~

GBDT(Gradient Boosting Decision Trees)、XGBoost(eXtreme Gradient Boosting)和LightGBM(Light Gradient Boosting Machine)都是基于梯度提升(Gradient Boosting)的集成学习算法模型。

它们通过构建一系列决策树,逐步减少误差,从而提升模型的预测性能。

老规矩如果大家伙觉得近期文章还不错!欢迎大家点个赞、转个发,文末赠送《机器学习学习小册》

文末可取本文PDF版本~

GBDT

GBDT 是通过迭代训练多个弱学习器(通常是决策树),每一棵树都拟合前一棵树的残差,从而优化模型性能。它适用于分类和回归问题,如信用评分、用户分类、销量预测等。

XGBoost

XGBoost 是 GBDT 的改进版,具备更高的训练速度和性能优化。它引入了正则化控制模型复杂度,能够处理缺失值、具有更好的并行计算性能,适用于大规模数据集,如推荐系统、广告点击率预测等。

LightGBM

LightGBM 是一个基于梯度提升框架的高效算法,优化了大规模数据集下的训练效率,尤其在内存占用计算速度方面表现出色。它常用于高维数据的分类和回归任务,如电商用户行为分析金融风险评估

能解决的问题:

  • 分类问题:垃圾邮件分类、用户群体分类等。
  • 回归问题:房价预测、股票价格预测等。
  • 排序问题:推荐系统中的物品排序等。

总体而言,这些模型广泛应用于工业界和学术界的多种任务,擅长处理大规模、复杂的数据集,并具备较高的预测准确性和良好的性能表现。

下面,咱们详细的从原理方面解释一下:

原理部分

1. GBDT

GBDT 是基于梯度提升(Gradient Boosting)思想的一种集成学习方法。其核心思想是通过多个决策树模型的叠加,不断优化模型误差。每一棵树拟合的是前一棵树的残差(即预测误差),通过迭代减少误差,最终形成强大的预测模型。

核心公式

对于回归问题,GBDT 的目标是最小化损失函数 ,其中  表示模型的预测值。模型通过以下过程迭代更新:

  1. 初始模型:
  1. 迭代训练第  棵树时,首先计算前一轮的残差 
  1. 通过拟合残差构建新的决策树,并更新模型:

其中, 是学习率, 是拟合残差的新树。

算法流程:

  1. 使用损失函数的一阶和二阶导数拟合每棵新树。
  2. 加入正则化项,防止模型过拟合。
  3. 使用树的结构得分(gain)决定分裂点,以提高树的质量。
  4. 使用并行和分布式计算提升效率。

优缺点:

  • 优点:计算效率高(支持并行和分布式);加入正则化防止过拟合;支持自动处理缺失值;灵活性高,适合多种任务。
  • 缺点:模型参数较多,调参复杂;占用内存较大,特别是在处理超大规模数据集时。

适用场景:

  • 大规模数据集上的分类、回归和排序任务,如广告点击率预测、推荐系统、金融预测等。

2. XGBoost

XGBoost 是 GBDT 的优化版本,核心思想仍然是梯度提升,但它在计算效率、模型精度等方面进行了多种优化。它通过使用正则化控制模型复杂度,防止过拟合,并且支持分布式计算和多线程并行,提升了计算速度。

核心公式

XGBoost 的目标是通过加法模型最小化目标函数:

其中, 是损失函数, 是正则化项,用于控制模型的复杂度。XGBoost 的优化过程使用了泰勒展开的二阶导数加速计算梯度和误差更新:

其中,   分别是损失函数的一阶和二阶导数,能更快地拟合新树。

算法流程:

  1. 使用损失函数的一阶和二阶导数拟合每棵新树。
  2. 加入正则化项,防止模型过拟合。
  3. 使用树的结构得分(gain)决定分裂点,以提高树的质量。
  4. 使用并行和分布式计算提升效率。

优缺点:

  • 优点:计算效率高(支持并行和分布式);加入正则化防止过拟合;支持自动处理缺失值;灵活性高,适合多种任务。
  • 缺点:模型参数较多,调参复杂;占用内存较大,特别是在处理超大规模数据集时。

适用场景:

  • 大规模数据集上的分类、回归和排序任务,如广告点击率预测、推荐系统、金融预测等。

3. LightGBM

LightGBM 是一个高效的梯度提升框架,专为大数据集和高维数据集设计。LightGBM 使用基于直方图(Histogram-based)的决策树构建方法,并在算法设计上引入了多个优化,如叶节点按深度生长(Leaf-wise Growth)GOSS(Gradient-based One-Side Sampling)等技术,来提升训练速度和资源利用率。

核心公式

LightGBM 仍然基于梯度提升的基本思想,但其改进在于:

  1. 直方图近似算法:通过将连续特征值离散化到直方图中,大幅减少了计算复杂度,尤其在高维度大规模数据时。
  2. 叶节点生长策略:LightGBM 使用的是叶节点按深度生长策略,优先选择提升最大的叶节点进行分裂,而不是按层生长。这样能更快找到最优分裂,提升训练效率。

算法流程:

  1. 生成直方图,离散化连续特征。
  2. 按照叶节点的增益优先生长,选择分裂。
  3. 利用 GOSS 技术,优先选取梯度较大的样本,提高计算效率。
  4. 重复上述步骤,直到达到预设的树的数量或误差收敛。

优缺点:

  • 优点:训练速度快(基于直方图的算法),尤其适合大数据集;内存占用少;在分类和回归任务中表现优异。
  • 缺点:复杂模型解释性较差;对于小数据集和浅层模型,效果不如其他方法。

适用场景:

  • 超大规模、高维数据的分类、回归任务,如电商推荐系统、大规模金融风险分析、海量文本分类任务等。

三者的优缺点对比:

模型优点缺点适用场景
GBDT稳定,适合小数据集;无需特征归一化和特征工程训练时间较长,无法并行处理,调参复杂小数据集的分类和回归任务
XGBoost支持并行计算,加入正则化防止过拟合;训练速度快内存占用大,调参复杂大规模数据集的分类、回归、排序
LightGBM训练速度快,适合大规模数据;内存占用少对小数据集不如 XGBoost 稳定,模型解释性较差超大规模数据集,高维任务

总结来说:

  1. GBDT 更适合处理小规模数据任务,具有稳定的表现。
  2. XGBoost 在中大规模数据集上表现优异,适合复杂任务和需要较强模型解释性的时候。
  3. LightGBM 在大数据、高维度场景下具有极高的计算效率,适合大规模机器学习任务。

最后,咱们举一个全面的案例进行比较,大家也有一个更加深层次的理解~

完整案例

案例标题:GBDT vs. XGBoost vs. LightGBM:集成学习模型的性能与适用性对比

要解决的问题

在该案例中,我们希望解决一个典型的分类问题,即对虚拟数据集中的数据点进行准确分类。数据集将具有较大的维度和噪声。我们比较三种算法模型(GBDT、XGBoost和LightGBM)在分类任务中的性能和适用性,包括训练速度、模型性能(如AUC-ROC)、调参难度和模型的可扩展性。

目标

  • 提升模型的分类准确率。
  • 优化模型训练时间,提升在大规模数据集上的计算效率。
  • 分析模型的可扩展性以及调参的难易度。

数据集与方法

我们将生成一个虚拟的二分类数据集,其中包含2个类别的样本,并具有100个特征,部分特征具有噪声。通过对比XGBoost、LightGBM和GBDT的分类效果、训练速度和模型复杂性,得出适用性结论。

1. 代码实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_auc_score, accuracy_score, roc_curve
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
import lightgbm as lgb
import time

# 数据集
X, y = make_classification(n_samples=10000, n_features=100, n_informative=10
                           n_redundant=10, n_classes=2, random_state=42, flip_y=0.01)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型、性能指标的功能
def evaluate_model(model, X_train, y_train, X_test, y_test):
    start_time = time.time()
    model.fit(X_train, y_train)
    train_time = time.time() - start_time
    
    y_pred = model.predict(X_test)
    y_pred_prob = model.predict_proba(X_test)[:, 1]
    
    accuracy = accuracy_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred_prob)
    
    return train_time, accuracy, roc_auc

# 1. GBDT model
gbdt = GradientBoostingClassifier()
gbdt_time, gbdt_accuracy, gbdt_auc = evaluate_model(gbdt, X_train, y_train, X_test, y_test)

# 2. XGBoost model
xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_time, xgb_accuracy, xgb_auc = evaluate_model(xgb, X_train, y_train, X_test, y_test)

# 3. LightGBM model
lgbm = lgb.LGBMClassifier()
lgbm_time, lgbm_accuracy, lgbm_auc = evaluate_model(lgbm, X_train, y_train, X_test, y_test)

# 比较结果
print(f"GBDT - Time: {gbdt_time:.2f}s, Accuracy: {gbdt_accuracy:.4f}, AUC: {gbdt_auc:.4f}")
print(f"XGBoost - Time: {xgb_time:.2f}s, Accuracy: {xgb_accuracy:.4f}, AUC: {xgb_auc:.4f}")
print(f"LightGBM - Time: {lgbm_time:.2f}s, Accuracy: {lgbm_accuracy:.4f}, AUC: {lgbm_auc:.4f}")

2. 模型调参与比较

使用GridSearchCV进行XGBoost和LightGBM模型的超参数调优,并记录调参前后的性能变化。

# XGBoost超参数调整
xgb_params = {
    'n_estimators': [50100],
    'learning_rate': [0.010.1],
    'max_depth': [369]
}

grid_xgb = GridSearchCV(XGBClassifier(use_label_encoder=False, eval_metric='logloss'), xgb_params, cv=3, scoring='roc_auc')
grid_xgb.fit(X_train, y_train)
print("Best XGBoost Parameters:", grid_xgb.best_params_)
xgb_best = grid_xgb.best_estimator_

# LightGBM超参数调整
lgb_params = {
    'n_estimators': [50100],
    'learning_rate': [0.010.1],
    'max_depth': [369]
}

grid_lgbm = GridSearchCV(lgb.LGBMClassifier(), lgb_params, cv=3, scoring='roc_auc')
grid_lgbm.fit(X_train, y_train)
print("Best LightGBM Parameters:", grid_lgbm.best_params_)
lgbm_best = grid_lgbm.best_estimator_

3. 模型对比:可视化分析

接下来,我们将通过绘制ROC曲线、训练时间对比条形图以及AUC-ROC对比图来进行不同模型的性能对比。

# Plot ROC curves
def plot_roc_curve(models, X_test, y_test, title):
    plt.figure(figsize=(106))
    
    for name, model in models.items():
        y_pred_prob = model.predict_proba(X_test)[:, 1]
        fpr, tpr, _ = roc_curve(y_test, y_pred_prob)
        plt.plot(fpr, tpr, label=f"{name} (AUC = {roc_auc_score(y_test, y_pred_prob):.4f})")
    
    plt.plot([01], [01], 'k--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title(title)
    plt.legend(loc="lower right")
    plt.show()

# Model ROC Curves
models = {
    "GBDT": gbdt,
    "XGBoost": xgb_best,
    "LightGBM": lgbm_best
}
plot_roc_curve(models, X_test, y_test, "ROC Curves for GBDT, XGBoost, and LightGBM")

# Plot training time comparison
def plot_training_time(times, title):
    plt.figure(figsize=(85))
    model_names = ['GBDT''XGBoost''LightGBM']
    plt.barh(model_names, times, color=['#FF6347''#4682B4''#32CD32'])
    plt.xlabel('Training Time (seconds)')
    plt.title(title)
    plt.show()

train_times = [gbdt_time, xgb_time, lgbm_time]
plot_training_time(train_times, 'Training Time Comparison')

# Plot AUC comparison
def plot_auc_comparison(aucs, title):
    plt.figure(figsize=(85))
    model_names = ['GBDT''XGBoost''LightGBM']
    plt.barh(model_names, aucs, color=['#FF6347''#4682B4''#32CD32'])
    plt.xlabel('AUC Score')
    plt.title(title)
    plt.show()

aucs = [gbdt_auc, xgb_auc, lgbm_auc]
plot_auc_comparison(aucs, 'AUC Score Comparison')

4. 分析与结论

训练时间:10000条数据训练模型情况下,XGBoost表现出最快的训练速度,紧随其后的是LightGBM,而GBDT速度最慢。这表明XGBoost在比较大的数据场景中的计算效率优势。如果在再大规模的数据集下,可能LightGBM要比XGBoost更快速。

GBDT - Time: 21.93s, Accuracy: 0.9100, AUC: 0.9694
XGBoost - Time: 0.86s, Accuracy: 0.9245, AUC: 0.9781
LightGBM - Time: 1.66s, Accuracy: 0.9305, AUC: 0.9793

AUC评分:XGBoost和LightGBM在AUC评分上略高于GBDT,说明它们在处理该分类问题时的性能更好。

调参复杂度:LightGBM和XGBoost都有较多可调节的超参数,但XGBoost由于其算法复杂度,调参更加繁琐,而LightGBM相对容易。

通过对比不同的集成学习模型,我们发现XGBoost和LightGBM在分类任务上不仅表现优异,而且拥有更快的训练速度和更好的扩展性。使用这些算法,我们提升了分类准确率和模型训练速度。

这个是在10000数据量下的测试,在不同的数据量和不同情况下,表现还会不同。总的来说,XGBoost和LightGBM会更加的高效。

最后

大家有问题可以直接在评论区留言即可~

喜欢本文的朋友可收藏、点赞、转发起来!

需要本文PDF的同学,扫码备注「最佳算法」即可~ 

关注本号,带来更多算法干货实例,提升工作学习效率!
最后,给大家准备了《机器学习学习小册》PDF版本16大块的内容,124个问题总结
100个超强算法模型,大家如果觉得有用,可以点击查看~

推荐阅读

原创、超强、精华合集
100个超强机器学习算法模型汇总
机器学习全路线
机器学习各个算法的优缺点
7大方面,30个最强数据集
6大部分,20 个机器学习算法全面汇总
铁汁,都到这了,别忘记点赞呀~

深夜努力写Python
Python、机器学习算法
 最新文章