代码原理及流程
1.XGBoost简介
XGBoost(Extreme Gradient Boosting)是一种基于梯度提升决策树(GBDT)的机器学习算法,通过构建多棵树来逐步减少预测误差。关键参数包括:
① 树的数量
② 树的深度:每棵树的最大深度。
③ 学习率:每棵树的权重缩减系数,控制每棵树对最终模型的贡献。
2. XGBoost的不足
树的数量:树的数量影响模型的复杂度和过拟合风险。太少的树可能导致欠拟合,太多的树可能导致过拟合。
树的深度:树的深度影响模型的拟合能力和泛化能力。深度太小可能无法捕捉数据的复杂性,而深度太大可能导致过拟合。
学习率:学习率控制每棵树对最终模型的贡献。较低的学习率可以提高模型的稳定性,但需要更多的树来达到相同的性能;较高的学习率可以加快训练速度,但可能导致模型不稳定。
3. 多种智能优化算法
利用智能优化算法来优化LSSVM的参数,可以有效提高模型的性能。常用的优化算法包括:
(1)灰狼优化器(Grey Wolf Optimizer ,GWO)
(2)蜜獾优化算法(Honey Badger Algorithm,HBA)
(3)改进的AO算法(IAO)
(4)基于领导者优化的哈里斯鹰优化算法(LHHO)
(5)飞蛾扑火优化算法(Moth-flame optimization algorithm,MFO)
(6)海洋掠食者算法(Marine Predators Algorithm,MPA)
(7)北苍鹰优化算法(NGO)
(8)鱼鹰优化算法(Osprey optimization algorithm,OOA)
(9)鲸鱼优化算法(The Whale Optimization Algorithm ,WOA)
等10余种智能优化算法
4. 优化XGBoost的过程
(1)定义参数范围:
n_estimators:树的数量,范围通常在100到1000之间。
max_depth:每棵树的最大深度,范围通常在3到10之间。
learning_rate:学习率,范围通常在0.01到0.3之间。
(2)参数寻优:
定义目标函数:目标函数通常是预测误差(如均方误差MSE)。
通过训练XGBoost模型并计算预测值与实际值之间的MSE来定义目标函数。
算法迭代:在智能优化算法的迭代过程中,不断调整参数,探索更大的参数空间,提高全局搜索能力。
每个智能优化算法都有自己的迭代过程和更新机制。
(3)评估性能:在每个迭代步中,使用当前参数配置训练XGBoost模型,并通过验证集评估其性能。
使用交叉验证(如5折交叉验证)来评估模型的性能,确保选择的参数具有良好的泛化能力。
(4)交叉验证:
交叉验证:利用交叉验证评估不同参数配置的性能,选择验证误差最低的配置。
5折交叉验证是一种常用的方法,可以有效减少过拟合风险。
(5)加速搜索与收敛:
加速搜索与收敛:智能优化算法通过快速收敛特性提高参数优化速度,减少训练时间。
通过调整算法的参数和初始种群来加速收敛。
5. 应用效果
提升预测精度:智能优化算法可以找到更优的参数组合,显著提升XGBoost的预测精度。
降低计算开销:相比于传统网格搜索或随机搜索,智能优化算法可以大幅减少计算时间。
增强泛化能力:优化后的参数选择使得XGBoost在复杂或高噪声数据集上表现更佳。
总结
标准的XGBoots很明显出现了过拟合的现象
运行代码需安装XGBoost工具箱
部分代码
%% 清空环境变量
warning off % 关闭报警信息
close all % 关闭开启的图窗
clear % 清空变量
clc % 清空命令行
%% 导入数据
res = xlsread('回归数据集.xlsx');
%% 数据分析
num_size = 0.7; % 训练集占数据集比例
outdim = 1; % 最后一列为输出
num_samples = size(res, 1); % 样本个数
res = res(randperm(num_samples), :); % 打乱数据集(不希望打乱时,注释该行)
num_train_s = round(num_size * num_samples); % 训练集样本个数
f_ = size(res, 2) - outdim; % 输入特征维度
%% 划分训练集和测试集
P_train = res(1: num_train_s, 1: f_)';
T_train = res(1: num_train_s, f_ + 1: end)';
M = size(P_train, 2);
P_test = res(num_train_s + 1: end, 1: f_)';
T_test = res(num_train_s + 1: end, f_ + 1: end)';
N = size(P_test, 2);
%% 数据归一化
[p_train, ps_input] = mapminmax(P_train, 0, 1);
p_test = mapminmax('apply', P_test, ps_input);
[t_train, ps_output] = mapminmax(T_train, 0, 1);
t_test = mapminmax('apply', T_test, ps_output);
%% 数据转置
p_train = p_train'; p_test = p_test';
t_train = t_train'; t_test = t_test';
%% 设置参数
num_trees = 100; % 迭代次数
params.eta = 0.5; % 学习率
params.objective = 'reg:linear'; % 线性函数
params.max_depth = 5; % 最大深度