讲透 XGBoost，时间序列预测！！

文摘 2024-11-15 16:36 北京

大家好~

今儿继续给大家讲解关于XGBoost结合时间序列的一个案例：使用 XGBoost 进行股票价格时间序列预测。

XGBoost (eXtreme Gradient Boosting) 是一种基于梯度提升（Gradient Boosting）算法的高效、灵活且可扩展的机器学习库，最初由Tianqi Chen开发，现已成为数据科学家和机器学习工程师的常用工具。XGBoost 是一种集合模型，意味着它通过将多个弱学习器（通常是决策树）集成在一起，以提高预测的准确性。

相较于其他传统的梯度提升算法，XGBoost 在以下几个方面表现出色：

速度：通过并行计算与树的增量构建，提高了运行效率。
正则化：加入了L1和L2正则化，防止模型过拟合。
缺失值处理：自动处理缺失值，填补过程高效且不损失精度。
剪枝机制：可以提前剪枝，避免树结构过于复杂。

XGBoost 目前广泛应用于分类、回归、排序等问题中。本文将通过使用 XGBoost 进行股票价格时间序列预测的实战案例，展示如何利用它处理时间序列回归问题，并对预测结果进行分析。

完整案例

使用 XGBoost 进行股票价格时间序列预测

使用股票价格数据来进行预测。这是一个典型的回归问题，因为我们的目标是预测未来的股价。

主要步骤：

数据收集：使用Yahoo Finance获取股票的历史数据。
特征工程：包括日期处理、价格变化率等。
数据可视化与分析：通过图表分析历史股价趋势。
模型训练与预测：使用XGBoost模型进行训练并预测未来股价。
结果评估：使用常见的回归评估指标（如RMSE）和可视化预测结果。

数据集获取，点击名片，回复「数据集」即可~

data = pd.read_csv('./dataset/aapl_us_d.csv')
print(data.columns)
data.reset_index(inplace=True)
data['Date'] = pd.to_datetime(data['Date'])
data.set_index('Date', inplace=True)

# 打印前5行数据
print(data.head())

数据预处理

对于时间序列数据，最重要的是如何处理日期列。我们可以从日期中提取出多个特征，如年份、月份、周、星期几等，这些都可能是预测未来价格的重要因素。此外，还可以计算前一天的价格变化率等。

# 添加日期特征
data['Year'] = data.index.year
data['Month'] = data.index.month
data['Day'] = data.index.day
data['Dayofweek'] = data.index.dayofweek
data['Dayofyear'] = data.index.dayofyear
data['Week'] = data.index.isocalendar().week

# 计算价格变化率
data['Pct_change'] = data['Close'].pct_change()

# 向前移动一天，作为未来预测目标
data['Target'] = data['Close'].shift(-1)

# 丢掉缺失值
data.dropna(inplace=True)

# 查看处理后的数据
print(data.head())

数据可视化

在训练模型之前，先对股票的历史价格进行分析和可视化。我们会画出四个不同的图表，来帮助理解数据的趋势和模式：

股票收盘价格的时间序列图：展示历史股票价格的变化。
收盘价变化率的时间序列图：展示每日股票价格变化的百分比。
股票价格的季节性变化（月份、星期几）：帮助我们了解股票价格是否随时间有明显的季节性趋势。
目标变量与特征变量的相关性热图：查看特征与目标变量的相关性，帮助选择有用的特征。

# 图1：股票收盘价格的时间序列图
plt.figure(figsize=(10,6))
plt.plot(data.index, data['Close'], color='blue', label='Close Price')
plt.title('Stock Closing Price Over Time')
plt.xlabel('Date')
plt.ylabel('Closing Price (USD)')
plt.legend()
plt.grid(True)
plt.show()

# 图2：收盘价变化率的时间序列图
plt.figure(figsize=(10,6))
plt.plot(data.index, data['Pct_change'], color='red', label='Pct Change')
plt.title('Stock Daily Percentage Change Over Time')
plt.xlabel('Date')
plt.ylabel('Percentage Change')
plt.legend()
plt.grid(True)
plt.show()

# 图3：股票价格的月季节性变化
plt.figure(figsize=(10,6))
data.groupby('Month')['Close'].mean().plot(kind='bar', color='green', alpha=0.7)
plt.title('Average Stock Closing Price by Month')
plt.xlabel('Month')
plt.ylabel('Average Closing Price (USD)')
plt.grid(True)
plt.show()

# 图4：目标变量与特征的相关性热图
import seaborn as sns
plt.figure(figsize=(10,6))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()

通过这些图表，我们可以看到股票价格在过去几年中的变化趋势，日变化率的波动，股票价格在不同月份的平均水平，以及特征之间的相关性。

模型训练

在这里，我们将使用XGBoost来训练回归模型。为了让XGBoost模型能够处理时间序列问题，我们将使用窗口技术，将过去几天的价格作为特征，用于预测未来一天的价格。

# 定义用于预测的特征和目标
features = ['Year', 'Month', 'Day', 'Dayofweek', 'Dayofyear', 'Week', 'Pct_change']
target = 'Target'

# 分割数据集为训练集和测试集
X = data[features]
y = data[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# 创建XGBoost回归模型
model = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=1000, learning_rate=0.01)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 打印测试集上的均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

结果评估与可视化

为了更好地理解模型的预测能力，我们可以将预测结果与真实的股票价格进行对比，绘制出它们的图形。此外，还可以绘制模型预测的残差图，查看预测值与真实值之间的误差。

# 图5：预测值与真实值的对比图
plt.figure(figsize=(10,6))
plt.plot(data.index[-len(y_test):], y_test, label='Real Price', color='green')
plt.plot(data.index[-len(y_test):], y_pred, label='Predicted Price', color='orange')
plt.title('Real vs Predicted Stock Prices')
plt.xlabel('Date')
plt.ylabel('Price (USD)')
plt.legend()
plt.grid(True)
plt.show()

# 图6：残差图
residuals = y_test - y_pred
plt.figure(figsize=(10,6))
plt.scatter(data.index[-len(y_test):], residuals, color='purple')
plt.title('Residuals (Errors) Between Real and Predicted Prices')
plt.xlabel('Date')
plt.ylabel('Residuals (USD)')
plt.grid(True)
plt.show()

整个代码，通过特征工程、数据分析、模型训练和评估，我们能够预测未来的股票价格。虽然XGBoost本身并非专为时间序列问题设计，但通过适当的特征选择和数据处理，它仍然能够很好地适应该类任务。

通过不同的图表分析，我们观察到了股票价格的时间趋势、价格波动及其与日期特征的关系。此外，XGBoost模型也表现出了较好的预测能力，尽管仍有一定误差，但总体效果还是较为理想。

最后

通过这个案例，给大家展现了这种从零实现 GBDT 的过程能帮助你更好地理解梯度提升决策树的核心原理。

最近准备了16大块的内容，124个算法问题的总结，完整的机器学习小册，免费领取~

另外，今天给大家准备了关于「深度学习」的论文合集，往期核心论文汇总，分享给大家。

点击名片，回复「深度学习论文」即可~

如果你对类似于这样的文章感兴趣。

欢迎关注、点赞、转发~

http://mp.weixin.qq.com/s?__biz=MzAwNTkyNTUxMA==&mid=2247491189&idx=1&sn=ccbeb3d4625278e2c60f50e912741bb1

机器学习和人工智能AI

让我们一起期待 AI 带给我们的每一场变革！推送最新行业内最新最前沿人工智能技术！

最新文章

一个强大算法模型，动量法！！

SCI人工智能一区TOP，再次刷新顶刊巅峰！

超全面讲透一个算法模型，GBDT！！

Transformer，一个神奇的算法模型！！

LightGBM，一个神奇的算法模型！！

导师放养，还是发了顶会！！

Adaboost，一个神奇算法模型！！

被导师放养，后果可能很严重。。。

XGBoost，一个神奇算法模型！！

Transformer，一个神奇的算法模型！！

讲透 XGBoost，时间序列预测！！

独自一人，怒发顶会！！

一个强大降维模型，LDA ！！

快速学会 nature 算法，LSTM！！

超全面讲透一个分布模型，正态分布！！

超全面讲透一个算法模型，LSTM！！

发一篇sci真不难！！

超全面讲透一个算法模型，XGBoost！！

超全面讲透一个算法模型，LSTM！！

YYDS！245个目标检测开源项目合集！！

大模型经典著作《大语言模型基础与前沿》

讲透一个强大算法模型：Adam！！

超全面讲透一个算法模型，PCA ！！

超全面讲透一个强大算法模型，XGBoost ！！

智谱新篇章：GLM-4-Plus 大模型全面上线，助力多场景智能应用

今年顶会这情况。。。大家还是提前做准备吧！

全面讲透一个强大算法模型，谱聚类！！

最强总结，十大统计检验方法！！

一文读懂模型的可解释性（附代码）

超全面讲透一个算法模型，LSTM！！

一个强大算法模型，随机森林！！

超全面讲透一个算法模型，决策树！！

导师放养！一年还能10篇SCI，真的封神了！！

超全面讲透一个算法模型，SVM！！

被导师放养，后果可能很严重。。。

NeurIPS'24大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

一个强大的聚类算法模型，谱聚类！！

一个强大算法模型，XGBoost ！！

一个强大的分类算法模型，决策树！！

发一篇顶会真不难

超全面讲透一个算法模型，GBDT！！

快速学会 Nature 热门算法，LSTM！！

20场kaggle机器学习比赛Top方案GrandMaster整理

一个强大分类算法模型，DBSCAN！！

火的一塌糊涂！449页 pdf 大模型书！

一个强大分类算法模型，LightGBM！！

即插即用缝合模块，轻松涨点发Paper ！！

利用XGBoost预测房价：基于历史数据的精准分析

一个强大分类算法模型，逻辑回归！！

又一本开源免费的大模型书来了，449页pdf！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

讲透 XGBoost，时间序列预测 ！！

完整案例

数据预处理

数据可视化

模型训练

结果评估与可视化

最后

讲透 XGBoost，时间序列预测！！