【视频讲解】共享单车使用量预测：RNN, LSTM，GRU循环神经网络和传统机器学习|数据分享

科技 2024-11-15 19:03 浙江

全文链接：https://tecdat.cn/?p=37899

分析师：Xuyan Reng

随着城市化进程的加速，共享单车作为一种绿色、便捷的出行方式，在城市交通中扮演着日益重要的角色。准确预测共享单车的使用量对于优化资源配置、提高运营效率以及满足用户需求具有关键意义（点击文末“阅读原文”获取完整代码数据）。

一方面，共享单车的使用量受到多种因素的影响，如季节、时间、天气状况、节假日等，这些因素使得共享单车使用量呈现出复杂的时间序列特征。另一方面，机器学习和深度学习技术的发展为处理这类时间序列数据提供了强大的工具。通过构建合适的模型并进行有效的参数调整，我们可以挖掘出数据中隐藏的模式和规律，从而实现对共享单车使用量的准确预测。

在本研究中，我们将分别从传统机器学习模型和深度学习模型两个方面进行探索。对于传统机器学习模型，我们通过视频讲解了选择 Lasso、Ridge、XGB 和 RF 四个模型，并通过手动调参和自动调参（包括网格搜索和随机搜索）来优化模型性能的过程。同时，我们还通过代码和数据复现引入了循环神经网络（RNN）及其变体长短时记忆网络（LSTM）和门控循环单元（GRU）等深度学习模型，利用它们在处理时间序列数据方面的优势，进一步提高预测的准确性。

通过对不同模型的训练、调参和评估，我们期望找到最适合共享单车使用量预测的模型和参数设置，为共享单车的运营管理提供准确的预测结果，帮助运营者更好地规划车辆投放、调度等工作，提高用户满意度和运营效率。

视频讲解：机器学习对共享单车使用量预测项目报告

本项目聚焦于共享单车使用数据（查看文末了解数据免费获取方式），旨在通过数据分析和模型构建，预测每个月剩余每天中每个小时的共享单车需求量。通过对多种模型的应用、手动调参以及自动调参，寻求最佳的预测模型和参数设置，以提高预测的准确性。

视频

一、项目背景

共享单车作为一种便捷的出行方式，在全球范围内得到了广泛的应用。本项目主要针对共享单车数据进行分析。尽管共享单车在不同国家和地区的发展情况有所不同，但通过对特定地区数据的深入研究，可以挖掘出有价值的信息，为共享单车的运营和管理提供决策支持。本项目重点分析了共享单车数据。

二、数据来源

本项目的数据记录了在每个月前 19 天每个小时的共享单车使用情况，我们的任务是基于这些数据预测每个月剩下的每天里每个小时的共享单车需求量。

三、研究内容

（一）模型选择

本项目选用了四个模型进行共享单车需求量的预测，分别是 Lasso、Ridge、XGB 和 RF。

（二）参数调整

手动调参：在模型训练过程中，需要在欠拟合和过拟合之间进行调试，以找到最优的参数设置。通过不断尝试不同的参数值，观察模型在训练集和测试集上的表现，来确定合适的参数范围。
自动调参：

网格搜索（Grid Search）：对于一些关键参数，我们采用网格搜索的方法进行自动调参。例如，对于某个参数，我们设定搜索范围为 [0, 2, 4, 6, 8]，通过遍历这些参数值，找到使模型性能最优的参数组合。
随机搜索（Random Search）：除了网格搜索，我们还使用了随机搜索的方法。对于一组参数，我们设定搜索范围为 [1.3, 6.5, 3.2, 7.5, 0.1]，通过随机抽取这些参数值进行组合，来寻找最优的参数设置。我们使用了 gridsearchcv 包来实现自动调参功能，它可以方便地对不同的参数组合进行评估和比较，从而提高调参的效率和准确性。

（三）评估指标

本项目采用均方根误差（RMSLE）作为模型评估的指标。均方根误差的计算公式为：

通过计算均方根误差，我们可以定量地评估模型的预测性能，误差越小，说明模型的预测效果越好。

通过对不同模型的训练、调参和评估，我们期望找到最适合共享单车需求量预测的模型和参数设置，为共享单车的运营管理提供准确的预测结果，帮助运营者更好地规划车辆投放、调度等工作，提高用户满意度和运营效率。

基于循环神经网络的共享单车使用量预测|附数据代码

本文聚焦于利用循环神经网络（RNN）及其变体长短时记忆网络（LSTM）和门控循环单元（GRU）对共享单车使用量进行预测。通过对数据集的深入处理、模型构建与训练，以及对模型性能的评估与比较，得出了具有实际应用价值的结论。

一、引言

在当今城市交通体系中，共享单车作为一种便捷的出行方式，其使用量的准确预测对于优化资源配置和提升运营效率具有重要意义。循环神经网络及其变体在处理时间序列数据方面展现出了卓越的能力，为共享单车使用量的预测提供了有效的方法。

二、数据准备与预处理

（一）数据加载

data = pd.read_csv('g - dataset/hour.csv')

使用 pandas 库的 read_csv 函数加载共享单车数据集，为后续的分析提供数据基础。

（二）数据预处理

data\['dteday'\] = pd.to\_datetime(data\['dteday'\])data.set\_index('dteday', inplace=True)

将数据集中的 dteday 列转换为日期时间类型，并将其设置为索引，以便进行时间序列分析。

（三）特征选择

features = \['season', 'yr','mnth', 'hr', 'holiday', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed'\]target = 'cnt'

明确与共享单车使用量相关的特征，将 cnt 列确定为预测目标。

（四）数据归一化

scaler = MinMaxScaler()data\[features\] = scaler.fit_transform(data\[features\])

运用 MinMaxScaler 对选定的特征进行归一化处理，使各特征的数值处于相似范围，有助于模型的训练和收敛。

三、数据划分与格式化

（一）数据划分

train\_size = int(len(data) * 0.8)train\_data, test\_data = data\[:train\_size\], data\[train_size:\]

按照 80% 和 20% 的比例将数据集划分为训练集和测试集，用于模型的训练和评估。

（二）时间序列数据格式化

import numpy as npdef create\_dataset(data, time\_step = 1):X, Y = \[\], \[\]for i in range(len(data) - time\_step - 1):X.append(data.iloc\[i:(i + time\_step)\]\[features\].values)Y.append(data.iloc\[i + time\_step\]\[target\])return np.array(X), np.array(Y)time\_step = 24X\_train, y\_train = create\_dataset(train\_data, time\_step)X\_test, y\_test = create\_dataset(test\_data, time\_step)

定义 create_dataset 函数，通过滑动窗口的方式将数据转换为适合时间序列预测的格式。以过去 time_step（这里设置为 24）个时间步的特征作为输入 X，下一个时间步的目标值作为输出 Y。然后，分别使用训练集和测试集生成相应的输入和输出数据。

# 打印训练集和测试集的形状信息print("Shape of X\_train:", X\_train.shape)print("Shape of X\_test:", X\_test.shape)# 计算训练集和测试集的样本数量、时间步长和特征数量num\_samples\_train, time\_steps\_train, num\_features\_train = X\_train.shapenum\_samples\_test, time\_steps\_test, num\_features\_test = X\_test.shape# 验证计算结果expected\_elements\_train = num\_samples\_train * time\_steps\_train * num\_features\_trainexpected\_elements\_test = num\_samples\_test * time\_steps\_test * num\_features\_testprint("Number of samples in X\_train:", num\_samples\_train)print("Number of time steps in X\_train:", time\_steps\_train)print("Number of features in X\_train:", num\_features\_train)print("Number of samples in X\_test:", num\_samples\_test)print("Number of time steps in X\_test:", time\_steps\_test)print("Number of features in X\_test:", num\_features\_test)# 验证元素总数是否符合预期print("Expected total number of elements in X\_train:", expected\_elements\_train)print("Expected total number of elements in X\_test:", expected\_elements\_test)

打印并分析训练集和测试集的形状及相关参数，确保数据的维度符合预期，为后续模型的输入提供准确的信息。

# 调整数据形状X\_train = X\_train.reshape(X\_train.shape\[0\], time\_step, len(features))X\_test = X\_test.reshape(X\_test.shape\[0\], time\_step, len(features))

将训练集和测试集的数据形状调整为 [samples, time steps, features]，以满足模型的输入要求。

四、模型构建与训练

（一）模型定义

rnn\_model = Sequential()rnn\_model.add(SimpleRNN(50, activation='relu', input\_shape=(time\_step, len(features))))rnn\_model.add(Dense(1))rnn\_model.compile(optimizer='adam', loss='mse')lstm\_model = Sequential()lstm\_model.add(LSTM(50, activation='relu', input\_shape=(time\_step, len(features))))lstm\_model.add(Dense(1))lstm\_model.compile(optimizer='adam', loss='mse')gru\_model = Sequential()gru\_model.add(GRU(50, activation='relu', input\_shape=(time\_step, len(features))))gru\_model.add(Dense(1))gru\_model.compile(optimizer='adam', loss='mse')

分别构建简单循环神经网络（RNN）、长短时记忆网络（LSTM）和门控循环单元（GRU）模型。每个模型都包含一个隐藏层，神经元数量为 50，激活函数为 relu，输入形状根据时间步长和特征数量确定，输出层为一个神经元，使用均方误差（MSE）作为损失函数，adam 优化器进行优化。

点击标题查阅往期内容

共享单车数据可视化分析|附代码数据

左右滑动查看更多

（二）模型训练

rnn\_model.fit(X\_train, y\_train, epochs = 50, batch\_size = 32, validation\_split = 0.2)lstm\_model.fit(X\_train, y\_train, epochs = 50, batch\_size = 32, validation\_split = 0.2)gru\_model.fit(X\_train, y\_train, epochs = 50, batch\_size = 32, validation_split = 0.2)

使用训练集对三个模型进行训练，设置训练轮数为 50，批次大小为 32，并使用 20% 的训练数据作为验证集。通过训练，模型不断调整权重以优化预测性能。

五、模型评估与比较

（一）模型评估指标计算

rnn\_predictions = rnn\_model.predict(X\_test)lstm\_predictions = lstm\_model.predict(X\_test)gru\_predictions = gru\_model.predict(X\_test)rnn\_mse = mean\_squared\_error(y\_test, rnn\_predictions)lstm\_mse = mean\_squared\_error(y\_test, lstm\_predictions)gru\_mse = mean\_squared\_error(y\_test, gru\_predictions)rnn\_mae = mean\_absolute\_error(y\_test, rnn\_predictions)lstm\_mae = mean\_absolute\_error(y\_test, lstm\_predictions)gru\_mae = mean\_absolute\_error(y\_test, gru\_predictions)print(f'RNN MSE: {rnn\_mse}, MAE: {rnn\_mae}')print(f'LSTM MSE: {lstm\_mse}, MAE: {lstm\_mae}')print(f'GRU MSE: {gru\_mse}, MAE: {gru_mae}')

使用测试集对训练好的模型进行预测，并计算均方误差（MSE）和平均绝对误差（MAE）作为评估模型性能的指标。通过这些指标，可以定量地比较不同模型的预测准确性。

（二）模型结果比较与可视化

import matplotlib.pyplot as pltplt.figure(figsize=(12, 6))plt.plot(y\_test, label='实际值')plt.plot(rnn\_predictions, label='RNN 预测值')plt.plot(lstm\_predictions, label='LSTM 预测值')plt.plot(gru\_predictions, label='GRU 预测值')plt.legend()plt.show()

利用 matplotlib 库绘制测试集的真实值与三个模型的预测值曲线，直观地比较不同模型的预测效果。

通过观察曲线的拟合程度，可以定性地评估模型的性能。

结论：通过对 RNN、LSTM 和 GRU 模型的构建、训练和评估，发现 GRU 模型在共享单车使用量预测任务中表现最为出色，其 MSE 和 MAE 值均小于 RNN 和 LSTM 模型。这表明 GRU 模型能够更好地捕捉时间序列数据中的长期依赖关系，为共享单车使用量的预测提供了更准确的结果。在实际应用中，可根据具体需求选择合适的模型进行预测，以提高共享单车运营管理的效率和质量。

关于分析师

在此对 Xuyan Reng 对本文所作的贡献表示诚挚感谢。他毕业于杭州电子科技大学管理科学与工程专业，获硕士学位。他擅长 Python、Mysql、Excel，在运筹学、机器学习、统计学等方面有深入研究。

数据获取

在公众号后台回复“共享单车数据”，可免费获取完整数据。

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

资料获取

在公众号后台回复“领资料”，可免费获取数据分析、机器学习、深度学习等学习资料。

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《【视频讲解】共享单车使用量预测：RNN, LSTM，GRU循环神经网络和传统机器学习|数据分享》。

点击标题查阅往期内容

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

用数据告诉你出租车资源配置是否合理

把握出租车行驶的数据脉搏：出租车轨迹数据给你答案!

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

用数据告诉你出租车资源配置是否合理

共享单车大数据报告

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

消费者共享汽车使用情况调查

新能源车主数据图鉴

python研究汽车传感器数据统计可视化分析

R语言ggmap空间可视化机动车交通事故地图

R语言ggmap空间可视化机动车碰撞–街道地图热力图

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247548097&idx=4&sn=2f41575dea8964722eca1ced83147f16

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

Python用GARCH对ADBL股票价格时间序列趋势滚动预测、损失、可视化分析

【视频讲解】共享单车使用量预测：RNN, LSTM，GRU循环神经网络和传统机器学习|数据分享

【专题】2024年5月电力行业市场展望与储能技术创新报告汇总合集PDF分享（附原数据表）

R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化

Matlab决策树对空气质量和天气温度及天气数据做交通出行推荐预测|数据分享

数据报告分享|SPSS基于多元回归模型的电影票房预测

R语言贝叶斯分析：INLA 、MCMC混合模型、生存分析肿瘤临床试验、间歇泉喷发时间数据应用|附数据代码

【专题】2024年全球临床试验趋势及中国药企海外临床布局报告汇总PDF洞察（附原数据表）

【专题】2023中国数字政府建设与发展白皮书报告PDF合集分享（附原数据表）

R语言用贝叶斯层次模型进行空间数据分析

MATLAB用GARCH模型对股票市场收益率时间序列波动的拟合与预测

【专题】2023年中国房地产行业洞察报告PDF合集分享（附原数据表）

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

数据报告分享|SPSS基于多元回归模型的电影票房预测

MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究

【专题】2024网络主播新职业发展报告汇总PDF洞察（附原数据表）

R语言和Python用泊松过程扩展：霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

用回归和主成分分析PCA 回归交叉验证分析预测城市犯罪率数据

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

数据代码分享|R语言回归分析：体脂数据、公交绿色出行与全球变暖2案例

【专题】2023年中国房地产行业洞察报告PDF合集分享（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2024年中国消费者消费意愿调查报告汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉