python用支持向量机回归(SVR)模型分析用电量预测电力消费

科技科技 2024-11-25 22:37 浙江

全文链接：http://tecdat.cn/?p=23921

本文描述了训练支持向量回归模型的过程，该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是普通工作日的用电量（点击文末“阅读原文”获取完整代码数据）。

相关视频

关于支持向量机的快速说明

支持向量机是机器学习的一种形式，可用于分类或回归。尽可能简单地说，支持向量机找到了划分两组数据的最佳直线或平面，或者在回归的情况下，找到了在容差范围内描述趋势的最佳路径。

对于分类，该算法最大限度地减少了对数据进行错误分类的风险。

对于回归，该算法使回归模型在某个可接受的容差范围内没有获得的数据点的风险最小化。

导入一些包和数据

import pandas as pd # 对于数据分析，特别是时间序列
import numpy as np # 矩阵和线性代数的东西，类似MATLAB
from matplotlib import pyplot as plt # 绘图

Scikit-learn是Python中的大型机器学习包之一。

from sklearn import svm
from sklearn import cross_validation
from sklearn import preprocessing as pre

在此随机插入更好的数据可视化。

# 设置颜色
graylight = '#d4d4d2'
gray = '#737373'
red = '#ff3700'

我在这个模型中使用的数据是通过公寓中安装的智能电表中获得的。

USAGE "字段给出了该小时内的用电度数。

elec.head(3)

Out[5]:

天气数据提取。

weather.head()

预处理

合并电力和天气

首先，我们需要将电力数据和天气数据合并到一个数据框中，并去除无关的信息。

# 合并成一个Pandas数据框架
 pd.merge(weather, elec,True, True)

# 从数据框架中删除不必要的字段
del elec\['tempm'\], elec\['cost'\]

# 将风速转换为单位
 elec\['wspdm'\] * 0.62

elec.head()

fig = plt.figure(figsize=\[14,8\])

elecweather\['USAGE'\].plot

我想将典型的工作日与周末、假日和在家工作的日子区分开来。所以现在所有的正常工作日都是0，所有的假期、周末和在家工作的日子都是1。

点击标题查阅往期内容

【视频】R语言广义相加模型（GAM）在电力负荷预测中的应用

左右滑动查看更多

分类变量：平日与周末/假期/在家工作日

## 将周末和节假日设置为1，否则为0
elecwea\['Day'\] = np.zeros

# 周末
elecwea\['Atypical_Day'\]\[（elecwea.index.dawe==5）|（elecwea.index.dawe==6）\] = 1

# 假期，在家工作日
假期 = \['2014-01-01','2014-01-20'\]
workhome = \['2014-01-21','2014-02-13','2014-03-03','2014-04-04'\]

for i in range(len(holiday)):
    elecwea\['Day'\]\[elecwea.index.date==np.datetime64(holidays\[i\])\] = 1
for i in range(len(workhome)):
    elecwea\['Day'\]\[elecwea.index.date==np.datetime64(workhome\[i\]) \] = 1
 
elecwea.head(3)

更多的分类变量：一周中的一天，小时

在这种情况下，一天中的每个小时是一个分类变量，而不是连续变量。做分析时，需要对一天中的每一个小时进行 "是 "或 "否 "的对应。

# 为一天中的每个小时创建新的列，如果index.hour是该列对应的小时，则分配1，否则分配0

for i in range(0,24):
    elecweat\[i\] = np.zeros(len(elecweat\['USAGE'))
    elecweat\[i\]\[elecweat.index.hour==i\] = 1
    
# 例子 3am
elecweat\[3\]\[:6\]

时间序列：需要附加上以前的用电需求的历史窗口

由于这是一个时间序列，如果我们想预测下一小时的能耗，训练数据中任何给定的X向量/Y目标对都应该提供当前小时的用电量（Y值，或目标）与前一小时（或过去多少小时）的天气数据和用量（X向量）。

# 在每个X向量中加入历史用量

# 设置预测的提前小时数
hours = 1

# 设置历史使用小时数
hourswin = 12


for k in range(hours,hours+hourswin):
    
    elec\_weat\['USAGE-%i'% k\] = np.zero(len(elec\_weat\['USAGE'\])

    
    
for i in range(hours+hourswi,len(elecweat\['USAGE'\])）。)
    
    for j in range(hours,hours+hourswin):
        
        elec\_weat\['USAGE-%i'% j\]\[i\] = elec\_weat\['USAGE\]i-j\] 。

        
elec_weat.head(3)

分成训练期和测试期

由于这是时间序列数据，定义训练期和测试期更有意义，而不是随机的零星数据点。如果它不是一个时间序列，我们可以选择一个随机的样本来分离出一个测试集。

# 定义训练和测试期
train_start = '18-jan-2014'（训练开始）。
train_end = '24-march-2014'.
test_start = '25-march-2014'（测试开始）。
test_end = '31-march-2014'。

# 分成训练集和测试集（仍在Pandas数据帧中）。

xtrain = elec\_and\_weather\[train\_start:train\_end\]。
del xtrain\['US'\]
del xtrain\['time_end'\]


ytrain = elec\_and\_weather\['US'\]\[train\_start:train\_end\] 。

将训练集输出成csv，看得更清楚。

X\_train\_df.to\_csv('training\_set.csv')

scikit-learn包接收的是Numpy数组，而不是Pandas DataFrames，所以我们需要进行转换。

# 用于sklearn的Numpy数组

X\_train = np.array(X\_train_df)

标准化变量

所有的变量都需要进行标准化。该算法不知道每个变量的尺度是什么。换句话说，温度一栏中的73的值看起来会比前一小时的千瓦时使用量中的0.3占优势，因为实际值是如此不同。sklearn的预处理模块中的StandardScaler()将每个变量的平均值去除，并将其标准化为单位方差。当模型在按比例的数据上进行训练时，模型就会决定哪些变量更有影响力，而不是由任意的比例/数量级来预先决定这种影响力。

训练SVR模型

将模型拟合训练数据!

SVR\_model = svm.SVR(kernel='rbf',C=100,gamma=.001).fit(X\_train\_scaled,y\_train)
print 'Testing R^2 =', round(SVR\_model.score(X\_test\_scaled,y\_test),3)

预测和测试

计算下一小时的预测（预测！）我们预留了一个测试数据集，所以我们将使用所有的输入变量（适当的缩放）来预测 "Y "目标值（下一小时的使用率）。

# 使用SVR模型来计算预测的下一小时使用量
 SVRpredict(X\_test\_scaled)

# 把它放在Pandas数据框架中，以便于使用
DataFrame(predict_y)

绘制测试期间的实际和预测电力需求的时间序列。

# 绘制预测值和实际值

plt.plot(index,y\_test\_df,color='k')
plt.plot(predictindex,predict_y)

重新取样的结果为每日千瓦时

### 绘制测试期间的每日总千瓦时图


y\_test\_barplot
ax.set_ylabel('每日总用电量（千瓦时）')

# Pandas/Matplotlib的条形图将x轴转换为浮点，所以需要找回数据时间
ax.set_xticklabels(\[dt.strftime('%b %d') for dt in

误差测量

以下是一些精度测量。

len(y\_test\_df)

均方根误差

这实际上是模型的标准误差，其单位与预测变量（或这里的千瓦时）的单位相同。

calcRMSE(predict\_y, y\_test_df)

平均绝对百分比误差

用这种方法，计算每个预测值和实际值之间的绝对百分比误差，并取其平均值；计量单位是百分比。如果不取绝对值，而模型中又没有什么偏差，你最终会得到接近零的结果，这个方法就没有价值了。

errorsMAPE(predict\_y, y\_test_df)

平均偏置误差

平均偏差误差显示了模型的高估或低估情况。初始SVM模型的平均偏差误差为-0.02，这表明该模型没有系统地高估或低估每小时的千瓦时消耗。

calcMBE(predict\_y, y\_test_df)

变异系数

这与RMSE类似，只是它被归一化为平均值。它表明相对于平均值有多大的变化。

plot45 = plt.plot(\[0,2\],\[0,2\],'k')

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整资料。

本文选自《python用支持向量机回归(SVR)模型分析用电量预测电力消费》。

点击标题查阅往期内容

R语言进行支持向量机回归SVR和网格搜索超参数优化

逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化

R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据

R语言量化交易RSI策略：使用支持向量机SVM

基于随机森林、svm、CNN机器学习的风控欺诈识别模型

Matlab建立SVM，KNN和朴素贝叶斯模型分类绘制ROC曲线

基于ARIMA、SVM、随机森林销售的时间序列预测

基于数据挖掘SVM模型的pre-incident事故预防预测

R语言用rle，svm和rpart决策树进行时间序列预测

Python中基于网格搜索算法优化的深度学习模型分析糖尿病数据

随机森林优化贝叶斯预测分析汽车燃油经济性

Python基于粒子群优化的投资组合优化研究

matlab使用贝叶斯优化的深度学习：卷积神经网络CNN

R语言深度学习：用keras神经网络回归模型预测时间序列数据

Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

MATLAB中用BP神经网络预测人体脂肪百分比数据

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

R语言实现CNN（卷积神经网络）模型进行回归数据分析

SAS使用鸢尾花(iris)数据集训练人工神经网络(ANN)模型

【视频】R语言实现CNN（卷积神经网络）模型进行回归数据分析

Python使用神经网络进行简单文本分类

R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

R语言基于递归神经网络RNN的温度时间序列预测

R语言神经网络模型预测车辆数量时间序列

R语言中的BP神经网络模型分析学生成绩

matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类

R语言实现拟合神经网络预测和结果可视化

用R语言实现神经网络预测股票实例

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247548265&idx=5&sn=198a89f653fc504bccc6fbf466b81c0d

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

python用支持向量机回归(SVR)模型分析用电量预测电力消费

R语言ARIMA-GARCH波动率模型预测股票市场苹果公司日收益率时间序列

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用：预测标准普尔SP500指数

【专题】2024年协作机器人产业发展蓝皮书报告汇总PDF洞察（附原数据表）

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响

R语言GARCH族模型：正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数

【专题】2024年双十一购物节营销、消费洞察报告汇总PDF洞察（附原数据表）

Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES

【专题】2024大健康产业热点分析报告合集PDF分享（附原数据表）

R语言预测人口死亡率：用李·卡特（Lee-Carter）模型、非线性模型进行平滑估计

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言特征选择——逐步回归

MATLAB贝叶斯优化混合Bayes-CNN-RNN分析股票市场数据与浅层网络超参数优化

体验游浪潮，推动旅游业变革|报告汇总PDF洞察（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2023年中国AIGC产业全景报告PDF合集分享（附原数据表）

matlab贝叶斯隐马尔可夫hmm模型实现

非线性回归nls探索分析河流阶段性流量数据和评级曲线、流量预测可视化

Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码

用R语言和python进行社交网络中的社区检测

MATLAB深度学习Transformer神经网络量化金融时间序列预测交易策略回测

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉