免费下载论文:
基于机器学习的二级管网供水温度预测
张志浩,崔萍,周鑫磊
(山东建筑大学 热能工程学院, 山东 济南 250101)
集中供热系统节能控制是一项涉及多个专业领域的综合技术,对提高生活质量和节能有着重要意义[1-2]。机器学习方法简单便捷,依靠真实数据,而不必深究模型的物理概念[3]。目前,典型机器学习方法包括神经网络、随机森林、支持向量回归等[4]。Kato等人[5]利用循环神经网络成功预测了区域热负荷,得到了较好的预测效果。
随着时代发展,机器学习领域的各种理论越发成熟,预测精度也不断提高。董晨等人[6]构建循环神经网络、深度神经网络、长短时记忆神经网络预测模型,实现了对二级管网回水温度的预测,结果表明,循环神经网络预测模型具有更高的预测精度。田晨璐[7]提出了一种基于循环特征与深度集成置信网络的建筑能耗预测方法,实验结果表明,利用循环特征与深度集成置信网络可大幅提升机器学习模型的预测精度。虢诗影[8]通过对真实数据的归纳,选定了影响医院供暖期天然气消耗量的8个气象特征与时空特征,搭建了预测模型,预测了医院供暖期天然气消耗量,模型有较好的预测效果。步婷等人[9]对比了5种常见机器学习算法在不同输入变量组合下对商业建筑负荷预测结果,证明了基于随机森林的负荷分段预测模型比多项式回归预测模型的准确度高、实用性更强。李继伟等人[10]以香港地区1 923座商用建筑作为研究对象,选取13种常见的机器学习模型作为建筑能耗预测模型,结果表明,XGBoost(EXtreme Gradient Boosting,极端梯度提升)算法对数据较为完整的建筑能耗预测准确度最高,决策树算法对于数据缺失严重的建筑能耗预测准确度优于XGBoost算法。周淑媛[11]以居住建筑建造时间、建筑高度等15个影响因素为输入变量训练BP神经网络,实现了对居住建筑工程造价的预测。
机器学习在建筑领域主要用于预测回归,根据已有历史数据训练完成的预测模型有较高的准确性,与优化算法结合使用时精度进一步提高,在实际工程的应用中有着重要意义。虽然机器学习方法也有其局限性,例如过于依赖历史数据质量等,但总的来看依然是一种先进且具有潜力的技术。本文以潍坊市某小区热力站为研究对象,将风向、风力、天气条件、平均室外温度、平均室内温度等数据作为输入变量,构建基于机器学习的二级管网供水温度预测模型,对预测模型的预测效果进行对比。
从潍坊市某热力公司数据库获取了某居民小区2021年11月15日0:00至2022年3月22日11:00的二级管网供水温度、风向、风力、天气条件(指天空的阴晴雨雪等物理现象)、平均室外温度、平均室内温度。其中气象类数据(风向、风力、天气条件、室外温度)由当地气象中心提供,每1 h采集1次数据。二级管网供水温度、室内平均温度由小区热力站提供,每10 min采集1次数据,逐时数据取每1 h采集的6次数据的平均值。共获得3 050组数据样本。
数据的采集、上传过程均可能由于设备、网络等问题产生数据缺失和异常。数据的缺失和异常影响机器学习效果,因此对异常数据进行处理以及缺失数据填充非常重要[12]。在3 050组数据中,剔除异常数据后,对剔除数据位置及缺失数据进行均值填充。经处理,最终获得3 050组完整的数据样本。
数据样本中的风向、天气条件属于文本数据,神经网络等大部分算法无法直接识别文本数据,因此需要将其进行数值量化。风对建筑热负荷的影响主要分为两部分:一是冷风渗透,室外的冷风通过门窗等结构缝隙进入室内,热负荷增大。二是随着风速增大,风与围护结构之间的扰动增强,增大了围护结构外壁表面传热系数,使建筑热负荷增加[13]。由于风对围护结构外壁表面传热系数的影响基本与风向无关[14],因此对风向的数值量化仅考虑对冷风渗透的影响。经外窗缝隙渗入室内的总空气量需用朝向修正系数来修正,因此根据GB 50736—2012《民用建筑供暖通风与空气调节设计规范》附录G选用渗透冷空气量的朝向修正系数作为风向数据的量化值,见表1。根据前人经验,对天气条件进行0~1范围的数值量化[15],量化结果见表2。
神经网络与支持向量机是数值计算型算法,需要对输入变量采用极大极小值法进行归一化处理。随机森林则不需要对输入量进行归一化处理。将样本数据以8∶2的比例随机划分成训练集(2 440个样本)与测试集(610个样本),训练集用来训练模型,测试集用来测试预测模型的预测效果。
采用均方误差(MSE)、平均绝对误差(MAE)、相关系数(R2)评价预测模型训练和预测效果。均方误差是反映预测值与实测值之间差异程度的一种度量,均方误差越小说明预测效果越好。平均绝对误差用于评估预测值与实测值的接近程度,平均绝对误差越小说明预测效果越好。相关系数是一种用于评估回归模型拟合优度的统计指标,表示因变量的变异性能够由模型解释的比例,即模型对数据的拟合程度,取值范围为0~1,越接近1说明拟合程度越好。
均方误差、平均绝对误差、相关系数的计算式分别为:
预测模型输入参数为风向、风力、天气条件、平均室外温度、平均室内温度,输出参数为二级管网供水温度。
① 原理
BP神经网络——BPNN(Back Propagation Neural Network,反向传播神经网络)是机器学习中常见的一种方法。BPNN由输入层、隐藏层、输出层构成,层与层之间由神经元连接[16]。此外,每个神经元还需要通过一个激活函数来构造非线性特性。
BPNN首先随机初始化权重,经神经元激活函数和对应权重处理后形成的信号从前向后传递,到输出层时输出的模型预测值与实际值对比,根据均方误差MSE重新调整权重,直到均方误差MSE达到要求或达到所设定的迭代次数。
② 模型构建
在考虑天气条件下,构建BPNN模型。Tensorflow是机器学习方面的一种框架,它包含许多用于机器学习的数据集,同时还封装了大量机器学习的算法和函数。
本文使用Tensorflow中的Sequential模型搭建BPNN模型。Sequential模型名为顺序模型,是最基础的线性顺序结构,由层与层按顺序堆叠而成。它的每1层都具有1个输入张量和1个输出张量。模型共4层,输入层是第1层,有5个神经元,第2、第3层为隐藏层,神经元数量需人工调试,输出层仅有1个神经元(二级管网供水温度)。4层网络都使用激活函数Relu函数。此外,为避免模型过拟合,在隐藏层中使用了Dropout策略[17],层中的神经元随机失活。
使用网格搜索法对隐藏层神经元数量进行寻优。网格搜索法将参数在一定范围内划分成若干点,在训练模型时遍历这些点,并计算出相应的均方误差。当第2、第3层神经元数量分别为80、20时,均方误差MSE误差最小。迭代次数达到150次时,模型均方误差MSE基本趋于平稳。BPNN模型参数见表3。
③ 预测结果
将测试集的输入特征代入完成训练的BPNN模型,得到二级管网供水温度预测值。采用BPNN模型,测试集所有样本预测值、实测值见图1。测试集1~100号、401~500号样本预测值、实测值及预测值误差分别见图2、3。
① 原理
支持向量机(Support Vector Machine,SVM)用于回归模型时称为支持向量回归(Support Vector Regression,SVR)。支持向量机的优点在于对样本数量要求不高,泛化能力强。
② 模型构建
使用Python软件中的Scikit-learn库的Support Vector Regression模块构建SVR模型。
核函数与惩罚因子的选择关系到预测模型的预测效果。核函数的选择尤为重要,高斯核函数也称为径向基函数(Radial Basis Function,RBF)是一种局部性强的核函数,可以将1个样本映射到1个更高维的空间内。无论大样本还是小样本,高斯核函数均有比较好的性能,而且比多项式核函数参数少。因此,本文选择高斯核函数作为SVR模型的核函数。
惩罚因子表示对离散点的容忍程度。惩罚因子增大,则预测模型对偏离超平面的点容忍度降低。gamma值是用于非线性支持向量机的超参数。gamma值较低表示相似半径较大,这会导致将更多的点组合在一起。对于gamma值较高的情况,点之间必须非常接近,才能将其视为同一组或一类。
SVR模型训练时采用高斯核函数。划分网格时:惩罚因子取1~100,变化步长为5。gamma值取0.5~5.0,变化步长为0.5。使用均方误差对SVR模型预测效果进行评价,进行网格搜索。当惩罚因子取10、gamma值取4时,预测模型均方误差取得最小值。因此,SVR模型的惩罚因子取10,gamma值取4。
③ 预测结果
将测试集的输入特征代入完成训练的SVR模型,得到二级管网供水温度预测值。采用SVR模型,测试集所有样本预测值、实测值见图4。测试集1~100号、401~500号样本预测值、实测值及预测值误差分别见图5、6。
① 原理
随机森林是以决策树为基学习器的集成学习方法。集成学习的思想是建立多个独立的个体学习器,然后用某种算法将它们组合成一个优于独立个体的学习器[18]。随机森林回归模型由多棵回归树共同构成,树与树互不影响,模型的输出结果由所有的树共同决定,属于Bagging(Bootstrap aggregating,引导聚集算法)的拓展变体[19]。
② 模型构建
在考虑天气条件下,搭建随机森林模型。随机森林模型主要参数为决策树的数量,使用网格搜索法对其进行网格划分,使用均方误差MSE对随机森林模型预测效果进行评价,发现当决策树数量取140时,均方误差取得最小值。其他参数通过手动调节,随机森林模型参数见表4。
③ 预测结果
将测试集的输入特征代入完成训练的随机森林模型,得到二级管网供水温度预测值。采用随机森林模型,测试集所有样本预测值、实测值见图7。测试集1~100号、401~500号样本预测值、实测值及预测值误差见图8、9。
由图1~9的预测结果可知,3种预测模型均能较好预测二级管网供水温度。在3种预测模型中,随机森林模型得到的预测值与实测值吻合程度更高,预测值与实测值的误差波动范围更小。
除考虑天气条件外,笔者还在不考虑天气条件的前提下建立了3种预测模型。考虑天气条件、不考虑天气条件下,3种预测模型的评价指标见表5。由表5可知,无论是否考虑天气条件,随机森林模型的各项评价指标均优于其他两种预测模型。因此,随机森林模型的预测效果最佳。与不考虑天气条件相比,考虑天气条件的随机森林模型的平均绝对误差稍有增大外,均方误差、相关系数均有所改善,总体上模型预测效果有所提高。
6 结论
① 3种预测模型均能较好预测二级管网供水温度。在3种预测模型中,随机森林模型得到的预测值与实测值吻合程度更高,预测值与实测值的误差波动范围更小。无论是否考虑天气条件,随机森林模型的各项评价指标均优于其他两种预测模型。随机森林模型的预测效果最佳。
② 与不考虑天气条件相比,考虑天气条件的随机森林模型的预测效果有所提高。
声明:本文著作权(版权)归《煤气与热力》杂志社所有,严禁任何微信号及媒体未经授权许可随意转载。PS: 当然欢迎大家转发到朋友圈!
更多论文请登录煤气与热力杂志官方网站,免费注册会员阅读电子期刊。阅读步骤:登录http://www.gasheat.cn/→页面右上角注册会员→注册成功后点击《煤气与热力》→期刊索引→点击某期期刊封面即可阅读当期文章。