代码原理
基于TCN-BiGRU的数据回归预测模型结合了时间卷积神经网络(Temporal Convolutional Network, TCN)和双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU),用于处理时序数据并进行回归预测。以下是该模型的简单原理及流程:
原理
(1)时间卷积神经网络(TCN):
TCN是一种专门用于处理时序数据的深度学习模型。
它通过堆叠卷积层捕捉时序数据中的不同时间尺度的特征。
TCN结构中的残差连接有助于缓解梯度消失问题,使得模型能够学习长期依赖关系。
(2)双向门控循环单元(BiGRU):
BiGRU是一种门控循环神经网络(GRU)的变体,它能够有效地学习时序数据中的上下文信息。
BiGRU结合了前向和后向两个方向的信息,通过门控机制控制信息的流动,适合于捕捉序列数据中的长期依赖关系。
流程
(1)数据预处理:
对时序数据进行预处理,包括清洗、标准化和特征工程等步骤。
将数据集划分为训练集和测试集。
(2)特征提取(TCN部分):
使用TCN模型对训练集中的时序数据进行特征提取。
TCN通过堆叠的卷积层捕获不同时间尺度的特征,并利用残差连接传递信息,生成高级抽象的特征表示。
(3)序列建模(BiGRU部分):
将TCN提取的特征序列作为输入,使用BiGRU模型进行序列建模。
BiGRU模型在前向和后向两个方向上处理输入序列,有效地捕捉上下文信息和序列中的依赖关系。
(4)回归预测:
BiGRU模型的输出作为最终的预测结果。
可以根据具体任务选择输出序列的最后一个时间步的预测值或者整个序列的平均值作为最终的回归预测结果。
(5)模型评估与优化:
使用测试集评估模型的性能,通常采用均方误差(MSE)、平均绝对误差(MAE)等指标进行评估。
根据评估结果调整模型的超参数或结构,优化模型的预测能力和泛化能力。
(6)模型应用与部署:
将训练好的TCN-BiGRU模型应用于实际的数据回归预测任务中。
根据需求进行模型的部署和持续优化,以适应数据的变化和新的预测需求。
总结
基于TCN-BiGRU的数据回归预测模型结合了TCN在时序特征提取方面的优势和BiGRU在序列建模中的能力,能够有效处理复杂的时序数据并提供准确的回归预测结果。这种模型在许多实际应用中展现出了较好的性能和泛化能力。
部分代码
%% 清空环境变量
warning off % 关闭报警信息
close all % 关闭开启的图窗
clear % 清空变量
clc
%% 导入数据
data = readmatrix('回归数据集.xlsx');
data = data(:,1:14);
res=data(randperm(size(data,1)),:); %此行代码用于打乱原始样本,使训练集测试集随机被抽取,有助于更新预测结果。
num_samples = size(res,1); %样本个数
% 训练集和测试集划分
outdim = 1; % 最后一列为输出
num_size = 0.7; % 训练集占数据集比例
num_train_s = round(num_size * num_samples); % 训练集样本个数
f_ = size(res, 2) - outdim; % 输入特征维度
P_train = res(1: num_train_s, 1: f_)';
T_train = res(1: num_train_s, f_ + 1: end)';
M = size(P_train, 2);
P_test = res(num_train_s + 1: end, 1: f_)';
T_test = res(num_train_s + 1: end, f_ + 1: end)';
N = size(P_test, 2);
% 数据归一化
[p_train, ps_input] = mapminmax(P_train, 0, 1);
p_test = mapminmax('apply', P_test, ps_input);
[t_train, ps_output] = mapminmax(T_train, 0, 1);
t_test = mapminmax('apply', T_test, ps_output);
% 格式转换
for i = 1 : M
vp_train{i, 1} = p_train(:, i);
vt_train{i, 1} = t_train(:, i);
end
for i = 1 : N
vp_test{i, 1} = p_test(:, i);
vt_test{i, 1} = t_test(:, i);
end
%% 优化算法优化前,构建优化前的TCN_BiGRU模型
outputSize = 1; %数据输出y的维度
numFilters = 64;
filterSize = 5;
dropoutFactor = 0.005;
numBlocks = 2;
layer = sequenceInputLayer(f_,Normalization="rescale-symmetric",Name="input");
lgraph = layerGraph(layer);
outputName = layer.Name;
for i = 1:numBlocks
dilationFactor = 2^(i-1);
layers = [
convolution1dLayer(filterSize,numFilters,DilationFactor=dilationFactor,Padding="causal",Name="conv1_"+i)
layerNormalizationLayer
dropoutLayer(dropoutFactor)
% spatialDropoutLayer(dropoutFactor)
convolution1dLayer(filterSize,numFilters,DilationFactor=dilationFactor,Padding="causal")
layerNormalizationLayer
reluLayer
dropoutLayer(dropoutFactor)
additionLayer(2,Name="add_"+i)];
% Add and connect layers.
lgraph = addLayers(lgraph,layers);
lgraph = connectLayers(lgraph,outputName,"conv1_"+i);
% Skip connection.
if i == 1
% Include convolution in first skip connection.
layer = convolution1dLayer(1,numFilters,Name="convSkip");
lgraph = addLayers(lgraph,layer);
lgraph = connectLayers(lgraph,outputName,"convSkip");
lgraph = connectLayers(lgraph,"convSkip","add_" + i + "/in2");
else
lgraph = connectLayers(lgraph,outputName,"add_" + i + "/in2");
end
% Update layer output name.
outputName = "add_" + i;
end
tempLayers = flattenLayer("Name","flatten");
lgraph = addLayers(lgraph,tempLayers);
tempLayers = gruLayer(35,"Name","gru1");
lgraph = addLayers(lgraph,tempLayers);