代码原理
基于TCN_GRU-Attention的数据回归预测模型结合了时间卷积网络(Temporal Convolutional Network, TCN)、门控循环单元(Gated Recurrent Unit, GRU)和注意力机制(Attention),用于处理时序数据并进行回归预测。以下是该模型的简单原理及流程:
原理
(1)时间卷积网络(TCN):
TCN是一种专门用于处理时序数据的深度学习模型,通过堆叠卷积层捕捉不同时间尺度的特征。
TCN利用残差连接来解决梯度消失问题,能够有效学习长期依赖关系。
(2)门控循环单元(GRU):
GRU是一种门控循环神经网络,类似于长短时记忆网络(LSTM),但参数更少,具有更高的计算效率。
GRU通过更新门和重置门来控制信息的流动,适合捕捉序列数据中的长期依赖关系。
(3)注意力机制(Attention):
注意力机制能够动态地学习和调整输入序列中不同部分的重要性。
在时序数据的处理中,注意力机制可以帮助模型集中注意力于对预测结果有更大贡献的时间步或特征。
流程
(1)数据预处理:
对原始时序数据进行清洗、标准化等预处理操作。
将处理后的数据集划分为训练集和测试集。
(2)特征提取(TCN部分):
使用TCN模型对训练集中的时序数据进行特征提取。
TCN通过堆叠的卷积层捕获不同时间尺度的特征,并利用残差连接保留重要信息。
(3)序列建模(GRU部分):
将TCN提取的特征序列作为GRU模型的输入,进行序列建模和编码。
GRU在时间维度上处理序列数据,通过门控机制调整信息的传递和更新状态。
(4)注意力机制(Attention):
引入注意力机制,根据GRU的输出计算每个时间步的注意力权重。
将GRU输出与注意力权重进行加权求和,得到加权后的序列表示。
(5)回归预测:
将经过注意力加权的序列表示送入全连接层进行回归预测。
输出最终的预测结果,可以是单个时间步的预测值或整个序列的预测结果。
(6)模型评估与优化:
使用测试集评估模型的性能,常用的评价指标包括均方误差(MSE)、平均绝对误差(MAE)等。
根据评估结果调整模型的超参数或结构,优化模型的预测能力和泛化能力。
(7)模型部署与应用:
将训练好的TCN_GRU-Attention模型应用于实际的数据回归预测任务中。
持续监控模型的性能,并根据实际需求进行模型的更新和优化。
总结
基于TCN-GRU-Attention的数据回归预测模型结合了TCN在时序特征提取、GRU在序列建模和注意力机制在重要特征加权方面的优势。该模型能够有效处理复杂的时序数据,并提供准确的回归预测结果,在多个应用场景中表现出良好的性能和泛化能力。
部分代码
%% 清空环境变量
warning off % 关闭报警信息
close all % 关闭开启的图窗
clear % 清空变量
clc
%% 导入数据
data = readmatrix('回归数据集.xlsx');
data = data(:,1:14);
res=data(randperm(size(data,1)),:); %此行代码用于打乱原始样本,使训练集测试集随机被抽取,有助于更新预测结果。
num_samples = size(res,1); %样本个数
% 训练集和测试集划分
outdim = 1; % 最后一列为输出
num_size = 0.7; % 训练集占数据集比例
num_train_s = round(num_size * num_samples); % 训练集样本个数
f_ = size(res, 2) - outdim; % 输入特征维度
P_train = res(1: num_train_s, 1: f_)';
T_train = res(1: num_train_s, f_ + 1: end)';
M = size(P_train, 2);
P_test = res(num_train_s + 1: end, 1: f_)';
T_test = res(num_train_s + 1: end, f_ + 1: end)';
N = size(P_test, 2);
% 数据归一化
[p_train, ps_input] = mapminmax(P_train, 0, 1);
p_test = mapminmax('apply', P_test, ps_input);
[t_train, ps_output] = mapminmax(T_train, 0, 1);
t_test = mapminmax('apply', T_test, ps_output);
% 格式转换
for i = 1 : M
vp_train{i, 1} = p_train(:, i);
vt_train{i, 1} = t_train(:, i);
end
for i = 1 : N
vp_test{i, 1} = p_test(:, i);
vt_test{i, 1} = t_test(:, i);
end
%% 优化算法优化前,构建优化前的TCN_GRU-ATTENTION模型
outputSize = 1; %数据输出y的维度
numFilters = 64;
filterSize = 5;
dropoutFactor = 0.005;
numBlocks = 2;
layer = sequenceInputLayer(f_,Normalization="rescale-symmetric",Name="input");
lgraph = layerGraph(layer);
outputName = layer.Name;
for i = 1:numBlocks
dilationFactor = 2^(i-1);
layers = [
convolution1dLayer(filterSize,numFilters,DilationFactor=dilationFactor,Padding="causal",Name="conv1_"+i)
layerNormalizationLayer
dropoutLayer(dropoutFactor)
% spatialDropoutLayer(dropoutFactor)
convolution1dLayer(filterSize,numFilters,DilationFactor=dilationFactor,Padding="causal")
layerNormalizationLayer
reluLayer
dropoutLayer(dropoutFactor)
additionLayer(2,Name="add_"+i)];
% Add and connect layers.
lgraph = addLayers(lgraph,layers);
lgraph = connectLayers(lgraph,outputName,"conv1_"+i);
% Skip connection.
if i == 1
% Include convolution in first skip connection.
layer = convolution1dLayer(1,numFilters,Name="convSkip");
lgraph = addLayers(lgraph,layer);
lgraph = connectLayers(lgraph,outputName,"convSkip");
lgraph = connectLayers(lgraph,"convSkip","add_" + i + "/in2");
else
lgraph = connectLayers(lgraph,outputName,"add_" + i + "/in2");
end
% Update layer output name.
outputName = "add_" + i;
end
tempLayers = flattenLayer("Name","flatten");
lgraph = addLayers(lgraph,tempLayers);
tempLayers = gruLayer(35,"Name","gru1");
lgraph = addLayers(lgraph,tempLayers);
tempLayers = [
selfAttentionLayer(1,50,"Name","selfattention") % %单头注意力Attention机制,把1改为2,3,4……即为多头,后面的50是键值
fullyConnectedLayer(outdim,"Name","fc")
regressionLayer("Name","regressionoutput")];
lgraph = addLayers(lgraph,tempLayers);
lgraph = connectLayers(lgraph,outputName,"flatten");
lgraph = connectLayers(lgraph,"flatten","gru1");
lgraph = connectLayers(lgraph,"gru1","selfattention");