漂亮，LSTM模型结构的可视化

文摘 2024-09-08 10:31 广东

知乎作者 | master苏

链接 | https://zhuanlan.zhihu.com/p/139617364

本文约3200字，建议阅读5分钟

本文介绍了LSTM模型结构的可视化。

最近在学习LSTM应用在时间序列的预测上，但是遇到一个很大的问题就是LSTM在传统BP网络上加上时间步后，其结构就很难理解了，同时其输入输出数据格式也很难理解，网络上有很多介绍LSTM结构的文章，但是都不直观，对初学者是非常不友好的。我也是苦苦冥思很久，看了很多资料和网友分享的LSTM结构图形才明白其中的玄机。

本文内容如下：

1、传统的BP网络和CNN网络
2、LSTM网络
3、LSTM的输入结构
4、pytorch中的LSTM
4.1 pytorch中定义的LSTM模型
4.2 喂给LSTM的数据格式
4.3 LSTM的output格式
5、LSTM和其他网络组合

传统的BP网络和CNN网络

BP网络和CNN网络没有时间维，和传统的机器学习算法理解起来相差无几，CNN在处理彩色图像的3通道时，也可以理解为叠加多层，图形的三维矩阵当做空间的切片即可理解，写代码的时候照着图形一层层叠加即可。如下图是一个普通的BP网络和CNN网络。

BP网络

CNN网络

图中的隐含层、卷积层、池化层、全连接层等，都是实际存在的，一层层前后叠加，在空间上很好理解，因此在写代码的时候，基本就是看图写代码，比如用keras就是：

# 示例代码，没有实际意义model = Sequential()model.add(Conv2D(32, (3, 3), activation='relu'))  # 添加卷积层model.add(MaxPooling2D(pool_size=(2, 2)))         # 添加池化层model.add(Dropout(0.25))                          # 添加dropout层

model.add(Conv2D(32, (3, 3), activation='relu'))  # 添加卷积层model.add(MaxPooling2D(pool_size=(2, 2)))         # 添加池化层model.add(Dropout(0.25))                          # 添加dropout层
....   # 添加其他卷积操作
model.add(Flatten())                            # 拉平三维数组为2维数组model.add(Dense(256, activation='relu'))        添加普通的全连接层model.add(Dropout(0.5))model.add(Dense(10, activation='softmax'))
....  # 训练网络

LSTM网络

当我们在网络上搜索看LSTM结构的时候，看最多的是下面这张图：

RNN网络

这是RNN循环神经网络经典的结构图，LSTM只是对隐含层节点A做了改进，整体结构不变，因此本文讨论的也是这个结构的可视化问题。

中间的A节点隐含层，左边是表示只有一层隐含层的LSTM网络，所谓LSTM循环神经网络就是在时间轴上的循环利用，在时间轴上展开后得到右图。

看左图，很多同学以为LSTM是单输入、单输出，只有一个隐含神经元的网络结构，看右图，以为LSTM是多输入、多输出，有多个隐含神经元的网络结构，A的数量就是隐含层节点数量。

WTH？思维转不过来啊。这就是传统网络和空间结构的思维。

实际上，右图中，我们看Xt表示序列，下标t是时间轴，所以，A的数量表示的是时间轴的长度，是同一个神经元在不同时刻的状态（Ht），不是隐含层神经元个数。

我们知道，LSTM网络在训练时会使用上一时刻的信息，加上本次时刻的输入信息来共同训练。

举个简单的例子：在第一天我生病了（初始状态H0），然后吃药（利用输入信息X1训练网络），第二天好转但是没有完全好（H1），再吃药（X2）,病情得到好转（H2）,如此循环往复知道病情好转。因此，输入Xt是吃药，时间轴T是吃多天的药，隐含层状态是病情状况。因此我还是我，只是不同状态的我。

实际上，LSTM的网络是这样的：

LSTM网络结构

上面的图表示包含2个隐含层的LSTM网络，在T=1时刻看，它是一个普通的BP网络，在T=2时刻看也是一个普通的BP网络，只是沿时间轴展开后，T=1训练的隐含层信息H,C会被传递到下一个时刻T=2，如下图所示。上图中向右的五个常常的箭头，所的也是隐含层状态在时间轴上的传递。

注意，图中H表示隐藏层状态，C是遗忘门，后面会讲解它们的维度。

LSTM的输入结构

为了更好理解LSTM结构，还必须理解LSTM的数据输入情况。仿照3通道图像的样子，在加上时间轴后的多样本的多特征的不同时刻的数据立方体如下图所示：

三维数据立方体

右边的图是我们常见模型的输入，比如XGBOOST，lightGBM，决策树等模型，输入的数据格式都是这种（N*F）的矩阵，而左边是加上时间轴后的数据立方体，也就是时间轴上的切片，它的维度是（N*T*F）,第一维度是样本数，第二维度是时间，第三维度是特征数，如下图所示：

这样的数据立方体很多，比如天气预报数据，把样本理解成城市，时间轴是日期，特征是天气相关的降雨风速PM2.5等，这个数据立方体就很好理解了。在NLP里面，一句话会被embedding成一个矩阵，词与词的顺序是时间轴T，索引多个句子的embedding三维矩阵如下图所示：

pytorch中的LSTM

4.1 pytorch中定义的LSTM模型

pytorch中定义的LSTM模型的参数如下

class torch.nn.LSTM(*args, **kwargs)参数有：input_size：x的特征维度    hidden_size：隐藏层的特征维度    num_layers：lstm隐层的层数，默认为1    bias：False则bihbih=0和bhhbhh=0. 默认为True    batch_first：True则输入输出的数据格式为 (batch, seq, feature) dropout：除最后一层，每一层的输出都进行dropout，默认为: 0    bidirectional：True则为双向lstm默认为False

结合前面的图形，我们一个个看。

（1）input_size：x的特征维度，就是数据立方体中的F，在NLP中就是一个词被embedding后的向量长度，如下图所示：

（2）hidden_size：隐藏层的特征维度（隐藏层神经元个数），如下图所示，我们有两个隐含层，每个隐藏层的特征维度都是5。注意，非双向LSTM的输出维度等于隐藏层的特征维度。

（3）num_layers：lstm隐层的层数，上面的图我们定义了2个隐藏层。

（4）batch_first：用于定义输入输出维度，后面再讲。

（5）bidirectional：是否是双向循环神经网络，如下图是一个双向循环神经网络，因此在使用双向LSTM的时候我需要特别注意，正向传播的时候有（Ht, Ct）,反向传播也有（Ht', Ct'）,前面我们说了非双向LSTM的输出维度等于隐藏层的特征维度，而双向LSTM的输出维度是隐含层特征数*2，而且H,C的维度是时间轴长度*2。

4.2 喂给LSTM的数据格式

pytorch中LSTM的输入数据格式默认如下：

input(seq_len, batch, input_size)参数有：seq_len：序列长度，在NLP中就是句子长度，一般都会用pad_sequence补齐长度   batch：每次喂给网络的数据条数，在NLP中就是一次喂给网络多少个句子   input_size：特征维度，和前面定义网络结构的input_size一致。

前面也说到，如果LSTM的参数 batch_first=True，则要求输入的格式是：

input(batch, seq_len, input_size)

刚好调换前面两个参数的位置。其实这是比较好理解的数据形式，下面以NLP中的embedding向量说明如何构造LSTM的输入。

之前我们的embedding矩阵如下图：

如果把batch放在第一位，则三维矩阵的形式如下：

其转换过程如下图所示：

看懂了吗，这就是输入数据的格式，是不是很简单。

LSTM的另外两个输入是 h0 和 c0，可以理解成网络的初始化参数，用随机数生成即可。

h0(num_layers * num_directions, batch, hidden_size)c0(num_layers * num_directions, batch, hidden_size)参数：num_layers：隐藏层数    num_directions：如果是单向循环网络，则num_directions=1，双向则num_directions=2    batch：输入数据的batch    hidden_size：隐藏层神经元个数

注意，如果我们定义的input格式是：

input(batch, seq_len, input_size)

则H和C的格式也是要变的：

h0(batc，num_layers * num_directions, h, hidden_size)c0(batc，num_layers * num_directions, h, hidden_size)

4.3 LSTM的output格式

LSTM的输出是一个tuple，如下：

output,(ht, ct) = net(input)    output: 最后一个状态的隐藏层的神经元输出    ht：最后一个状态的隐含层的状态值    ct：最后一个状态的隐含层的遗忘门值

output的默认维度是：

output(seq_len, batch, hidden_size * num_directions)ht(num_layers * num_directions, batch, hidden_size)ct(num_layers * num_directions, batch, hidden_size)

和input的情况类似，如果我们前面定义的input格式是：

input(batch, seq_len, input_size)

则ht和ct的格式也是要变的：

ht(batc，num_layers * num_directions, h, hidden_size)ct(batc，num_layers * num_directions, h, hidden_size)

说了这么多，我们回过头来看看ht和ct在哪里，请看下图：

output在哪里？请看下图：

LSTM和其他网络组合

还记得吗，output的维度等于隐藏层神经元的个数，即hidden_size，在一些时间序列的预测中，会在output后，接上一个全连接层，全连接层的输入维度等于LSTM的hidden_size，之后的网络处理就和BP网络相同了，如下图：

用pytorch实现上面的结构：

import torchfrom torch import nn
class RegLSTM(nn.Module):    def __init__(self):        super(RegLSTM, self).__init__()        # 定义LSTM        self.rnn = nn.LSTM(input_size, hidden_size, hidden_num_layers)        # 定义回归层网络，输入的特征维度等于LSTM的输出，输出维度为1        self.reg = nn.Sequential(            nn.Linear(hidden_size, 1)        )
    def forward(self, x):        x, (ht,ct) = self.rnn(x)        seq_len, batch_size, hidden_size= x.shape        x = y.view(-1, hidden_size)        x = self.reg(x)        x = x.view(seq_len, batch_size, -1)        return x

当然，有些模型则是将输出当做另一个LSTM的输入，或者使用隐藏层ht,ct的信息进行建模，不一而足。

参考链接：

https://zhuanlan.zhihu.com/p/94757947

https://zhuanlan.zhihu.com/p/59862381

https://zhuanlan.zhihu.com/p/36455374

https://www.zhihu.com/question/41949741/answer/318771336

https://blog.csdn.net/android_ruben/article/details/80206792

编辑：王菁

校对：林亦霖

http://mp.weixin.qq.com/s?__biz=MzkxMzUxNzEzMQ==&mid=2247489297&idx=1&sn=4de02111b16d7803b34454306df4c9e7

机器学习实战

多名大厂算法工程师共同运营，主要专注机器学习算法、深度学习算法、计算机视觉等领域技术干货分享，一天进步一点点

最新文章

上海交大新聘AI博导，27岁！

SCI机器学习一区TOP，再次刷新顶刊巅峰！

刷脸背后，卷积神经网络的数学原理原来是这样的

一位中国博士把整个CNN都给可视化了，可交互有细节，每次卷积ReLU池化都清清楚楚

教高中生发顶会，看完还不懂来找我

PyTorch下的可视化工具（网络结构/训练过程可视化）

RTX 3090的深度学习环境配置指南：Pytorch、TensorFlow、Keras

有位大佬逐模块解析transformer结构

图解机器学习：贝叶斯算法

使用 YOLO 加速实时应用程序中的对象检测 !

算法岗平时需要自己写cuda吗？

13张动图快速理解马尔科夫链、PCA、贝叶斯！

使用 LSTM 进行多变量时间序列预测的保姆级教程

搞懂Transformer结构，看这篇PyTorch实现就够了

时间序列问题特征提取技巧（含Python代码）

【深度学习】既然英伟达A100/H100 太贵，为什么不用 4090？

李飞飞：我不知道什么是AGI

图解Numpy，这篇文章是真的强！

PyCharm vs VSCode，是时候改变你的 IDE 了！

苹果为什么不敢对 12306 买票抽成 30% ?

微信官方回应：为什么不做已读功能

中国高校面积Top10

六年、六届学生接力，共铸上交大图像合成工具箱libcom

超全！李航《统计学习方法》读书笔记

2026年量产！没有方向盘和踏板！特斯拉无人驾驶出租车发布

何恺明新作出炉！中稿NeurIPS 2024！HPT：异构预训练Transformer

复现Resnet论文那些事

ONNX：从入门到精通

硬核解读Stable Diffusion（完整版）

PyGWalker：最好用的数据分析Python库

7大类卷积神经网络(CNN)创新综述

ACL2024 | 破案了！大型语言模型中的涌现能力只是上下文学习吗?.

漂亮，LSTM模型结构的可视化

XGBoost 比深度学习还强？

Sapiens——强大的通用人类视觉模型

Plotly Express：一种简洁且强大的可视化神器

TensorSensor：可视化向量运算库

Seaborn可视化库：从入门到精通

从零开始学绘图！手把手教新手使用Matplotlib创建个性化图表

卷积神经网络数学原理解析

如何轻松掌握马尔科夫采样算法

虎扑高校排名公布！这JR们打分着实意想不到!

AI大语言模型不再遥不可及：本地化部署、智能体构建技术让每个人都能拥有

50个最佳机器学习公共数据集

如何向10岁小孩解释LDA（线性判别分析）算法

想学SVD（奇异值分解）算法？看这篇就够了

如何通俗理解PCA（主成分分析）算法的数学原理和代码实现

如何向10岁小朋友解释频率学派和贝叶斯学派

如何向10岁小孩解释PCA（主成分分析）算法

全网独一份！AI大模型学习训练资源...（限时免费领）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉