一文彻底搞懂RNN - 模型架构（Model Architecture）

文摘科技 2024-09-12 20:05 湖北

Recurrent Neural Network

RNN是一种特殊的神经网络结构，它通过在时间上的展开来处理序列数据中的依赖关系。在每个时间步（time step），RNN都会接收一个输入（比如句子中的一个单词），并输出一个结果（比如下一个单词的预测）。与传统的前馈神经网络（Feedforward Neural Network, FNN）不同，RNN在每个时间步都会保留一个隐藏状态（hidden state），这个隐藏状态包含了之前所有时间步的信息，并用于计算当前时间步的输出和下一个时间步的隐藏状态。

RNN vs FFNN

一、FFNN（前馈神经网络）的局限性

前馈神经网络（Feedforward Neural Network, FFNN）：前馈神经网络（FFNN），也称为多层感知机（MLP），通过多个隐藏层将输入数据映射到输出数据。它主要由输入层、一个或多个隐藏层以及输出层组成，数据在网络中只能单向流动，即从输入层经过隐藏层最终到达输出层，没有反馈环路。

FFNN

FFNN的局限性：FFNN这种结构在处理序列数据时存在明显的局限性，因为每个输入都是独立处理的，并且没有考虑它们之间的顺序或上下文关系。这意味着无法有效处理顺序数据并捕获输入之间的依赖关系。例如语言建模、机器翻译、语音识别、时间序列分析以及许多其他需要顺序处理的应用程序。

Sequence Data

二、RNN（循环神经网络）

RNN的核心思想：为了解决FFNN在处理序列数据时的局限性，循环神经网络（RNN）被引入。RNN的核心思想是在隐藏层之间引入循环连接，使得每个时间步的隐藏状态不仅取决于当前时间步的输入，还取决于前一个时间步的隐藏状态。

RNN 最主要也是最重要的特征是它的隐藏状态，它可以记住有关序列的一些信息。该状态也称为记忆状态，因为它会记住网络的先前输入。

RNN的隐藏状态

RNN的模型架构：RNN通过其隐藏层的隐藏状态捕捉输入序列的时序依赖性，并基于当前输入和前一隐藏状态来生成输出序列的预测结果。

输入层：接收输入数据，并将其传递给隐藏层。输入不仅仅是静态的，还包含着序列中的历史信息。
隐藏层：隐藏状态是核心部分，捕捉时序依赖性。隐藏层的输出不仅取决于当前的输入，还取决于前一时刻的隐藏状态。
输出层：根据隐藏层的输出生成最终的预测结果。

输入层- 隐藏层 - 输出层

RNN的工作原理：通过一个具体的案例来看看RNN的工作原理。例如，用户说了一句“what time is it?”，需要判断用户的说话意图，是问时间，还是问天气？

输入层：先对句子“what time is it ?” 进行分词，然后按照顺序输入。

对句子进行分词

隐藏层：在此过程中，我们注意到前面的所有输入都对后续的输出产生了影响。圆形隐藏层不仅考虑了当前的输入，还综合了隐藏状态存储的之前所有的输入信息，能够利用历史信息来影响未来的输出。

Hidden State存储了之前所有的输入信息

输出层：生成最终的预测结果：Asking for the time。

输出结果：Asking for the time

三、RNN（循环神经网络）的局限性

RNN的局限性：在于梯度问题导致难以学习长期依赖，长期记忆能力不足，且并行处理能力差。

1. 梯度消失和梯度爆炸问题

梯度消失：在RNN中，由于参数共享和多次连乘的特性，在反向传播过程中，梯度值可能会随着时间步的增加而指数级衰减，最终趋近于0。这导致RNN难以学习到长期依赖关系，因为较早时间步的输入在反向传播时其梯度几乎为0，无法对这些输入进行有效的权重更新。
梯度爆炸：与梯度消失相反，梯度爆炸是指在反向传播过程中，梯度值可能会随着时间步的增加而快速增长到非常大，导致模型训练不稳定甚至无法收敛。

2. 长期依赖捕捉能力有限

由于梯度消失的问题，RNN在处理长序列时难以有效地捕捉到长期依赖关系。这意味着如果输入序列中的某个元素与输出之间存在长时间的间隔，RNN可能无法有效地学习到这两者之间的关系，从而限制了其在处理长序列数据时的性能。

3. 并行处理能力较差

RNN的计算是顺序进行的，即每个时间步的输出都依赖于前一个时间步的计算结果。这种顺序计算的方式限制了RNN的并行处理能力，使得在大规模数据集和复杂模型的情况下，RNN的训练和推理速度相对较慢。

梯度消失和梯度爆炸

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247491599&idx=1&sn=5b3660f878ba5b4f9839a2dcccf09e30

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

好书推荐 - 《大型语言模型实战指南》

大模型实战 - 神经网络语言模型

好书推荐 - 《线性代数与数据学习》

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

一文彻底搞懂RNN - 模型架构（Model Architecture）

大模型面试 - 分词（Tokenization）

一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

大模型面试 - 激活函数（Activation Function）

好书推荐 - 《AIGC大语言模型轻松学：从个人应用到企业实践》

一文彻底搞懂大模型 - 统计语言模型

大模型实战 - 统计语言模型

一文彻底搞懂大模型 - 贝叶斯网络（Bayesian Network）

大模型面试 - 梯度下降（Gradient Descent）

一文彻底搞懂大模型 - 隐马尔可夫模型（HMM）

一文彻底搞懂大模型 - 最大熵模型

一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

大模型实战 - Agent（智能体）

好书推荐 - 《多模态人工智能：大模型核心原理与关键技术》

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

大模型面试 - 损失函数（Loss Function）

一文彻底搞懂大模型 - 语言模型的发展历程

一文彻底搞懂大模型 - LLM的构建流程

大模型面试 - 反向传播（Back Propagation）

GLM-4-Flash免费：在线微调GLM-4-Flash + Function Calling搭建法律知识库

无法解释LLM的智能涌现，可以从神经元的基本原理入手

一文彻底搞懂大模型 - RAG（检索、增强、生成）

大模型实战 - RAG（检索、增强、生成）

好书推荐 - 《LeeDL Tutorial 深度学习详解》

一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

一文彻底搞懂大模型 - AI四次大发展

大模型面试 - 参数和超参数（Parameters vs Hyperparameters）

一文彻底搞懂大模型 - Fine-tuning三种微调方式

一文彻底搞懂大模型 - LLM四阶段技术

大模型实战 - Function Calling（函数调用）

大模型面试 -深度学习第二部分课程简介

好书推荐 - 《大规模语言模型：从理论到实践》

一文彻底搞懂大模型 - Prompt Engineering（提示工程）

大模型面试 - 大模型的奠基者（Transformer）

一文彻底搞懂大模型 - Agent（智能体）

一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

大模型面试 - 残差神经网络（ResNet）

glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

大模型实战 - Fine-tuning（LoRA + LLaMA-Factory）

一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

大模型面试 - 图神经网络（GNN）

Transformer动画讲解 - 注意力工作原理（Q、K、V）

大模型实战 - Embedding（Word2Vec、Text2Vec）

一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉