深度学习:手撕 RNN(1)-RNN 的直观认识

文摘   科技   2024-05-16 16:42   山东  

2024年 第09篇


一个基本的 RNN 的运行机制,以及它的内部结构


  • 什么是RNN



01 什么是RNN


RNN(Recurrent Neural Network)存在很多变体,为了方便叙述和理解,本文选取一个基本的 RNN 结构进行说明,该结构与 pytorch 中的 RNN 函数([1])相同。

对于 MLP 或者 CNN 架构的模型,每一个输入, 仅有一个 label 与之对应,不同样本之间的输入和输出没有依赖关系。如图 1-1, 给 CNN 模型展示“北极熊”的图片,模型输出“北极熊”,给模型展示“小猫”的图片,模型输出“小猫”,“北极熊”和“小猫”之间没有任何联系,像这种模型属于“one-shot” 模型。但我们的人脑不是“one-shot”模型,我们的人脑不断的接收信息,然后再结合以前的经验和记忆,处理当前的信息,最后得到输出,然后再将相关信息传递给下一个时刻。比如看到“北极熊”时,我们的大脑当前时刻输出为“北极熊”,下一个时刻输出“逃跑”;看到“小猫”时,当前时刻大脑识别出“小猫”,下一时刻大脑输出“抚摸小猫”。

图 1-1: CNN 输入输出模式

对于非“one-shot”的模型,在处理每个时刻的输入数据时,模型还结合了过去时刻的“经验”或者“记忆”,这样不同时刻的输入/输出便存在了依赖关系。对于某些任务,不同样本 的 label 存在一些依赖关系,我们需要设计一个模型刻画不同 label 的依赖关系。如 NLP 领域的序列标注问题,或者股票的价格预测问题,在这些任务中,每一个时刻的输出不仅仅取决于当前时刻的输入,而且还依赖前一个时刻的相关信息 (经验/记忆)。基于这些需求,人们设计出 RNN(Recurrent Neural Network)。如图 1-2,将一个 RNN 模块按照不同时刻进行展开。

图 1-2: RNN 不同时刻展开

我们可以看到,每个时刻的 Cell,将过去时刻的隐状态 (经验/记忆) 与当前时刻的输入 结合生成新的隐状态 (经验/记忆), 为了方便理解我们将隐状态也叫做 memory:

然后再将 memory 通过 MLP 的变换后得到输出 :

本文描述了一个基本的 RNN 的运行机制,以及它的内部结构。RNN 的特点是在每个时刻不仅有当前时刻的输入,而且还有上一个时刻的 memory ,这样使不同时刻的数据关联起来。下一篇文章我们以这个基本的 RNN 为单元,搭建常见的 RNN 架构。


02 参考


  1. pytorch 的 RNN 文档 https://pytorch.org/docs/stable/generated/torch.nn.RNN.html#torch.nn.RNN



03 团队介绍



「三翼鸟数字化技术平台-智慧设计团队」依托实体建模技术与人工智能技术打造面向家电的智能设计平台,为海尔特色的成套家电和智慧场景提供可视可触的虚拟现实体验。智慧设计团队提供全链路设计,涵盖概念化设计、深化设计、智能仿真、快速报价、模拟施工、快速出图、交易交付、设备检修等关键环节,为全屋家电设计提供一站式解决方案


    _________________ END__________________

三翼鸟数字化科技
三翼鸟数字化技术团队官方订阅号,提供技术前沿洞察、技术实践分享、最佳实践整合、技术规范发布、团队文化输出。