RNN回归！图灵奖得主Bengio新作大道至简与Transformer一较高下

文摘 2024-10-27 22:35 北京

【导读】近日，深度学习三巨头之一的Yoshua Bengio，带领团队推出了全新的RNN架构，以大道至简的思想与Transformer一较高下。

在Transformer统治的AI时代之下，

散落在世界各地的「RNN神教」信徒，一直相信并期待着RNN回归的那天：

毕竟，凭借强大的顺序和上下文感知能力，RNN曾在各种任务中表现惊艳。

直到后来遭遇了反向训练的瓶颈，因Scaling Law而跌落神坛。

然而，人们并没有忘记RNN。

RWKV、Mamba、xLSTM等RNN衍生模型接连出现，欲挑战Transformer之霸主地位。

就在近日，又有重量级人物下场——

深度学习三巨头之一的Yoshua Bengio，带领团队推出了全新的RNN架构，以大道至简的思想与Transformer一较高下。

论文地址：https://arxiv.org/pdf/2410.01201v1

研究人员对传统的两种RNN架构LSTM和GRU，进行了大刀阔斧的改造，从中诞生了两个新模型：minLSTM和minGRU。

这俩极简主义的版本到底怎么样？咱们先看疗效。

首先是RNN最大的问题：训练速度。

上图展示了几种模型在T4 GPU上训练花费的时间，以及新模型带来的加速比。横轴为输入数据的序列长度，批量大小为64。

可以看到，相比于原版的LSTM和GRU，minLSTM、minGRU和Mamba的运行时间不会随序列长度而增加（后3个模型的线在左图中重叠了）。

当序列长度为4096时，新架构相对于传统版本达到了1300多倍的加速比！

相当于原版GRU需要3年才能做完的事情，minGRU一天就搞定了。

那么对线Transformer的战绩如何？

在本文测试的语言建模任务中，minGRU和minLSTM分别在600步左右达到最佳性能点。

相比之下，Transformer需要比minGRU多花大概2000步，训练速度慢了约2.5倍。

对此，YC上的网友表示：「我非常喜欢这个新架构的简单性」。

毕竟，俗话说的好，「最好的PR是那些删除代码的PR」。

模型架构

下面来感受一下极简模型的诞生过程。

首先，这是传统的RNN架构：

LSTM在RNN的每个cell中加入了比较复杂的门控：

三个门控（input gate、output gate、forget gate）和输入的分量，都通过线性投影和非线性激活函数来得出，并且依赖于上一个时刻的隐藏状态ht-1。

这些值再经过线性和非线性计算，得到本时刻的输出ct和隐藏状态ht。

GRU在LSTM的基础上做了一些简化：

少了显式计算ct，用于门控的项也缩减到2个，相应的参数量和计算量也减少了。

那么我们就从相对简单的GRU入手，开始改造。

改造的目的是使RNN能够应用并行扫描（Parallel Scan）算法，解决自身训练困难的问题。

简单来说，就是将网络中的计算改造成vt = at ⊙ vt−1 + bt的形式。

minGRU

第一步，公式中含有对之前隐藏状态ht-1的依赖，没办法用并行扫描，所以把ht-1直接删掉。

ht-1没了，负责调控ht-1的rt也没用了，删掉。

第二步，双曲正切函数（tanh）负责限制隐藏状态的范围，并减轻因sigmoid（σ）而导致的梯度消失。

但是现在ht-1和rt都没了，tanh也失去了存在的意义，删掉。

那么最终，minGRU就是下面这三个公式：

相比于原版，参数量和计算量再次减少，最重要的是能够使用并行扫描来显著加快训练速度。

minLSTM

经过上面的叙述，minLSTM的由来就很好理解了。

首先还是去除隐藏状态的依赖：

接着是拿掉相关的tanh：

最后，为了保证LSTM输出的尺度与时间无关，以及hidden state在缩放上与时间无关，还需要删掉output gate。

output gate没了，ct也就没必要单独存在了，删掉；剩下的两个门控通过归一化来调配hidden state进入的比例。

——emmm......好像变成GRU了，算了不管了。

最终改造好的minLSTM是下面这个样子：

Were RNNs All We Needed?

全新的RNN搞出来了，能打Transformer吗？

别急，先打内战证明价值。

除了传统的RNN（LSTM和GRU），这里特别关注与Mamba的比较。

首先是训练上的提升：

实验在批次大小64的情况下改变序列长度，测量了模型执行前向传递、计算损失和向后传递计算梯度的总运行时间以及内存占用。

在运行时间方面，minLSTM、minGRU与Mamba实现了类似的效率。

序列长度为512时的运行时间（超过100次的平均值），分别为 2.97、2.72和2.71毫秒；序列长度为4096时，运行时间分别为3.41、3.25和3.15。

相比之下，LSTM和GRU的运行时间随序列长度线性增加。所以序列长度为512时，minGRU和minLSTM的训练加速了175倍和235倍；序列长度为4096时，加速比达到了1324和1361。

内存方面，利用并行扫描算法时会创建更大的计算图，所以minGRU、minLSTM和Mamba ，比传统RNN需要更多的内存（大概多出88%）。

——但这并不重要，因为对于RNN来说，训练时间才是瓶颈。

去除隐藏状态的效果

minLSTM和minGRU的训练效率是通过降低它们的门控对先前隐藏状态的依赖来实现的。

尽管单层minLSTM或minGRU的门控只与输入有关，而与时间无关，但是在深度学习中，模型是通过堆叠模块来构建的。

从第二层开始，minLSTM和minGRU的门也将与时间相关，从而对更复杂的函数进行建模。

下表比较了不同层数的模型在选择性复制任务上的性能。我们可以看到时间依赖性的影响：将层数增加会大大提高模型的性能。

训练稳定性

层数的另一个影响是稳定性，随着层数的增加，精度的方差减小。

此外，尽管minLSTM和minGRU都解决了选择性复制任务，但我们可以看到minGRU在经验上是一种比minLSTM更稳定的方法（更高的一致性和更低的方差）。

minLSTM丢弃旧信息并添加新信息，使用两组参数（forget gate 和input gate）控制比率。在训练期间，两组参数会向不同的方向进行调整，使得比率更难控制和优化。相比之下，minGRU的丢弃和添加信息由一组参数控制，更容易优化。

选择性复制

选择性复制任务的输入元素相对于其输出是随机间隔的，为了解决这项任务，模型需要执行内容感知推理，记住相关token并过滤掉不相关的token。

上表将minLSTM和minGRU与可以并行训练的知名RNN模型进行了比较（S4，H3，Hyena和Mamba（S6）)，基线结果引自Mamba论文。

在所有这些基线中，只有Mamba的S6，以及本文的minGRU和minLSTM能够解决此任务，体现了LSTM和GRU的内容感知门控机制。

强化学习

下面开始对战Transformer。

考虑D4RL基准中的MuJoCo运动任务，包括三个环境：HalfCheetah、Hopper和Walker。

对于每个环境，模型在三个数据质量不同的数据集上进行训练：Medium（M）、Medium-Replay（M-R）和Medium-Expert（M-E）。

上表将minLSTM和minGRU与各种决策模型进行了比较，包括原始的Decision Transformer（DT）、Decision S4 （DS4）、Decision Mamba和Aaren。

由结果可知，minLSTM和minGRU的性能优于Decision S4，与Decision Transformer、Aaren和Mamba相媲美（Decision S4的递归转换不是输入感知的，这会影响它的性能）。就平均分数而言，minLSTM和minGRU的表现优于除Decision Mamba之外的所有基线。

语言建模

最后考虑语言建模任务，使用nanoGPT框架在莎士比亚的作品上训练字符级GPT。

上图绘制了具有交叉熵损失的学习曲线，可以发现minGRU、 minLSTM、 Mamba和Transformers分别实现了1.548、1.555、1.575和1.547的可比测试损耗。

Mamba的表现略差于其他模型，但训练速度更快（400步），minGRU和minLSTM分别花费575步和625步。而Transformer直接比minGRU多了2000 步，慢了大概2.5倍。

参考资料：

https://arxiv.org/pdf/2410.01201v1

来源：新智元

声明：此公号（ID：czfida）发布内容和图片的目的在于传播更多信息，版权归原作者所有，不为商业用途，如有侵犯，敬请作者与我们联系。

undefined

http://mp.weixin.qq.com/s?__biz=MzI1MTc5Nzc5NA==&mid=2247576254&idx=1&sn=259fcc7372a697241977e83761559c9e

中关村金融科技产业发展联盟

最新文章

四部门联合行动：严禁利用算法实施大数据“杀熟”

数字金融行业周报第145期｜第12届数字金融与科技金融大会即将启幕

关于向社会公开征求《国家数据基础设施建设指引（征求意见稿）》意见的公告

《网络安全标准实践指南——粤港澳大湾区（内地、香港）个人信息跨境处理保护要求》正式发布

2024中关村金融科技系列活动——“打造数字金融优势，全力做好五篇大文章”主题座谈会暨走进交通银行北京市分行成功举办

北京海淀发力量子信息产业争夺量子产业第一城

关于征集工业和信息化部科技服务业标准化技术委员会委员的通知

海淀霸榜！北京106家市级孵化器名单公布

数研所、央行金融科技研究院专利：通过对应领域大模型，生成软件测试数据

超30亿元，2024年各省市中小企业发展专项(重点“小巨人”和数字化转型)资金分配总表发布

工信部关于组织开展2024年度中小企业“揭榜”工作的通知

联盟活动｜关于举办助力区域创新发展—北京海归英才创新创业暨人工智能赋能产业发展活动的通知

第12届数字金融与科技金融大会即将启幕

数字金融行业周报第144期｜国务院关于金融工作情况的报告：全力维护金融体系整体稳定

关于对《北京国际科技创新中心科技创新国际化提升行动计划（2024-2027年）》（征求意见稿）公开征求意见的公告

人工智能产业发展机会有哪些？听听专家们怎么说——

会员动态 | 和合信诺中标招商局集团合规管理系统建设项目，赋能央国企合规数智化转型

最高400万，2024年度海淀区标准创新发展专项资金申报指南

7家系统重要性银行大模型进展：建行赋能87个业务场景，平安落地超百个场景

李飞飞团队新作：空间智能版ImageNet来了！

黄益平：对当前几个重大经济问题的思考

北京市经济和信息化局关于开展先进适用技术（第一批）遴选工作的通知

江苏省公共数据授权运营管理暂行办法

微软AI CEO穆斯塔法：AI将在 2025 年实现记忆并释放出新的创造力，将成为我们的“第二大脑”

北京市知识产权保护中心关于进一步优化专利申请预审服务工作的通知

农行发布“人工智能+”创新实施纲要，2025年实现全行“AI+”规模化应用

科技部最新发布，事关人工智能产业发展！

中关村金科联盟、中关村网金院组团亮相2024香港金融科技周，彰显创新实力

会员动态｜专题项目组赴京外调研，探索建设世界领先科技园区

工信部印发《工业和信息化领域数据安全事件应急预案（试行）》

工信部组织开展第一批先进适用技术遴选工作

人工智能综述：物理学与人工智能的跨界新范式（全文版本）

最高2000万，关于征集2024年度科技服务业专项项目的通知

最高支持5000万，中关村示范区优化创新创业生态环境支持资金管理办法发布

数字金融行业周报第142期｜中关村网金院&中关村金科联盟组织多家金融科技企业亮相金融界“奥运会”

2024中关村“番钛客”金融科技国际创新大赛香港专场成功举办！

最高1000万，2024年中关村科学城大模型算力补贴专项申报指南

关于举办“打造数字金融优势全力做好五篇大文章”座谈会暨走进交通银行北京市分行主题活动的通知

部际联席办发布《知识产权强国建设发展报告（2024年）》

香港金融科技周热浪再袭！中关村金科联盟引领企业开辟海外新航路

国家数据局负责同志出席2024全球数据技术大会

2024人工智能十大前沿技术趋势展望发布

香港特区政府发表有关在金融市场负责任地应用人工智能的政策宣言

扬帆出海正当时：香港金融科技周，蓄势启航引领未来！

海淀区2024年度新兴领域重点产品和关键技术遴选推荐申报即将截止

RNN回归！图灵奖得主Bengio新作大道至简与Transformer一较高下

刚刚！工信部最新发声涉及5G+工业互联网、人工智能、低空经济……

新一代信息技术：中国算力发展报告（2024年）

北京新增金融科技专业职称！不唯论文，推行代表作评审制度

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉