LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

科技 2024-08-20 20:33 浙江

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（220+篇专栏笔记，已有210+同学加入学习）

长短期记忆网络（Long Short-Term Memory）是一种特殊的循环神经网络（RNN），它能够学习到长距离的依赖关系。LSTM 的设计初衷是为了解决传统 RNN 在处理长序列数据时出现的梯度消失或梯度爆炸问题。

LSTM 的问世不仅在理论上是一大步，还在实际应用中也产生了革命性的影响。它很快成为了处理序列数据的利器，特别是在自然语言处理领域，LSTM 几乎参与了所有重要的任务，如语音识别、机器翻译、文本生成和情感分析等。

今年上半年，LSTM 提出者和奠基者 Sepp Hochreiter 携团队再次提出了新的 LSTM —— xLSTM，将 LSTM 扩展到数十亿参数规模。与 Transformer 和 State Space Models 等最先进的方法相比，xLSTM 模型在语言建模方面表现良好。扩展定律表明，更大的 xLSTM 模型将成为当前使用 Transformer 技术构建的大型语言模型（Large Language Models）的有力竞争者。xLSTM 有可能对强化学习、时间序列预测或物理系统建模等其他深度学习领域产生重大影响。

本文来聊聊 xLSTM 具体做了哪些改进创新。

【论文标题】xLSTM: Extended Long Short-Term Memory

【论文地址】https://arxiv.org/abs/2405.04517

【开源代码】https://github.com/NX-AI/xlstm

LSTM回顾与局限

在20世纪90年代，长短期记忆网络（Long Short-Term Memory, LSTM）的核心思想——恒定误差旋转木马和门控机制被引入，用以解决循环神经网络中的梯度消失问题。自那时以来，LSTM 已经经历了时间的考验，并为众多深度学习的成功案例做出了贡献，特别是它们构成了第一批大型语言模型（LLMs）。

原始 LSTM 的计算涉及几个关键组件：输入门、遗忘门、输出门和单元状态。

图1：LSTM 单元的标准计算步骤

虽然 LSTM 在处理序列数据方面取得了巨大成功，但它们面临三个主要的局限性，这些局限也是驱动 xLSTM 和其他替代方法开发的重要因素。

LSTM 在处理最近邻搜索问题时难以修订其存储决策，这限制了其在动态更新信息方面的能力。
LSTM 的存储容量有限，这导致它在处理稀有标记预测任务时表现不佳，因为信息必须被压缩进标量单元状态中。
由于隐藏状态之间的连接，LSTM 缺乏并行处理的能力，这影响了其在大规模数据处理中的效率。

xLSTM的创新与架构

xLSTM 的关键在于“扩展”这个词，它不仅仅是对 LSTM 的简单改进。xLSTM 将原始 LSTM 扩展为 LSTM 的多种变体，例如 sLSTM 和 mLSTM，每种变体都针对特定的性能和功能进行了优化，以处理各种复杂的序列数据问题。

总体而言，xLSTM 主要通过两方面改进来增强LSTM的能力：（1）引入指数门控；（2）引入新型记忆结构（sLSTM 和 mLSTM）

图2：xLSTM家族

指数门控

这是对 LSTM 中传统门控机制的一种改进，允许模型更有效地更新其内部状态。指数门控通过引入适当的归一化和稳定技术，使得 LSTM 能够更好地处理信息流，特别是在需要修订存储决策的场景中。

新型记忆结构

（1）sLSTM

sLSTM 在 LSTM 的基础上添加了标量更新机制。该设计通过对内部存储单元进行细粒度控制来优化门控机制，使其更适合处理具有细微时间变化的序列。

图3：sLSTM的前向传播方程

sLSTM 具备了跨单元的内存混合能力，允许不同存储单元之间进行信息交互。sLSTM 还支持多头部结构，每个头部可以独立处理信息，但头部之间并不直接混合内存，而是在每个头部内部的单元之间进行内存混合。这种设计为模型提供了一种新的内存混合方式，有助于捕捉更复杂的序列特征。

（2）mLSTM

mLSTM 通过将原始 LSTM 中的向量运算扩展为矩阵运算，显著增强了模型的内存容量和并行处理能力。

为了提高计算效率并实现并行处理，mLSTM 特别放弃了传统的隐藏状态间的递归连接，即内存混合。对于 mLSTM 而言，多头结构和多单元结构在功能上是等价的，这意味着它可以灵活地根据需要选择使用哪一种结构来优化性能和计算效率。

图4：mLSTM的前向传播方程

xLSTM架构

将 sLSTM 和 mLSTM 这两种新型 LSTM 变体融合进残差块中，构成了 xLSTM 块。这些 xLSTM 块通过剩余连接的方式堆叠起来，形成了完整的 xLSTM 架构。

图5：xLSTM blocks

xLSTM 块应在高维空间中对过去进行非线性总结，以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素（如下一个 token）的先决条件。研究者在此采用了 Cover 定理。该定理指出，在高维空间中，非线性嵌入模式比在原始空间中更有可能被线性分离。

他们考虑了两种残差块架构：

post up-projection 的残差块（如Transformer），它在原始空间中非线性地总结过去，然后线性映射到高维空间，应用非线性激活函数，并线性映射回原始空间。（见图5的左面板和图2的第三列）

pre up-projection 的残差块（如状态空间模型），它线性映射到高维空间，在高维空间中非线性地总结过去，然后线性映射回原始空间。对于包含 sLSTM 的 xLSTM 块，主要使用 post up-projection 块。对于包含 mLSTM 的 xLSTM 块，使用 pre up-projection 块，因为在高维空间中内存容量变得更大。

与 Transformer 不同，xLSTM 网络在计算上具有线性复杂度，在内存上具有与序列长度相关的恒定复杂度。由于 xLSTM 内存具有压缩性，因此非常适合工业应用和边缘部署。

xLSTM性能分析

研究者的实验结果表明，xLSTM 在多个任务上展现出了卓越的性能，包括在合成任务、长距离竞技场（Long Range Arena）以及大规模语言建模实验中的表现。这表明 xLSTM 能够有效地处理长序列和大型上下文，并且在语言建模方面具有强大的能力。

xLSTM 通过引入指数门控和矩阵内存结构，显著提高了模型的扩展性和内存容量。在多查询关联记忆（Multi-Query Associative Recall）任务中，xLSTM 表现出了优秀的记忆能力，尤其是在需要记忆大量键值对时。

图6：xLSTM的指数门控与记忆混合测试

xLSTM 在与 Transformers 和 State Space Models（状态空间模型）等现有技术的比较中表现出色。在 150 亿个 token 的训练数据上，xLSTM 实现了最低的验证集困惑度（perplexity），并且在 300 亿个 token 的训练数据上，xLSTM 在不同模型尺寸下仍然保持了优异的性能。据此研究人员认为 xLSTM 未来有望能够与 Transformer 进行 PK。

表1：在SlimPajama数据集上训练的不同语言模型的比较

总结

xLSTM 通过引入指数门控和矩阵内存结构，显著提升了 LSTM 的存储容量和并行计算能力，为大型语言模型和深度学习领域提供了一种强大的新型序列处理工具，具有推动自然语言处理和序列预测任务发展的学术意义。虽然 xLSTM 在多个方面表现出色，但仍存在一些局限性，主要涉及计算效率、内存容量、实现优化和泛化能力等方面。尽管存在这些挑战，xLSTM 在语言建模和其他序列建模任务上展现出的潜力表明，通过进一步的研究和开发，这些局限性有可能被克服或减轻。

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

220+篇专栏笔记，已有210+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

ICML 2024 | BayOTIDE：针对多变量不规则时间序列的高效插补算法

ICML 2024 | 时序异常检测应该如何设计有效的模型？

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

ICML 2024 | 时间序列相关论文盘点（附原文源码）

KDD 2024 | UniST：清华推出首个通用城市时空预测模型，代码数据均已公开

综述 | 一文看懂生成式时序表示与时序大模型

CALF：用于长期时间序列预测的高效跨模态LLM微调框架

SOFTS：新SOTA，纯MLP模型架构实现高效多元时序预测

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247500619&idx=1&sn=c667c5ba477c7a3589da7c98ff3b2383

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

博后招募 | 清华大学裴丹老师课题组招收时间序列博士后

这届审稿人是不是有毛病！？？？

时间序列预测中如何构建层级化的 Transformer 架构？

文末送书 | 豆瓣9.6，多语言版本全球发行，这本书为何这么受欢迎？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

多模态融合，顶会超神了！

KDD 2024 | 时间序列相关论文盘点（附原文源码）

LSTM+Transformer=金融时序预测超高精准度！

LSTM又火了！最新52个创新思路+全部开源代码！

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

发paper必备82个即插即用缝合模块！附下载

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

文末送书 | AI for Science：一本书，洞察未来的科技生态！

AI顶会今年这情况，很严重，大家做好准备吧！

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

清华第二届城市科学大会报名启动！文末赠送2个免费与会名额！

各位，请入局AI大模型，现在！立刻！马上！！

ICML 2024 | FlashST：一个简洁有效新范式，助力智慧城市时空预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉