LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

科技 2024-12-15 22:07 江苏

点击上方↑↑↑“OpenCV学堂”关注我

来源：公众号新智元授权

【导读】Transformer模型自2017年问世以来，已成为AI领域的核心技术，尤其在自然语言处理中占据主导地位。然而，关于其核心机制“注意力”的起源，学界存在争议，一些学者如Jürgen Schmidhuber主张自己更早提出了相关概念。

当今AI届的繁荣，很大程度上要归功于Transformer模型，2017年的开山之作，把「注意力机制」（attention）带入了大众的视野，此后七年中，在AI模型中占据了绝对的主导地位，甚至Attention is All You Need这个名字都让之后的论文在起标题时纷纷效仿，逐渐走向狂野。

但「正统」注意力机制其实来源于2014年Bengio的论文，ACM还在图灵奖颁奖时，为Bengio写的贡献为「引入了一种注意力机制，带来了机器翻译的突破，并形成了深度学习顺序处理的关键组成部分」。

论文链接：https://arxiv.org/pdf/1409.0473

最近，Andrej Karpathy在社交媒体上公开了与第一作者Dzmitry两年前的联络邮件，详细叙述了这段发明注意力的故事，顿时又掀起网友热议。

不过，LSTM作者Jürgen Schmidhuber却不认可这段故事，而是表明自己才是真正的创造者，1991年就已经提出线性复杂度Transformer，并且在两年后提出术语「注意力」，他在2023年12月还发表过一篇报告，控诉图灵奖三巨头抄袭自己的研究成果。

关于「Attention起源」的辩论进展火热，仿佛现代AI完全构建在注意力机制的理论之上，关于Transformer、系统实现的重要性却被忽视了。

虽然Attention is All You Need论文的核心贡献是引入Transformer神经网络，删除了除各种注意力机制之外的所有模块，并且基本上只是将其与多层感知机堆叠在ResNe中，但其实论文中还是有相当多的贡献和独特想法，包括位置编码、缩放注意力、多头注意力、极简设计等等，并且被广为接受。

即便是到了今天，业内普遍使用的模型架构仍然大体遵循2017年的原始版本，只是在部分模块进行了简单的修改，比如更好的位置编码方案（RoPE家族）等等。

谷歌杰出科学家、计算成像、机器学习和视觉领域的专家Peyman Milanfar说的很中肯：

我——或者我认为任何成像领域的人——都不能合理地宣称机器学习背景下的注意力概念有任何功劳。但记录、追溯完整的历史渊源是有价值的，如果不从更广泛的角度来理解「依赖于数据的加权平均运算」的重要性和普遍性，那追溯的历史也是不完整的。

最极端的例子莫过于一位网友的评价，「其实，算术的出现要比这些论文都早。」

「注意力」的起源故事

2014年，故事的主角Dzmitry Bahdanau还只是一个在德国雅各布大学（Jakobs University）刚完成硕士一年级的学生，之后选择在Yoshua Bengio（图灵奖得主）的实验室开始实习。

当时他跟Yoshua表示干什么都行，然后Yoshua便让他开始与Kyunghyun Cho的团队合作开发机器翻译模型。

当时自然语言处理届的主流思路是「把单词序列转为一个向量」，比如经典的word2vec都是当时常用的算法，但Dzmitry却对这种想法表示怀疑，不过为了获得博士的入学offer，他也只能听从导师的话，从写代码、修复Bug等最基本的工作入手。

逐步熟悉团队的工作内容之后，Yoshua就对他发起了攻读博士学位的邀请，当时AI届还没有现在这么卷，这些工作已经足以让这位硕士生开始他的博士生涯了，Dzmitry至今仍表示庆幸、怀念。

博士offer稳了之后，据Dzmitry的说法是，可以享受科研乐趣，并充分发挥自己的创造力了！

Dzmitry开始思考如何避免RNN模型中Encoder和Decoder之间的信息瓶颈，第一个想法是建立一个带有两个「光标」（cursor）的模型：其中一个由BiRNN编码，在源序列中移动；另一个在目标序列中移动；光标轨迹使用动态规划进行边际化。

但Kyunghyun Cho认为这种做法和Alex Graves的RNN Transducer模型没什么两样。

读完Graves的手写识别论文后，Dzmitry也认可这种方法法对于机器翻译来说不太合适，并且实习也只剩5周了，很难在短时间内完成代码实现，所以就尝试了更简单的方法，让两个光标同时、同步移动，实际上相当于硬编码的对角注意力（hard-coded diagonal attention）。

这种方法虽说有点效果，但不够优雅。

某一天，Dzmitry受到了英语翻译练习中的启发，人类在翻译时，目光会在源序列和目标序列之间来回移动，将软搜索表示为softmax，然后对BiRNN状态进行加权平均，就能让Decorder RNN学会在源序列中搜索放置光标的位置。

团队把这个架构叫做RNNSearch，第一次尝试效果就很好，只需要1个GPU就能运行。

当时，谷歌的Ilya（OpenAI前首席科学家Ilya Sutskever）团队使用8个GPU的LSTM模型在某些指标上仍然领先，所以团队赶紧在ArXiV上发表了一篇论文。

后来团队发现，这个架构的名字其实并不好，Yoshua在最后的一次修改中确定了「注意力机制」，直观地看，让解码器来决定源语句中的哪些部分需要受到关注，减轻了编码器将源语句中的所有信息编码为固定长度向量的负担。通过这种新方法，信息可以分布在整个标注序列中，解码器可以有选择地进行检索。

一个半月后，团队又看了Alex Graves发表的关于NMT论文，想法完全相同，但出发点完全不同。

Dzmitry发明新算法是需求驱动的，Alex那边或许是出于连接神经学派和符号学派的目的；Jason Weston团队的Memory Networks论文也有类似的机制。

Dzmitry表示没有预见到注意力机制作为表征学习的核心算法，其实可以在更低的层次上使用。

所以当Transformer论文发表时，Dzmitry就立刻跟实验室的同事说，RNN已经死了。

总之，在蒙特利尔Yoshua的实验室中「可微且数据依赖的加权平均」（differentiable and data-dependent weighted average operation）的发明与神经图灵机、Memory Networks以及90年代（甚至 70 年代）的一些相关认知科学论文无关，主要来源于Yoshua的领导，Kyunghyun Cho在管理由初级博士生和实习生组成的大型机器翻译项目方面的出色技能，以及Dzmitry多年来在编程竞赛中磨练出的创造力和编程技能。

即使Dzmitry、Alex Graves和其他人当时没有从事深度学习工作，这个想法也会由其他人发表出来。注意力机制只是深度学习中实现灵活空间连接的自然方式，只要GPU的运算速度足够快，让科研人员有动力并认真对待深度学习，就会自然而然出现。

良好的研发工作可以为基础技术的进步做出更多贡献，而不是通常意义上、所谓「真正的」人工智能研究的花哨理论。

九十年代的「注意力」机制

正如Dzmitry所说，注意力机制其实就是模仿大脑的认知过程，在更遥远的90年代，也是认知科学快速发展的时代，类似注意力机制的模型也早有研究。

最早的「可微加权平均操作」甚至并不来源于机器学习领域，而是图像处理中常用的「滤波器」（filter）。

比如最著名的是1998年Tomasi和Manduchi的双边滤波器，以及1997年Smith和Brady提出的SUSAN滤波器；后面还出现过许多变体形式，包括2005年的Buades、Coll和Morel提出的非局部均值，以及2007年Peyman Milanfar提出的更通用的核回归滤波器。

论文链接：https://ieeexplore.ieee.org/abstract/document/4060955

阿卜杜拉国王科技大学 (KAUST) 人工智能研究所所长、瑞士人工智能实验室IDSIA科学主任、LSTM作者、现代人工智能之父Jürgen Schmidhube也参与到这场推特大战之中。

2023年12月，Jürgen就曾发布过一篇报告，控诉三位图灵奖得主Bengio, Hinton和LeCun各有相关工作参考于他之前的工作，但并没有标注引用，「抄袭」罪状中，Bengio七条、Hinton六条、LeCun四条。

报告链接：https://people.idsia.ch/~juergen/ai-priority-disputes.html

Jürgen在报告中指出，1991年3月，他就已经提出了所谓的具有「线性自注意力」的非归一化线性Transformer（unnormalized linear Transformer with linearized self-attention），只不过当时的名字叫做「快速权重编程器」（Fast Weight Programmers）和「快速权重控制器」（Fast Weight Controllers），类似传统计算机将存储和控制分开的方式，以端到端可微分、自适应、完全神经的方法，只不过当时Key/Value被称为From/To

虽然名字不一样，但两个模型背后的数学原理大致相同。

1991年发表的模型原理类似于：为了回答接收到的query，通过梯度下降来学习生成key和value的模式，对自身的某些部分进行重新编程，从而根据上下文将注意力引导到重要的事情上；现代Transformer也采用了同样的原理。

2021年，Jürgen在ICML上发表了一篇论文，进一步证明了二者的等价性。

论文链接：https://arxiv.org/pdf/2102.11174

在1991年，当时的计算成本比现在高出数百万倍，所以计算效率很重要，Transformer的计算复杂度为二次方，所以无法扩大数据处理规模，而快速权重编程器的计算复杂度只有线性，据Jürgen所说，当年几乎没有期刊会接受二次缩放的神经网络。

1993年，Jürgen对线性Transformer进行循环扩展时，使用了术语「注意力」。

论文链接：https://sferics.idsia.ch/pub/juergen/ratio.pdf

正如文章开头所说，Bengio团队因注意力机制获图灵奖，之后的工作都以Bengio 2014年的论文作为注意力机制起源。

Jürgen还表示，在2010年代，ACM所谓的关键「机器翻译的突破」也不是Bengio的功劳，而是LSTM的功劳，在2016年极大地改进了Google 翻译，甚至直到 2017 年，Facebook用户每周还要进行300亿次基于LSTM的翻译请求。

总之，技术起源的是是非非很难辩个清楚，拿出小板凳，理性吃瓜！

参考资料：

https://x.com/SchmidhuberAI/status/1864701357107634390

OpenCV4系统化学习

深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区

OpenCV学堂

三本书《Java数字图像处理-编程技巧与应用实践》、《OpenCV Android开发实战》、《OpenCV4应用开发-入门、进阶与工程化实践》作者。OpenCV实验大师平台软件作者，OpenCV开发专家、OpenCV研习社创始人。

最新文章

QT5+ 工业相机 + OpenCV工作流集成演示

Pytorch轻松实现经典视觉任务

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

十种主流模型C++部署演示

OpenCV案例 | 生物检测-提取脂肪球

注册NVIDIA DLI新用户，免费领取价值600元的课程，写评语有好礼

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

OpenCV4+QT5 深度学习应用开发演示

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

OpenCV4 | 怎么学才能找到工作

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

Pytorch轻松实现经典视觉任务

OpenCV4+QT5 深度学习应用开发演示

YOLOv8与YOLO11自定义数据集迁移学习效果对比

OpenCV实现各种图形绘制、图像调色

推荐 | OpenCV算法开发能力暴涨十倍的方法

YOLOv8 + OpenVINO + QT5 打造电子围栏预警系统

推荐 | OpenCV算法开发能力暴涨十倍的方法

编程高薪神话末日来临？23届计算机本科就业率狂掉3.2%，AI技能成救命稻草

福利 | OpenCV4+深度学习+QT5全系课程

YOLOv8+PyQT5打造安全帽检测预警应用

Pytorch轻松实现经典视觉任务

关于Pytorch导出ONNX格式模型的Tips

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

YOLOv8与YOLO11自定义数据集迁移学习效果对比

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

C#与OpenCV C++导出DLL调用与数据交互

十种主流模型C++部署演示

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

Pytorch轻松实现经典视觉任务

OpenCV案例 | 角点检测

Pytorch轻松实现经典视觉任务

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

YOLOv8的 Web端网页推理演示

常识 | 机器视觉算法如何选择相机分辨率

Pytorch轻松实现经典视觉任务

Torchvision框架学习之FCOS模型及其训练

福利 | OpenCV4+深度学习+QT5全系课程

图像编辑器 Monica 之实现好玩的人脸替换功能

OpenCV4 | 怎么学才能找到工作

Numpy包从1.x升级到2.x以后的几个注意点

福利 | OpenCV4+深度学习+QT5全系课程

OpenCV案例 | 基于轮廓分析对象提取

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

Pytorch轻松实现经典视觉任务

OpenCV4 | 怎么学才能找到工作

十种主流模型C++部署演示

深度学习入门必学之Pytorch框架实战课程

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

福利 | OpenCV4+深度学习+QT5全系课程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉