快速学会AI核心架构，Transformer！

科技 2024-11-26 08:30 中国

大家好，今天从头讲一个人工智能非常核心的架构——Transformer！

Transformer模型由编码器（Encoder）和解码器（Decoder）两部分组成。

其中，编码器和解码器各由 N 个相同的层叠加而成的。

编码器有两个子层。分别是多头自注意力（multi-head self-attention）和基于位置的前馈网络（positionwise feed-forward network）。

解码器有三个子层。除了多头自注意力和前馈网络外，解码器还在这两个子层之间插入了第三个子层，称为编码器－解码器注意力（encoder-decoder attention）层。

这里也分享我整理的226篇Transformer顶会论文合集，包括训练transformer、卷积transformer、VIT等多个细分领域。扫码即可无偿领取！

Transformer架构中的核心概念包括：

自注意力机制（Self-Attention）：Transformer模型的核心组成部分，允许模型在处理一个单词时同时考虑句子中的其他单词，从而捕获它们之间的上下文关系。相比传统的RNN和LSTM模型，Transformer使用自注意力机制在处理长序列和大规模数据时具有更高的并行性和计算效率。

多头注意力机制（Multi-Head Attention）：模型对每个单词的注意力分为多个“头”，这样可以让模型在多个子空间中学习信息，增强了模型对不同位置的敏感性，能够捕获不同类型的上下文信息。

位置编码（Positional Encoding）：由于Transformer不使用递归或卷积，位置编码是添加到输入单词的一种编码，提供了单词在序列中的位置信息。

残差连接与层归一化（Residual Connections & Layer Normalization）：每个子层的输出都采用了残差连接和层归一化，提高了模型的训练稳定性和性能。

想要226篇Transformer顶会论文合集，欢迎扫码下载！

下面，让我们来看看Transformer如何将输入文本序列转换为向量表示，又如何逐层处理这些向量表示得到最终的输出。

编码器通过处理输入序列开启工作。顶端编码器的输出之后会变转化为一个包含向量K（键向量）和V（值向量）的注意力向量集，这是并行化操作。这些向量将被每个解码器用于自身的“编码-解码注意力层”，而这些层可以帮助解码器关注输入序列哪些位置合适：

在完成编码阶段后，则开始解码阶段。解码阶段的每个步骤都会输出一个输出序列（在这个例子里，是英语翻译的句子）的元素。

接下来的步骤重复了这个过程，直到到达一个特殊的终止符号，它表示transformer的解码器已经完成了它的输出。每个步骤的输出在下一个时间步被提供给底端解码器，并且就像编码器之前做的那样，这些解码器会输出它们的解码结果。

面对所有想深度学习Transformer，尤其是在代码方面需要提高的同学们。这里推荐一个19节最全Transformer系列课程，带你吃透理论和代码，了解未来应用，扫清学习难点。

课程包括精讲Transformer模型、详解代码框架，带你从头开始真正掌握架构！

此外，课程内还包括Transformer在CV领域的应用，涵盖VIT / PVT / Swin Transformer / DETR的论文与代码详解！

一共19节课，从我这里扫码获课只需0.01元！想学Transformer的同学们千万不要错过！

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247503749&idx=1&sn=dddbfee1c87ca152523a5546788ec6b1

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

我发现了找顶会创新点的最强公式，真的不需要脑子

智能光伏：高维热成像序列的自动化异常检测

快速学会AI核心架构，Transformer！

NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

时间序列，杀疯了！！！

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

博后招募 | 清华大学裴丹老师课题组招收时间序列博士后

这届审稿人是不是有毛病！？？？

时间序列预测中如何构建层级化的 Transformer 架构？

文末送书 | 豆瓣9.6，多语言版本全球发行，这本书为何这么受欢迎？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

多模态融合，顶会超神了！

KDD 2024 | 时间序列相关论文盘点（附原文源码）

LSTM+Transformer=金融时序预测超高精准度！

LSTM又火了！最新52个创新思路+全部开源代码！

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

发paper必备82个即插即用缝合模块！附下载

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

文末送书 | AI for Science：一本书，洞察未来的科技生态！

AI顶会今年这情况，很严重，大家做好准备吧！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉