快速学会AI核心架构，Transformer！

科技 2024-11-19 09:01 上海

大家好，今天从头讲一个人工智能非常核心的架构——Transformer！

Transformer模型由编码器（Encoder）和解码器（Decoder）两部分组成。

其中，编码器和解码器各由 N 个相同的层叠加而成的。

编码器有两个子层。分别是多头自注意力（multi-head self-attention）和基于位置的前馈网络（positionwise feed-forward network）。

解码器有三个子层。除了多头自注意力和前馈网络外，解码器还在这两个子层之间插入了第三个子层，称为编码器－解码器注意力（encoder-decoder attention）层。

这里也分享我整理的226篇Transformer顶会论文合集，包括训练transformer、卷积transformer、VIT等多个细分领域。扫码即可无偿领取！

Transformer架构中的核心概念包括：

自注意力机制（Self-Attention）：Transformer模型的核心组成部分，允许模型在处理一个单词时同时考虑句子中的其他单词，从而捕获它们之间的上下文关系。相比传统的RNN和LSTM模型，Transformer使用自注意力机制在处理长序列和大规模数据时具有更高的并行性和计算效率。

多头注意力机制（Multi-Head Attention）：模型对每个单词的注意力分为多个“头”，这样可以让模型在多个子空间中学习信息，增强了模型对不同位置的敏感性，能够捕获不同类型的上下文信息。

位置编码（Positional Encoding）：由于Transformer不使用递归或卷积，位置编码是添加到输入单词的一种编码，提供了单词在序列中的位置信息。

残差连接与层归一化（Residual Connections & Layer Normalization）：每个子层的输出都采用了残差连接和层归一化，提高了模型的训练稳定性和性能。

想要226篇Transformer顶会论文合集，欢迎扫码下载！

下面，让我们来看看Transformer如何将输入文本序列转换为向量表示，又如何逐层处理这些向量表示得到最终的输出。

编码器通过处理输入序列开启工作。顶端编码器的输出之后会变转化为一个包含向量K（键向量）和V（值向量）的注意力向量集，这是并行化操作。这些向量将被每个解码器用于自身的“编码-解码注意力层”，而这些层可以帮助解码器关注输入序列哪些位置合适：

在完成编码阶段后，则开始解码阶段。解码阶段的每个步骤都会输出一个输出序列（在这个例子里，是英语翻译的句子）的元素。

接下来的步骤重复了这个过程，直到到达一个特殊的终止符号，它表示transformer的解码器已经完成了它的输出。每个步骤的输出在下一个时间步被提供给底端解码器，并且就像编码器之前做的那样，这些解码器会输出它们的解码结果。

面对所有想深度学习Transformer，尤其是在代码方面需要提高的同学们。这里推荐一个19节最全Transformer系列课程，带你吃透理论和代码，了解未来应用，扫清学习难点。

课程包括精讲Transformer模型、详解代码框架，带你从头开始真正掌握架构！

此外，课程内还包括Transformer在CV领域的应用，涵盖VIT / PVT / Swin Transformer / DETR的论文与代码详解！

一共19节课，从我这里扫码获课只需0.01元！想学Transformer的同学们千万不要错过！

http://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247525185&idx=1&sn=7980a7e5e296b84052ec9a0f90e044ef

集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

上海AI Lab/北大/港中文提出 AdaptivelSP 学习用于目标检测的自适应图像信号处理器！

快速学会AI核心架构，Transformer！

电子科大提出注意力机制创新，改进 MobileViT变体在早期降采样阶段的注意力 QKV 操作研究！

台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型！

清华大学提出 TANet 用于综合恶劣天气图像复原的三重注意网络！

YOLA: 利用 Lambertian 图像形成模型提升低光目标检测性能！

TransformerRanker 高效地为下游分类任务找到最适合的语言模型的工具！

通过重叠头自注意力增强视觉 Transformer 的学习能力！

OWOD：深度神经网络在开放式世界目标检测中的新探索 !

清华大学最新成果 3D 语义占用预测框架 GaussianFormer ！

被导师放养，后果可能很严重。。。

使用 YOLO 加速实时应用程序中的对象检测 !

无需额外训练，基于 Llama-2模型，通过 Model-GLUE 实现大规模语言模型的聚合与集成！

YOLOv8架构的改进：POLO 模型在多类目标检测中的突破 !

DuoDiff: 提升浅层 Transformer 性能的扩散模型，双 Backbone 件扩散模型在图像处理中的应用！

211本二战字节视觉算法岗，拿下70k offer!!!

复旦提出 CTA-Net | 卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

YOLO人脸识别与多领域目标检测开源项目练习合集：涵盖人体、交通、医疗、工业等！

优化之路 N-ReliefF 算法指导下的 CNN 超参数调整！

融合 Mamba 与 Transformer | MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

无需额外标注，SG-MIM 实现高效结构知识引导的 Mask图像建模！

UniMatch V2 推进半监督语义分割极限，以更低训练成本实现更优的语义分割结果！

利用知识蒸馏算法优化 YOLOv5 目标检测！

【集智书童】交流群成立了！

一文读懂 LLM 大模型的可解释性,附代码!

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

中科院提出 DA-Ada | 用于域自适应目标检测的学习域感知适配器！

清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !

中科大提出 D-FINE | 通过 FDR 和 GO-LSD 实现最先进的实时目标检测！

优化 YOLO 架构以实现最佳检测和分类:YOLOv7与YOLOv10 的比较研究！

降低标注成本，ESA 策略利用实体-超像素标注提高语义分割的主动学习效率！

目标检测开源项目合集！包含基于YOLOv5/v7/v8的人脸识别到车牌检测、交通标识检测、驾驶行为检测等！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

物体状态识别数据集 Changelt-Frames，评估了九个开源 VLM 对物体状态变化的识别能力！

2080Ti 也能跑起来，Transtreaming 用于实时流感知的自适应延迟感知Transformer !

上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究！

CAMOT 摄像机角度感知多目标跟踪 !

超越SOTA ！ YOLOv8-ResCBAM 集成注意力机制以提高检测性能！

快速学会登上nature的热门算法，LSTM！

0.26M 参数，0.483 GFLOPs，EfficientCrackNet 轻量级检测模型！

Grad-CAM 可视化下的 LADD 精确捕捉图像中物体的位置 !

北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位！

COCO-0cc 闭合全景分割和图像理解的基准，遮挡感知全图分割！

UDA框架下的模型合并策略，分割任务中无监督域适应的分层模型合并！

一种轻量级深度学习模型，在IoT设备上的实时行人检测！

汇总82个即插即用模块｜随便一个即可完成涨点任务！

FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

用于时态动作检测的预测反馈 DETR !

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉