Transformer 动画揭秘：数据处理的四大关键技术

科技科技 2024-08-11 08:18 北京

▼最近直播超级多，预约保你有收获

—0—

背景

Transformer 大模型，一种基于自注意力机制的神经网络架构，已被广泛应用于各种自然语言处理任务，比如：机器翻译、文本摘要、生成问答等。

从端到端的角度来看，Transformer 大模型中数据的处理流程主要包括四个阶段：首先是嵌入阶段（Embedding），随后是注意力机制阶段（Attention），然后是通过多层感知机（MLPs）进行处理，最后是从模型的表示转换到最终输出的解嵌入阶段（Unembedding），如下图所示：

图：Embedding -> Attention -> MLPs -> Unembedding

下面是对这四个阶段的简要介绍。

—1—

Embedding（嵌入）阶段

大模型的输入通常由离散的词汇或符号组成（比如：在英文文本中，每个单词或标点符号都是一个单独的符号）。嵌入层的作用是将这些离散的符号转换成连续的、具有固定维度的向量（通常称为词嵌入）。这些向量能够捕获符号的语义以及上下文信息。

在Transformer 大模型中，无论是编码器（Encoder）还是解码器（Decoder），都包含一个嵌入层。此外，在解码器中，还会添加一个位置嵌入（Positional Embedding）层，用于记录序列中单词的位置信息，这是因为 Transformer 大模型不通过 RNN 或 CNN 等传统结构来直接捕捉序列的顺序信息。

—2—

Attention （注意力机制）阶段

注意力机制构成了 Transformer 大模型的基石，它使得大模型能够在产生当前输出时聚焦于输入序列中的各个部分。Transformer 大模型采用了多种类型的注意力机制，其中包括自注意力（Self-Attention）、编码器-解码器注意力（Encoder-Decoder Attention）以及掩码多头注意力（Masked Multi-Head Attention）。

自注意力机制使得大模型能够识别序列内不同位置之间的相互关系，进而把握序列的内在结构。编码器-解码器注意力机制则使得大模型在输出生成过程中能够针对输入序列的特定部分给予关注。在注意力机制的运算过程中，会生成一个注意力权重矩阵，该矩阵揭示了输入序列中每个位置对于当前位置的贡献程度。

—3—

MLPs（多层感知机，也称为前馈神经网络）阶段

在注意力机制处理之后，大模型会利用一个或多个全连接层（也称为前馈网络或 MLPs）来进行更深层次的变换和特征提取。

这些全连接层能够捕捉输入数据中的非线性关系，并辅助模型识别更复杂的模式。在 Transformer 大模型中，MLPs 一般被置于自注意力层和归一化层之间，共同构成了所谓的“编码器块”或“解码器块”。

—4—

Unembedding（从模型表示到最终输出）阶段

这一过程可以被视作从大模型的内部表示到最终输出格式的转换。

在文本生成任务中，比如：机器翻译，解码器的输出将通过一个线性层和一个 Softmax 函数，以产生一个概率分布，该分布反映了下一个输出词（token）的概率。

而在其他类型的任务中，比如：文本分类，解码器的输出可能直接用于损失函数的计算（比如：交叉熵损失），或者通过其他方法转换成最终的预测结果。

—5—

大模型直播课

为了帮助同学们彻底掌握大模型 RAG、微调、Agent 等应用的深层原理，在企业中的应用实践，今天我会开场直播和同学们深度剖析，请同学们点击以下预约按钮免费预约。

—6—

领取《AI 大模型技术知识图谱》

这份业界首创知识图谱和学习路线，今天免费送了!

第一步：长按扫码以下视频号，你身边需要一个 AI 专家。

第二步：点击"关注按钮"，就可关注。

第三步：点击"客服“按钮，回复“知识图谱”即可领取。

—7—

加我微信

有很多企业级落地实战案例，不方便公开发公众号，我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

⬇戳”阅读原文“，立即预约直播！

END

http://mp.weixin.qq.com/s?__biz=MzIzODIzNzE0NQ==&mid=2654451566&idx=1&sn=9bd337be34c51982a8d7e0531a60d948

玄姐聊AGI

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家｜前58集团技术委员主席｜前百度资深工程师｜大厂 MVP｜毕业浙江大学

最新文章

中秋限时特供！独家资源大放送，错过再等一年！

通俗易懂理解知识图谱+大模型

知识图谱与大模型的深度结合策略剖析

15种先进的检索增强生成（RAG）技术

2024，裁员根本停不下来！

GPT-5 训练失败的4点思考

阿里P8们全面溃败。。。

15年过去了，TA依旧还是这样？

如何利用RAG+Agent轻松解决企业复杂问题？

一台MacBook搭建商用级RAG知识库

形势越来越严峻了，到处都在降薪或延发工资...

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

9.6K Stars！这款超实用的 AI 知识库问答系统：MaxKB

比裁员更侮辱人的事发生了。。。

一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系！！

一台MacBook搭建商用级RAG知识库

RAG 架构设计三阶段演进之路

一个人，一年 300W 美元...

57K Stars！这款轻量级Web服务器成为Nginx的理想替代者，实现自动HTTPS功能。

许多公司，已经发不出工资了！尽早做好准备吧

提升 RAG 系统的回答质量：构建高效的 Prompt

大厂今年的薪资。。。

一台MacBook搭建商用级知识库

GraphRAG + Ollama 本地部署全攻略：避坑实战指南

IntelliJ IDEA 2024.2 正式发布，内置 AI，新款默认 UI 太震撼了！

揭秘AI大模型独家福利！你绝不能错过的宝藏资源！

又是删库跑路？传疯了，知名 App 最新回应

一个更小、更快、更干净的 GraphRAG！！

大模型RAG架构落地的十大挑战

全新GPT-4o mini发布！大模型杀疯了！

基于Llama 3.1和一台MacBook搭建商用级知识库

GraphRAG 项目升级！现已支持 Ollama 本地模型接入，打造交互式 UI 体验

一个好朋友的经历，大家也做好准备吧。。。

记我的百万年薪：一竿子到底，相信时间的复利！

Transformer 动画揭秘：数据处理的四大关键技术

大佬吴恩达，yyds！！

腾讯宣布全员调薪了。。。

一文彻底理解大模型 Agent 智能体原理和案例

裁员了，很严重，大家做好准备吧。。。

7K Stars！这款文本转语音（TTS）的效果太震撼，网络上的声音评价真是不能轻信啊！！

聊聊蚂蚁开源多 Agent 框架 muAgent 的架构设计

重磅！LangChain 官方发布 Agent IDE！！

4.5K Stars！为 RAG 而生的数据工程神器！！

赔偿金额高达2N+12！裁员赔偿的新纪录再次被刷新？

RAG 的尽头是 Agent？

RAG 开发四大痛点及解决方案

基于Llama 3.1和一台MacBook搭建商用级知识库

阿里终于开源数字人技术！！

大厂今年的薪资。。。

公司裁员为何总是先从技术人员下手？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉