人人都能听懂的大白话 Transformer 技术原理

科技科技 2024-09-18 08:18 北京

▼最近直播超级多，预约保你有收获

—1—

Transformer 网络架构剖析

几乎所有主流的大模型都是基于 Transformer 网络架构构建的，Transformer 的重要性不言而喻。大模型可以类比人类的大脑，那么 Transformer 就可以类比人类大脑中的神经网络结构。

Transformer 网络结构最核心的组成部分为：编码器（Encoder）和解码器（Decoder）。编码器负责提取信息，通过细致分析输入文本，理解文本中各个元素的含义，并发现它们之间的隐藏关系。解码器依托编码器提供的深入洞察，负责生成所需的输出，无论是将句子翻译成另一种语言、生成一个精确的摘要，还是写代码。

第一、编码器（Encoder）架构剖析

编码器从 “输入嵌入” 开始，每个单词都从文本形态转换为数值向量，给每个单词配上了一个独一无二的 ID。

比如：输入文本 “The cat sat on the mat.”

在输入嵌入层，每个单词都被翻译成一个数值向量，这些向量不仅捕捉了单词的含义，还包括：

语义关系（比如：“cat” 和 “pet” 更近，而不是和 “chair”）；
句法角色（比如：“cat” 通常作为名词，“sat” 作为动词）；
句中上下文（比如：这里的 “mat” 很可能是指地垫）。

向量表示如下：

“The” -> [0.6, 0.5, -0.1, ...]
“cat” -> [0.9, -0.3, 0.4, ...]
“sat” -> [-0.8, 0.7, 0.2, ...]

但编码器的工作远不止于此，它还使用了一些关键技术来进一步深入。

自注意力机制是其中的革命性创新。想象为对每个单词打开一束聚光灯，这束光不仅照亮了该单词，还揭示了它与句中其他单词的关系。这让编码器能够理解文本的全貌 —— 不只是孤立的单词，还有它们之间的联系和细微差别。

这个句子中的 it 指的是什么？是指 animal 还是 street ？对人来说，这是一个简单的问题，但是算法来说却不那么简单。

当模型在处理 it 时，自注意力机制使其能够将 it 和 animal 关联起来。

自注意力机制为每个单词生成了三个特殊的向量：“查询（Query）”（询问我需要什么信息）、“键（Key）”（标示我有什么信息）和 “值（Value）”（实际的含义和上下文）。

然后，通过比较每个单词的 “查询” 向量与其他所有单词的 “键” 向量，自注意力层评估了各个单词之间的相关性，并计算出注意力得分。这个得分越高，表示两个单词之间的联系越紧密。

最后，自注意力层根据注意力得分加权处理 “值” 向量，这就像根据每个单词与当前单词的相关度，取了一个加权平均值。

通过考虑句中其他单词提供的上下文，自注意力机制为每个单词创建了一个新的、更丰富的表示。这种表示不仅包含了单词本身的含义，还有它如何与句中其他单词关联和受到影响。

多头注意力机制（Multi-Head Attention）可以被理解为有多个分析小组，每个小组关注于词与词之间关系的不同层面。这使得编码器能够全面捕获词义之间的多元关系，从而深化其对语句的理解。

还以句子

为例。

在多头注意力机制中，不同于只使用一个自我关注机制，我们有多个独立的 “头部”（通常是 4 到 8 个）。每个头部都针对每个词分别维护一套查询（Query）、键（Key）和值（Value）向量。

这种机制下的注意力是多样化的：每个头部根据不同的逻辑计算注意力得分，聚焦于词间关系的不同方面：

一个头部可能专注分析语法角色，比如 “animal” 和 “cross” 之间的关系。
另一个可能关注词序，比如 “The” 和 “animal” 之间的顺序。
还有的头部可能识别同义词或相关概念，例如将 “it” 和 “animal” 视为相近的词。

通过结合这些不同头部的观点，每个头部的输出被汇总，综合不同的洞察力。

最终综合的表示形式包含了对句子更加丰富的理解，涵盖了词与词之间的多样化关系，而不仅仅是单一视角。

到目前为止，我们所描述的 Transformer 网络架构中缺少一个东西：表示序列中词顺序的方法。为了解决这个问题，Transformer 为每个输入的词嵌入向量添加一个位置向量，即位置编码（Positional Encoding）是为了补充 Transformer 无法直接处理词序的不足，加入了每个词在句中位置的信息。

这样，每个词的原始向量与其位置向量相加，形成了一个既含有词义也含有位置信息的新向量。

即便句子的顺序变化，位置向量也能保持词之间的相对位置关系，使得大模型能准确理解词与词之间的连接。

第二、解码器（Decoder）架构剖析

现在轮到解码器承担任务。与编码器不同的是，解码器面临着额外的挑战：在不预见未来的情况下，逐字生成输出。为此，它采用了以下几个策略：

掩蔽自注意力：类似于编码器的自注意力机制，但有所调整。解码器仅关注之前已生成的单词，确保不会利用到未来的信息。这就像是一次只写出一个句子的故事，而不知道故事的结局。
编码器 - 解码器注意力：这一机制允许解码器参考编码好的输入，就像写作时回头查看参考资料一样。这确保了生成的输出与原始文本保持一致性和连贯性。
多头注意力和前馈网络：与编码器相同，这些层帮助解码器深化对文本中上下文和关系的理解。
输出层：最终解码器将其内部表征逐一转化为实际的输出单词。这就像是最后的装配线，把所有部件组合起来，形成期望的结果。

—2—

大模型直播公开课

为了帮助同学们彻底掌握大模型的 RAG、向量数据库、Agent、微调等的应用开发、部署、生产化，我会开2场直播，请同学们点击以下预约按钮免费预约，没有回放。

—3—

领取《AI 大模型技能图谱鼠标垫版》

这份业界首创鼠标垫版知识图谱，今天免费送 100份!

第一步：长按扫码以下视频号，你身边需要一个 AI 专家。

第二步：点击"关注按钮"，就可关注。

第三步：点击"客服“按钮，回复“知识图谱”即可领取。

—4—

加我微信

有很多企业级落地实战案例，不方便公开发公众号，我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

⬇戳”阅读原文“，立即预约！

END

http://mp.weixin.qq.com/s?__biz=MzIzODIzNzE0NQ==&mid=2654451777&idx=1&sn=6b70d4298aa2fd5786a8dd592d451f0f

玄姐聊AGI

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家｜前58集团技术委员主席｜前百度资深工程师｜大厂 MVP｜毕业浙江大学

最新文章

RAG现有框架总结：7个GraphRAG+17个传统RAG | 推荐收藏

爆跌90%......

团队准备解散了。

爆跌了。。。

别再手动编排工作流了，AI做的比你更好！

五大主流开源大模型RAG评估框架详解

裁员9000人！

跌爆了。。。

大模型 Agent 应用的6种架构设计模式，你知道几种？

内部消息：互联网巨头豪赌AI Agent，背后秘密大曝光！

对AI大模型应用场景落地几点思考！

特朗普当选美国总统，中国程序员的机会来了！！

上周和阿里专家一次沟通。。。

96W，确实可以封神了！！

字节跳动员工自爆工资收入，网友说：字节10年能挣普通人一辈子

经过了裁员优化后，有大厂发现35+员工堪比985211的员工了。他们既听话又好用，又有丰富踩坑经验，不容易犯错。

大厂RAG面试真题大全！

经过了裁员优化后，有大厂发现35+员工堪比985211的员工了。他们既听话又好用，又有丰富踩坑经验，不容易犯错。

离谱！一边裁员，一边60K*16高薪挖人！

很严重了，我劝大家学会这门新技能吧...

前阿里员工爆料：35岁+，年薪曾达180万，离职五月终获字节跳动Offer，却面临45%薪资下调，心理压力巨大

字节跳动员工自爆工资收入，网友说：字节10年能挣普通人一辈子

央国企降薪潮来袭！惨不忍睹！

刚刚，OpenAI发布sCM提升50倍效率，扩散模型重大技术突破！

Google 最新推出的RAG替代方案--RIP

如何基于一台MacBook搞定企业级大模型知识库部署

阿里专家揭秘：为什么现在要学习 AI Agent？

取代IT岗，中国又一新兴岗位在崛起！这才是IT人未来最好的就业方向！！

雷军做程序员时写的博客，的确强大！

比裁员更侮辱人的事发生了。。。

AI应用落地关键技术：AI Agent

惊恐！银行崩了，余额归 0 ，钱没了。。。

OpenAI重磅发布交互界面canvas，让ChatGPT成为编程和写作利器

一文彻底理解大模型 Agent 智能体原理和案例

成本降低98%！OpenAI开发者大会4大新能力，处理token猛增50倍！

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

Cursor 实用技巧指南

Spring AI Alibaba 让 Java 开发者一步迈入 AI 原生时代！

突发！上交所系统被买崩了？股票交易量火爆挤瘫 IT系统！

大厂职级：P6/P7/P8技能、薪资和成长路线全攻略！

裁员了，很严重，大家做好准备吧。。。

突发！OpenAI 山姆奥特曼长文解读智能时代，很快会有超级智能！

4.6K star！Cursor 开源平替来了，一天狂揽近 1K Star！

Spring AI Alibaba 重磅发布！AI 驱动的 Java 开发框架

如何基于一台MacBook搞定企业级大模型知识库部署

多家企业面临薪资困境，提前规划，为你的未来保驾护航！

前阿里员工自述困境：35岁+，年薪曾达180万，离职五月终获字节跳动Offer，却面临45%薪资下调，心理压力巨大

中国程序员的悲哀！！（全球调研）

人人都能听懂的大白话 Transformer 技术原理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉