【大模型】图解Transformers架构

文摘   2024-09-24 15:47   辽宁  

对于Transformers的重要性我想不用多说了,之前也是想尽各种办法来介绍它,感兴趣的可以查看专栏。

从零开始学LLM

先来个整体视角:

再逐步分解开来:

1️⃣ 𝗪𝗛𝗔𝗧 𝗜𝗦 𝗔 𝗧𝗥𝗔𝗡𝗦𝗙𝗢𝗥𝗠𝗘𝗥?

Transformer 是一种神经网络,擅长理解序列数据的上下文并从中生成新的数据。

它们是首个仅依赖自注意力机制,而不使用 RNN 或卷积的模型。

2️⃣ 𝗧𝗥𝗔𝗡𝗦𝗙𝗢𝗥𝗠𝗘𝗥 𝗔𝗦 𝗔 𝗕𝗟𝗔𝗖𝗞 𝗕𝗢𝗫

想象一个用于语言翻译的 Transformer 是一个黑盒子。🎩

• 输入:一句话(某种语言)。

• 输出:它的翻译。

但是,这个黑盒子内部发生了什么?让我们一探究竟!🔍

3️⃣ 𝗘𝗡𝗖𝗢𝗗𝗘𝗥/𝗗𝗘𝗖𝗢𝗗𝗘𝗥 architecture

• 输入:西班牙语句子 "¿De quién es?"

• 编码器:将其转换为一个结构化格式,捕捉句子的核心含义。

• 解码器:接收编码后的数据,并生成翻译。

• 输出:翻译后的句子 "Whose is it?"

4️⃣ 𝗧𝗛𝗘 𝗔𝗥𝗖𝗛𝗜𝗧𝗘𝗖𝗧𝗨𝗥𝗘 BEHIND THE TRANSFORMERS

每个编码器和解码器都是由多个层组成的,工作方式如下:

• 编码器:逐层处理输入数据,依次进行。

• 解码器:接收编码后的数据,逐步生成输出。

两者都使用自注意力机制和前馈神经网络,这使得自然语言的生成成为可能。

人工智能大讲堂
专注人工智能数学原理和应用
 最新文章