对于Transformers的重要性我想不用多说了,之前也是想尽各种办法来介绍它,感兴趣的可以查看专栏。
先来个整体视角:
再逐步分解开来:
1️⃣ 𝗪𝗛𝗔𝗧 𝗜𝗦 𝗔 𝗧𝗥𝗔𝗡𝗦𝗙𝗢𝗥𝗠𝗘𝗥?
Transformer 是一种神经网络,擅长理解序列数据的上下文并从中生成新的数据。
它们是首个仅依赖自注意力机制,而不使用 RNN 或卷积的模型。
2️⃣ 𝗧𝗥𝗔𝗡𝗦𝗙𝗢𝗥𝗠𝗘𝗥 𝗔𝗦 𝗔 𝗕𝗟𝗔𝗖𝗞 𝗕𝗢𝗫
想象一个用于语言翻译的 Transformer 是一个黑盒子。🎩
• 输入:一句话(某种语言)。
• 输出:它的翻译。
但是,这个黑盒子内部发生了什么?让我们一探究竟!🔍
3️⃣ 𝗘𝗡𝗖𝗢𝗗𝗘𝗥/𝗗𝗘𝗖𝗢𝗗𝗘𝗥 architecture
• 输入:西班牙语句子 "¿De quién es?"
• 编码器:将其转换为一个结构化格式,捕捉句子的核心含义。
• 解码器:接收编码后的数据,并生成翻译。
• 输出:翻译后的句子 "Whose is it?"
4️⃣ 𝗧𝗛𝗘 𝗔𝗥𝗖𝗛𝗜𝗧𝗘𝗖𝗧𝗨𝗥𝗘 BEHIND THE TRANSFORMERS
每个编码器和解码器都是由多个层组成的,工作方式如下:
• 编码器:逐层处理输入数据,依次进行。
• 解码器:接收编码后的数据,逐步生成输出。
两者都使用自注意力机制和前馈神经网络,这使得自然语言的生成成为可能。