手写self-attention的四重境界 self-attention

教育 2025-01-03 19:41 江苏

背景

在 AI 相关的面试中，经常会有面试官让写 self-attention，但是因为 transformer 这篇文章其实包含很多的细节，因此可能面试官对于 self-attention 实现到什么程度是有不同的预期。因此这里想通过写不同版本的 self-attention 实现来达到不同面试官的预期。以此告诉面试官，了解细节，但是出于时间考虑，可能只写了简化版本，如果有时间可以把完整的写出来。

> 本文首发于：https://bruceyuan.com/hands-on-code/from-self-attention-to-multi-head-self-attention.html (更好的阅读体验）

来自：chaofa用代码打点酱油

LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入！

如果对于文字不感冒，可以查看视频号

Self-Attention

MultiHead Attention 的时候下一章介绍；先熟悉当前这个公式。

Self Attention 的公式

，其中Q K V 对应不同的矩阵 W

补充知识点

1. matmul 和 @ 符号是一样的作用
2. 为什么要除以？a. 防止梯度消失 b. 为了让 QK 的内积分布保持和输入一样
3. 爱因斯坦方程表达式用法：torch.einsum('bqd,bkd-> bqk', X, X).shape
4. X.repeat(1, 1, 3) 表示在不同的维度进行 repeat操作，也可以用 tensor.expand 操作

第一重: 简化版本

• 直接对着公式实现，

# 导入相关需要的包
import math
import torch
import torch.nn as nn

import warnings
warnings.filterwarnings(action='ignore')


class SelfAttV1(nn.Module):
    def __init__(self, hidden_dim):
        super(SelfAttV1, self).__init__()
        self.hidden_dim = hidden_dim
        # 一般 Linear 都是默认有 bias
        # 一般来说， input dim 的 hidden dim
        self.query_proj = nn.Linear(hidden_dim, hidden_dim)
        self.key_proj = nn.Linear(hidden_dim, hidden_dim)
        self.value_proj = nn.Linear(hidden_dim, hidden_dim)

    def forward(self, X):
        # X shape is: (batch, seq_len, hidden_dim)， 一般是和 hidden_dim 相同
        # 但是 X 的 final dim 可以和 hidden_dim 不同
        Q = self.query_proj(X)
        K = self.key_proj(X)
        V = self.value_proj(X)

        # shape is: (batch, seq_len, seq_len)
        # torch.matmul 可以改成 Q @ K.T
        # 其中 K 需要改成 shape 为： (batch, hidden_dim, seq_len)
        attention_value = torch.matmul(Q, K.transpose(-1, -2))
        attention_wight = torch.softmax(
            attention_value / math.sqrt(self.hidden_dim), dim=-1
        )
        # print(attention_wight)
        # shape is: (batch, seq_len, hidden_dim)
        output = torch.matmul(attention_wight, V)
        return output


X = torch.rand(3, 2, 4)
net = SelfAttV1(4)
net(X)

第二重: 效率优化

• 上面哪些操作可以合并矩阵优化呢？- QKV 矩阵计算的时候，可以合并成一个大矩阵计算。
但是当前 transformers 实现中，其实是三个不同的 Linear 层

class SelfAttV2(nn.Module):
    def __init__(self, dim) -> None:
        super().__init__()
        self.dim = dim
        # 这样可以进行加速, 那么为什么现在 Llama, qwen, gpt 等
        self.proj = nn.Linear(dim, dim * 3)

        self.output_proj = nn.Linear(dim, dim)

    def forward(self, X):
        # X shape is: (batch, seq, dim)

        QKV = self.proj(X)  # (batch, seq, dim * 3)
        # reshape 从希望的 q, k, 的形式
        Q, K, V = torch.split(QKV, self.dim, dim=-1)

        # print(x)
        att_weight = torch.softmax(
            Q @ K.transpose(-1, -2) / math.sqrt(self.dim), dim=-1
        )
        output = att_weight @ V
        return self.output_proj(output)


X = torch.rand(3, 2, 4)
net = SelfAttV2(4)
net(X).shape

第三重: 加入细节

• 看上去 self attention 实现很简单，但里面还有一些细节，还有哪些细节呢？

• attention 计算的时候有 dropout，而且是比较奇怪的位置
• attention 计算的时候一般会加入 attention_mask，因为样本会进行一些 padding 操作；
• MultiHeadAttention 过程中，除了 QKV 三个矩阵之外，还有一个 output 对应的投影矩阵，因此虽然面试让你写 SingleHeadAttention，但是依然要问清楚，是否要第四个矩阵？

class SelfAttV3(nn.Module):
    def __init__(self, dim) -> None:
        super().__init__()
        self.dim = dim
        # 这样可以进行加速
        self.proj = nn.Linear(dim, dim * 3)
        # 一般是 0.1 的 dropout，一般写作 config.attention_probs_dropout_prob
        # hidden_dropout_prob 一般也是 0.1
        self.att_drop = nn.Dropout(0.1)

        # 不写这个应该也没人怪，应该好像是 MultiHeadAttention 中的产物，这个留给 MultiHeadAttention 也没有问题；
        self.output_proj = nn.Linear(dim, dim)

    def forward(self, X, attention_mask=None):
        # attention_mask shape is: (batch, seq)
        # X shape is: (batch, seq, dim)

        QKV = self.proj(X)  # (batch, seq, dim * 3)
        # reshape 从希望的 q, k, 的形式
        Q, K, V = torch.split(QKV, self.dim, dim=-1)

        att_weight = Q @ K.transpose(-1, -2) / math.sqrt(self.dim)
        if attention_mask is not None:
            # 给 weight 填充一个极小的值
            att_weight = att_weight.masked_fill(attention_mask == 0, float('-1e20'))

        att_weight = torch.softmax(att_weight, dim=-1)

        # 这里在 BERT中的官方代码也说很奇怪，但是原文中这么用了，所以继承了下来
        # （用于 output 后面会更符合直觉？）
        att_weight = self.att_drop(att_weight)

        output = att_weight @ V
        ret = self.output_proj(output)
        return ret


X = torch.rand(3, 4, 2)
b = torch.tensor(
    [
        [1, 1, 1, 0],
        [1, 1, 0, 0],
        [1, 0, 0, 0],
    ]
)
print(b.shape)
mask = b.unsqueeze(dim=1).repeat(1, 4, 1)

net = SelfAttV3(2)
net(X, mask).shape

面试写法（完整版）--注意注释

# 导入相关需要的包
import math
import torch
import torch.nn as nn

import warnings

warnings.filterwarnings(action='ignore')

class SelfAttV4(nn.Module):
    def __init__(self, dim) -> None:
        super().__init__()
        self.dim = dim

        # 这样很清晰
        self.query_proj = nn.Linear(dim, dim)
        self.key_proj = nn.Linear(dim, dim)
        self.value_proj = nn.Linear(dim, dim)
        # 一般是 0.1 的 dropout，一般写作 config.attention_probs_dropout_prob
        # hidden_dropout_prob 一般也是 0.1
        self.att_drop = nn.Dropout(0.1)

        # 可以不写；具体和面试官沟通。
        # 这是 MultiHeadAttention 中的产物，这个留给 MultiHeadAttention 也没有问题；
        self.output_proj = nn.Linear(dim, dim)

    def forward(self, X, attention_mask=None):
        # attention_mask shape is: (batch, seq)
        # X shape is: (batch, seq, dim)

        Q = self.query_proj(X)
        K = self.key_proj(X)
        V = self.value_proj(X)

        att_weight = Q @ K.transpose(-1, -2) / math.sqrt(self.dim)
        if attention_mask is not None:
            # 给 weight 填充一个极小的值
            att_weight = att_weight.masked_fill(attention_mask == 0, float('-1e20'))

        att_weight = torch.softmax(att_weight, dim=-1)
        print(att_weight)

        # 这里在 BERT中的官方代码也说很奇怪，但是原文中这么用了，所以继承了下来
        # （用于 output 后面会更符合直觉？）
        att_weight = self.att_drop(att_weight)

        output = att_weight @ V
        ret = self.output_proj(output)
        return ret


X = torch.rand(3, 4, 2)
b = torch.tensor(
    [
        [1, 1, 1, 0],
        [1, 1, 0, 0],
        [1, 0, 0, 0],
    ]
)
print(b.shape)
mask = b.unsqueeze(dim=1).repeat(1, 4, 1)

net = SelfAttV4(2)
net(X, mask).shape

这里再次解释一下，为什么现在现在的代码实现都是 q k v 的投影矩阵都是分开写的，这是因为现在的模型很大，本身可能会做张量并行，流水线并行等方式，所以分开写问题也不大（分开写很清晰），可能是加速效果并不明显。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

深度学习自然语言处理

一个热衷于深度学习与NLP前沿技术的平台，期待在知识的殿堂与你相遇~

最新文章

聊聊PRM（过程奖励模型）

2024 年度总结 LLM System Research：过去半年的科研心路历程

强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

Virgo：类o1多模态大模型的初步探索

24届毕业生聊PhD就业，国内or国外、学术界or工业界or创业

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

博士生罢工、工资上涨、学术头秃：PI生存指南

[vLLM vs TensorRT-LLM]：动态序列长度场景对比

图解Megatron TP中的计算通信overlap

从infra的视角聊聊DeepSeek-V3

手写self-attention的四重境界 self-attention

o1类大模型的过度思考: 2+3=？

2024年RAG：回顾与展望

Building effective agents笔记

微软公布OpenAI闭源模型参数！4o-mini 8B！

NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

DeepSeek-V3技术报告解读

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

OpenAI-o3 与 Monte-Carlo 思想

NICE41期 | 大模型评估的新视角：理论指标创新与下游任务应用分享

让Agent"少说废话"！打造高效的LLM多智能体系统

游凯超：我与vLLM的2024，很Passion！

最新RAG综述：15种经典RAG框架综述（上）

最新RAG综述：15种经典RAG框架综述（下）

LLM实践--支线：分布式训练框架的编程基础

NICE40期 | 自动生成模型卡与数据卡：迈向负责任的人工智能

刘鹏飞老师组研发PC Agent，让 AI 替你熬夜做 PPT

LLM，一艘方向不对但积重难返的华丽游轮...

o1复现的一点点心得

深度学习工作：从追求 SoTA 到揭示新现象

大模型推理张量并行的4种模式

百度&人大：长文本LLM全排序能力新方法

212页PPT：大模型时代的具身智能

RWKV-7：极先进的大模型架构，长文本能力极强

今天Qwen2.5技术报告发布啦！

Anthropic: 预训练阶段引入人类反馈更安全

图解OpenRLHF中基于Ray的分布式训练流程

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

实践指南: hzwer大佬的模型优化与迭代策略

如何用一个统一的视角，分析RLHF下的各种算法？

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

只要捞"偏门"，篇篇都是顶会顶刊！

圆桌会 | 荣幸邀请到Meta、OSU、哈佛&MIT学者来分享Agent前沿~

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

模仿、探索与自我提升：慢思考推理系统的复现之路

大模型Infra王朝2024

今晚8:30，荣幸邀请到电影导演和LLM科学家一起聊聊对多模态的见解

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

如何增强大模型推理？Meta最新提出《大型概念模型》在句子表示空间中的语言建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

手写self-attention的四重境界 self-attention

背景

Self-Attention

Self Attention 的公式

补充知识点

第一重: 简化版本

第二重: 效率优化

第三重: 加入细节

面试写法 （完整版）--注意注释

面试写法（完整版）--注意注释