Attention 的计算公式中为什么要除以根号k ?这么回答惊艳面试官！

文摘 2024-05-31 09:02 上海

这个题目可以说是 NLP 面试中一个高频出现的问题，基本上问到 Attention 或者 Transformers 的时候都会问。

这是个好题目，因为很快能了解到面试同学的数学功底怎么样。

如果你是 NLP 学生或者从业者，不妨先试着回答一下。如果有更好的答案欢迎交流。

最基本的答案
这个问题在《Attention is All You Need》的原始论文中是给出了一个粗略的答案的。

While for small values of the two mechanisms perform similarly, additive attention outperforms dot product attention without scaling for larger values of [3]. We suspect that for large values of , the dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients. To counteract this effect, we scale the dot products by .

作者说，当的值变大的时候，softmax 函数会造成梯度消失问题，所以设置了一个 softmax 的 temperature 来缓解这个问题。这里 temperature 被设置为了 , 也就是乘上。

这个回答当然没什么问题，但是接下来就会再问两个问题：

为什么会导致梯度消失？
为什么是 , 有更好的值么？

下面来回答一下这两个衍生的问题。

变大为什么会导致梯度消失？

先说结论：

如果变大，方差会变大。
方差变大会导致向量之间元素的差值变大。
元素的差值变大会导致 softmax 退化为 argmax, 也就是最大值 softmax 后的值为 1，其他值则为 0。
softmax 只有一个值为 1 的元素，其他都为 0 的话，反向传播的梯度会变为 0, 也就是所谓的梯度消失。

下面分别证明这 4 点。

第一点：变大，QK 方差会变大。

假设 Q和 K的向量长度为 , 均值为0，方差为 1。则 Q和 K的点积的方差为：

所以，当变大时，方差变大。证毕。

第二点：方差变大会导致向量之间元素的差值变大。

这似乎是一个显而易见的结论，因为方差变大就是代表了数据之间的差异性变大。

第三点：softmax 退化为 argmax

当输入向量的方差变得非常大时，softmax 函数将会趋近于将最大的元素赋值为 1，而其他元素赋值为 0，也就是是 argmax 函数。用公式表示的话：

第四点：softmax 什么情况下会梯度消失

这一块有点复杂，直接看以下的实验，一目了然。

梯度实验

我们同样做个实验，看看梯度到底为多少。

import numpy as np

n = 10

x1 = np.random.normal(loc=0, scale=1, size=n)
x2 = np.random.normal(loc=0, scale=np.sqrt(512), size=n)
print('x1最大值和最小值的差值:', max(x1) - min(x1))
print('x1最大值和最小值的差值:', max(x2) - min(x2))

def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), keepdims=True)

def softmax_grad(y):
    return np.diag(y) - np.outer(y, y)

ex1 = softmax(x1)
ex2 = softmax(x2)
print('softmax(x1) =', ex1)
print('max of gradiant of softmax(x1) =', np.max(softmax_grad(ex1)))
print('softmax(x2) =', ex2)
print('max gradiant of softmax(x2) =', np.max(softmax_grad(ex2)))

其结果为：

x1最大值和最小值的差值: 1.8973472870218264
x1最大值和最小值的差值: 66.62254341144866
softmax(x1) = [0.16704083 0.21684976 0.0579299  0.05408421 0.16109133 0.14433417
 0.03252007 0.05499126 0.04213939 0.06901908]
max of gradiant of softmax(x1) = 0.1698259433168865
softmax(x2) = [4.51671361e-19 2.88815837e-21 9.99999972e-01 3.02351231e-17
 3.73439970e-25 8.18066523e-13 2.78385563e-08 1.16465424e-29
 7.25661271e-20 3.21813750e-21]

可以看出，在方差为的时候，长度仅仅为10的向量x2，其梯度就已经快没有了，最大值为2.78e-8。

而如果将方差控制在1，则最大的梯度为0.1698

scale 有更好的值么？

从上一节的第一步的证明，可以发现，scale 的值为其实是把归一化成了一个均值为 0，方差为 1 的向量。

至于是不是最好呢？不好说，因为参数的分布我们不太清楚。苏神曾经试图求解了一些常用分布的最佳 scale 值，感兴趣的可以看下：https://spaces.ac.cn/archives/9812

http://mp.weixin.qq.com/s?__biz=MzkzNzE4NTMxNA==&mid=2247485659&idx=1&sn=920b6f6741ddf46d92fc9d9b0c12b212

不摸鱼的小律

互联网大厂算法工程师一枚，分享各种技术、职场热点和感悟。不做每日打卡的路人。

最新文章

别再内卷了！小城房价2w元起，小姐姐已开启“退休”模式！

学姐：秋招了！来冲冲这些中国的科技独角兽公司！

说好的消费降级？2024年上半年互联网财报刷新你的认知！

腾讯员工吐槽：公务员哭穷却不离职，真是个奇特的职业

公务员吐槽：腾讯员工喊累却不跳槽，真是个奇特的职业

谁是真正的现金流王者--互联网大厂篇

学姐：年薪40，一年至少可攒28？

学姐：我司原来是中国独角兽公司！（下篇）

广东学姐：秋招了？来看看家乡的科技独角兽公司！

秋招提前批快人一步！算法岗秋招提前批信息汇总！

学姐：秋招了？来看看中国的科技独角兽公司！

学姐：早看到这份科技独角兽公司名单，我就照着它报了！

Attention 的计算公式中为什么要除以根号k ?这么回答惊艳面试官！

算法岗求职？投它就完事了！

半数员工年薪超164万，打工人最向往的公司

“裁员”广进计划！启动！！

手撕torch系列总结

【24、25届春招/暑假实习】超全算法工程师招聘信息汇总！！！

一份来自阿里星算法岗大佬的简历模板

23届校招生在上海四个月的开销！

甲乙流肆虐的季节！一份小指南送给各位职场人...

后悔告诉家里人自己的工资！

24届视觉算法岗(AIGC方向)秋招经验分享

年底了，你在冲绩效吗？

2023中国互联网公司排行榜

23届老学长入行算法工程师之后的感想

大模型Kaggle比赛首秀金牌总结

九月底了0 offer？给大家打打气！

一半应届生转正失败！我又感受到了寒气...

开摆的我，开摆的周末

24届秋招再次让我破防

这几十家公司的算法岗，都投过嘛？

算法岗秋招正式批，它来啦！

被迫转岗了...真的好难顶呀

一大波算法岗秋招提前批信息来袭！

一不小心，kaggle第一了...

一些能给简历加分的AI竞赛！

秋招提前批开了？算法岗秋招提前批信息汇总！

紧跟前沿！国内外大语言模型调研汇总

Huggingface——一个包含了LLM,AIGC的开源社区

【Kaggle Stable Diffusion】比赛top方案总结

【Kaggle】从chatgpt偷数据，助力上大分

「AI 孙燕姿」火遍全网，你知道吗！

【Kaggle】呜呜呜....再也不参加开放数据集的AI竞赛了

首个完全开源的国产“chatgpt”！--来看MOSS首秀！

装没装这几个插件，完全是两个ChatGPT！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Attention 的计算公式中为什么要除以根号k ?这么回答惊艳面试官！

变大为什么会导致梯度消失？

第一点： 变大，QK 方差会变大。

第二点：方差变大会导致向量之间元素的差值变大。

第三点：softmax 退化为 argmax

第四点：softmax 什么情况下会梯度消失

梯度实验

scale 有更好的值么？

第一点：变大，QK 方差会变大。