回答:1. 保证梯度稳定;2.保持attention score为均值0方差1的分布,这样便于后续的优化。
详解:1. QK乘积可能会存在较大的值,这些值如果比较大,会导致算softmax的时候算出来的结果趋向于极值,也就是softmax的概率分布趋向于最大值对应的标签,从矩阵上看就这个最大值对应的位置有梯度,其它地方没梯度,导致反向传播的梯度不稳定。2.上面的公式给出了不除以d**0.5的话,会导致方差变大,为了保持方差的问题,需要除一下。
知识星球,新年优惠券重磅来来袭!,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧