面试题：计算softmax为什么要除以根号d?

文摘 2024-12-26 10:46 上海

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

回答：1. 保证梯度稳定；2.保持attention score为均值0方差1的分布，这样便于后续的优化。

详解：1. QK乘积可能会存在较大的值，这些值如果比较大，会导致算softmax的时候算出来的结果趋向于极值，也就是softmax的概率分布趋向于最大值对应的标签，从矩阵上看就这个最大值对应的位置有梯度，其它地方没梯度，导致反向传播的梯度不稳定。2.上面的公式给出了不除以d**0.5的话，会导致方差变大，为了保持方差的问题，需要除一下。

知识星球，新年优惠券重磅来来袭！，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

大模型月度回顾 · 2024年12月

Robo周报：比亚迪、理想、广汽等推进机器人研发/ 传禾赛裁员数百人/英伟达将推全新机器人芯片...

3D视觉理解GPT4Scene：通过视觉-语言模型从视频中理解3D场景

北航/新加坡国立大学/华中科技提出自动驾驶视觉语言模型的视觉对抗攻击！

腾讯微信团队 & 上交通 & 南大揭秘模型汤，构建与优化，视觉-语言模型的强基准与有效改进策略研究！

端到端智驾半壁江山都来了！2025首场自动驾驶峰会全部嘉宾揭晓，还将拆解世界模型与VLM

博世XC中国高管离职，增加自研力量

CVPR & AAAI | AI创新的交汇点：扩散模型与卷积网络的碰撞效应

VisionPAD:一种以视觉为中心的自动驾驶预训练范式！

告别2024，迎来2025，你准备好了吗！

北大/加州大学提出 OpenAD: 3D物体检测的开放世界自主驾驶基准！

如何高效的将智驾AI大模型软件模块部署到SOC芯片上？

锚定智能汽车赛道，企业如何“破卷”？来ICV CHINA 2025上海智能汽车科技展，抢占市场先机

HSl-Drive v2.0: 更多数据用于自动驾驶场景理解的新挑战 !

AAAI'25 | EGSRAL：3DGS渲染器如何生成带有自动标注的全新视角图像？

具身智能干货最多的社区推荐---入门必看！

「少数派」小马智行：不神化端到端，也不吹商业化