微软和清华改进Transformer：用降噪耳机原理升级注意力！一作在线答疑

科技 2024-11-05 13:06 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

梦晨发自凹非寺
转载自：量子位（QbitAI）

Transformer自问世后就大放异彩，但有个小毛病一直没解决：

总爱把注意力放在不相关的内容上，也就是信噪比低。

现在微软亚研院、清华团队出手，提出全新改进版Differential Transformer，专治这个老毛病，引起热议。

论文：https://arxiv.org/abs/2410.05258

代码：https://aka.ms/Diff-Transformer

论文中介绍，整体思路类似差分放大电路或降噪耳机，用两个信号的差值来滤除共模噪声。

具体到在语言模型中，如果句子很长，只有少数token会真正影响当前token的含义。而注意力机制允许每两个词之间产生交互，其中就包含大量噪声了。

团队提出的方法是在注意力层中增加一个Softmax，然后两个Softmax做减法。

这一减，噪音信息就被大幅抵消，让注意力更集中在相关内容上。

语言建模任务上的一系列实验结果显示，仅需约65%的模型大小或训练tokens，DIFF Transformer就能达到与传统Transformer相当的性能。

新架构在长上下文建模、关键信息检索、减少幻觉、提高上下文学习能力以及减少激活异常值等各项指标中，普遍优于Transformer架构。

论文上传到arXiv平台后，有不少学者到弹幕版alphaXiv划线提问。一作Tianzhu Ye正绝赞在线答疑中。‍‍‍‍‍‍‍‍‍‍‍

差分Transformer

与传统Tranformer相比，DIFF Transformer保持宏观架构不变，主要区别在于用差分注意力替换传统softmax注意力。

此外还采用了LLaMA系列中的一些改进，如pre-RMSNorm归一化和SwiGLU激活函数。

在差分注意力模块中，需要先给Q和K分成两个组，然后分别计算softmax。

第二组乘了一个标量λ，是可学习的参数，在同一层的注意力头之间共享。

λ的引入是为了在差分操作中平衡两组注意力的贡献，使得差分注意力机制能够更好地适应不同的任务需求和数据分布。

接下来是一系列实验结果。

语言建模评估

在1T tokens上训练3B大小的DIFF Transformer，遵循 StableLM-3B-4E1T的配方，在各种下游任务中与以前训练良好的Transformer模型相比表现出优势。

可扩展性评估

只需约65%的模型参数或训练tokens来匹配Transformer的性能。

长上下文能力评估

在额外1.5B tokens上训练3B大小的DIFF Transformer，扩展上下文长度至64k。

随着上下文长度增加，累计平均负对数似然（NLL）持续降低，并且比传统Transformer的NLL值更低。

表明DIFF Transformer可以有效利用不断增加的上下文。

关键信息检索能力评估

也就是多个“针”的大海捞针试验，设置不同的上下文长度（4K和64K）来模拟不同复杂程度的信息检索场景。

在4K上下文长度下，随着插入 “针” 数量和查询数量的增加，DIFF Transformer的准确率保持稳定，而Transformer 的准确率显著下降。

在64K上下文长度下，DIFF Transformer在不同答案针深度（即关键信息在长上下文中的位置）和上下文长度下都能保持稳定性能，且在关键信息位于上下文前半部分时优势明显。

特别是当关键信息位于25%深度时，DIFF Transformer比Transformer的准确率提高了 76%。

上下文学习能力评估

分为两个角度来评估，分别是多样本分类和上下文学习的稳健性。

多样本分类任务，同样使用64K上下文长度的3B参数模型，DIFF Transformer的准确率始终高于Transformer，提升幅度从5.2%到21.6%不等

上下文学习稳健性采用排列顺序任务，DIFF Transformer的结果方差远小于传统Transformer。

上下文幻觉评估

主要关注输入中包含正确事实，但模型仍然无法产生准确输出的情况。

将模型输出与ground-truth一起发给GPT-4o，让GPT-4o来判断是否存在幻觉，此前试验表明GPT-4o与人类评判结果一致率较高，相对可靠。

在不同数据集上DIFF Transformer的准确率更高，幻觉更少。

激活异常值分析

Transformer中的激活异常值，导致模型在训练和推理过程中难以量化。

试验比较了注意力logits和隐藏状态两种激活类型下的最大激活值，DIFF Transformer都表现出更低的顶部激活值，即产生更少的激活异常值。

在对注意力logits进行量化实验时，DIFF Transformer在降低比特宽度量化时仍能保持较高性能，而Transformer在6-bi 量化时准确性显著下降。

4-bit的DIFF Transformer能达到与6-bit的Transformer相当的准确性，且比4-bit的Transformer准确率提高约 25%。

代码已开源，降噪耳机类比引热议

对于目前读者的疑问，作者已做出几点答复

问题1：Diff Transformer与每个注意力头温度可学习的方法有什么不同？与门控注意力对比如何？

作者回应在实验中，可学习温度效果不大。而本文方法是门控注意力的改进。
‍‍‍‍‍‍

问题2：差分注意力是否意味着将标准注意力矩阵参数翻倍？

作者澄清，单个注意力头维度翻倍，但是注意力头数量减半，总体在参数和FLOPS上都是对齐的。‍‍‍

问题3：第二组Softmax乘可学习参数lambda的研究思路。

作者也做出详细回应。‍‍‍

DIFF Transformer在纯学术圈之外也引起非常多的讨论，有不少人困惑论文中将方法与降噪耳机的类比。

降噪耳机采集环境噪声并生成相反的信号，在这种情况下哪些信号属于噪声是已知的，但差分注意力中并不能事先确定哪些是噪声。

一种解释是，低注意力分数的噪声也有很低的梯度，因此模型其实已知哪些是噪声，只是单个Softmax无法输出0，所以噪声很难去除。

也有人提出，比起降噪耳机，其实专业音频中“平衡线”，或者USB、网卡等传输方式更适合一些。

使用两条信号线传输正负信号，接收器只对比他们之间的差异，由于在空间中离得很近，受到的干扰是相同的。

有用的正负信号相减会被放大，相同的噪声相减却被抵消，大大增强抗干扰能力。

总之，DIFF Transformer代码已开源在微软unilm项目下，其中还包含魔改版支持差分注意力的FlashAttention-2的代码。

感兴趣的可以试起来了。

参考链接：
[1]https://news.ycombinator.com/item?id=41776324

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247610576&idx=2&sn=a643e61245095f0803916488ead92cbb

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

遥感和Mamba微信群成立！

已注销！985新校区，不建了

校长书记双院士！教育部副部长，任C9党委书记！

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

马斯克新官上任，再起诉OpenAI！称Ilya七年前就不放心奥特曼了

CVPR 2025 截稿！ICLR 2025和AAAI 2025投稿微信群成立！

长时间迟到、多次离席关闭摄像头…19位评审专家被处理！

导师放养，一个人偷偷发了顶会。。。

李飞飞团队新作：具身智能决策性能评价基准，o1-preview登顶！NeurIPS 2024

北大新作：让大模型来做peer-review结果会怎样？

CVPR 2025 即将截稿！ICLR 2025和CVPR 2025投稿微信群成立！

扩散模型和多模态微信群来了！

突发！中科院一区期刊eLife将被剥夺影响因子

残酷！中科院博士应聘某普通二本惨遭拒，开始思考人生。。。

周志华团队新作！打造更强的世界模型！WHALE来了！

NeurIPS'24 | Pcb-Merging：无需训练的多任务模型合并方案

ICLR 2025 分数出炉！ICLR 2025和CVPR 2025投稿微信群成立！

谷歌2024博士奖学金公布！KAN作者刘子鸣等数十位年轻华人学者入选

多校通知：大学教师，实行“坐班制”！

喜提 TPAMI 顶刊！

NeurIPS 2024 Oral | 量化和提升思维链的推理能力边界

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 出分了！ICLR 2025和CVPR 2025投稿微信群成立！

最大ReID和目标跟踪微信群来了！

211大学教授、博导，落马！

CV全新范式！LSTM在CV领域杀出一条血路！

GPT-5被曝不及预期！OpenAI员工：没什么科学突破了，接下来只需要工程

ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

CVPR 2025 和 ICLR 2025投稿微信群来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉