一半的注意力层可以被移除,LLM模型照样表现出色!
研究人员最近发现,大型语言模型(LLM)中存在大量冗余的注意力层。移除这些多余的层不仅不会影响模型性能,反而能让模型运行速度翻倍!
这项研究揭示了一个令人惊讶的事实:LLM模型中的注意力机制可能被过度强调了。
研究团队开发了一种新方法,可以识别和移除Transformer架构中冗余的组件。他们发现:
注意力层表现出高度冗余,尤其是在模型的深层部分
这种冗余性在整个训练过程中始终存在
移除注意力层对模型性能影响极小
具体来说,研究人员提出了三种技术来解决这个问题:
MLP Drop:针对MLP层的移除
Attention Drop:专门移除注意力层
Joint Layer Drop:同时移除MLP和注意力层
这些技术的核心是一种基于相似性的指标,用于评估Transformer组件的冗余程度。
实验结果令人震惊:
Llama-2-70B模型在移除一半注意力层后,速度提升了48.4%,而性能仅下降2.4%
Llama-2-13B模型的KV缓存减少了50%(从52GB降至26GB)
使用Attention Drop技术,模型速度提升40%,同时保持95%以上的原始性能
采用Joint Layer Drop方法,Llama-2-13B在移除31层(包括注意力层和MLP层)后仍保持90%的性能
这项研究不仅为提高LLM模型效率提供了新思路,也让我们重新思考注意力机制在Transformer架构中的作用。
它启示我们:模型的复杂度并不总是与性能成正比。有时,简化模型结构反而能带来意想不到的好处。
这项突破性的发现可能会影响未来LLM模型的设计和优化策略。
或许,我们可以期待更加精简高效的AI模型了!
论文地址:
https://arxiv.org/abs/2406.15786
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!