惊人发现:LLM模型一半的注意力层是多余的!

旅行   2024-11-09 14:00   北京  

一半的注意力层可以被移除,LLM模型照样表现出色!

研究人员最近发现,大型语言模型(LLM)中存在大量冗余的注意力层。移除这些多余的层不仅不会影响模型性能,反而能让模型运行速度翻倍!

这项研究揭示了一个令人惊讶的事实:LLM模型中的注意力机制可能被过度强调了

研究团队开发了一种新方法,可以识别和移除Transformer架构中冗余的组件。他们发现:

  • 注意力层表现出高度冗余,尤其是在模型的深层部分

  • 这种冗余性在整个训练过程中始终存在

  • 移除注意力层对模型性能影响极小

具体来说,研究人员提出了三种技术来解决这个问题:

  1. MLP Drop:针对MLP层的移除

  2. Attention Drop:专门移除注意力层

  3. Joint Layer Drop:同时移除MLP和注意力层

这些技术的核心是一种基于相似性的指标,用于评估Transformer组件的冗余程度。

实验结果令人震惊:

  • Llama-2-70B模型在移除一半注意力层后,速度提升了48.4%,而性能仅下降2.4%

  • Llama-2-13B模型的KV缓存减少了50%(从52GB降至26GB)

  • 使用Attention Drop技术,模型速度提升40%,同时保持95%以上的原始性能

  • 采用Joint Layer Drop方法,Llama-2-13B在移除31层(包括注意力层和MLP层)后仍保持90%的性能

这项研究不仅为提高LLM模型效率提供了新思路,也让我们重新思考注意力机制在Transformer架构中的作用。

它启示我们:模型的复杂度并不总是与性能成正比。有时,简化模型结构反而能带来意想不到的好处。

这项突破性的发现可能会影响未来LLM模型的设计和优化策略。

或许,我们可以期待更加精简高效的AI模型了!

论文地址:

https://arxiv.org/abs/2406.15786


👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章