英伟达发布MaskLLM智能剪枝技术

旅行   2024-10-05 08:00   北京  

LLM 对参数发起了一场智能裁员!

NVIDIA和新加坡国立大学联手开发了一种叫MaskLLM的新方法,通过学习哪些部分可以被"修剪"或忽略,来简化大型语言模型。这种方法不仅让模型变得更快,还几乎不损失准确性。

MaskLLM:模型减肥新利器

MaskLLM的核心是通过Gumbel Softmax采样技术创建"稀疏性"模式。这听起来很高大上,但其实就是给模型做了个"智能减肥"。

具体来说,MaskLLM采用了N:M稀疏性模式。在每M个参数中,只保留N个活跃参数,其余的都被关掉。比如在2:4稀疏模式下,每4个参数中就有2个被"裁员"了。这就像是把模型的"肌肉"练得更结实,同时甩掉了多余的"脂肪"。

智能"裁员":谁走谁留?

那么,该如何决定哪些参数要被裁掉呢?

MaskLLM并没有采用简单粗暴的方法,而是让模型自己学习最佳的修剪模式,也就是所谓的"掩码"。

它从随机掩码开始,然后通过Gumbel Max技术来选择修剪模式。这个过程就像是给决策加了点随机噪声,让模型能够更灵活地探索不同的修剪方案。

Gumbel Softmax:灵活调整的秘诀

MaskLLM还使用了Gumbel Softmax来根据性能调整修剪模式。这个技术创建了选择的"软"版本,使用选项的加权混合而不是仅选择一个。

通过调整温度参数,选择可以变得更加果断,同时模式也可以通过梯度轻松更新以进行优化。这就像是给模型装上了一个精细的"调节器",能够根据需要灵活地调整稀疏程度。

防止"过度减肥"

但是,修剪太多可能会让模型"营养不良",影响其在新任务上的表现。为了解决这个问题,MaskLLM使用了稀疏权重正则化技术,确保修剪后模型的活跃部分仍然强大有效。

迁移学习:一次学习,多处应用

一旦模型学会了好的掩码,它就可以将这些掩码应用到其他类似的任务中,大大加快了处理速度,减少了从头开始训练的需求。这就像是模型学会了一种"减肥秘籍",可以轻松地应用到不同的"身材"上。

MaskLLM的实力有多强?

实验结果显示,使用2:4稀疏模式的MaskLLM能够实现1.4倍的处理速度提升73%的内存减少,而且不会损失准确性。在某些情况下,它甚至能够实现无损压缩,通过学习特定任务的掩码来保持密集模型的性能,这些掩码还可以适应不同的领域。

这项研究不仅让我们看到了LLM"减肥"的新可能,也为未来更高效、更轻量级的AI模型铺平了道路。

这说明,在AI的世界里,"瘦身"也能成为一门大学问啊!

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章