1-bit LLMs:MatMul有还是无?这是个问题

旅行   2024-10-06 07:00   北京  

1-bit LLMs将大语言模型一分为二!

1-bit大语言模型(LLMs)的出现引发了学界广泛关注。

这种新型模型通过极端量化技术,将LLM的部分层转化为无需矩阵乘法(MatMul-free)的操作,从而大幅提升模型效率。

然而,1-bit LLMs并非全面改进,它只优化了模型的一部分,这就引出了一个关键问题:这种部分改进对整体模型性能的影响究竟有多大?

为了回答这个问题,研究人员对不同规模的LLM模型和硬件配置进行了深入分析,结果揭示了一些令人意外的发现。

云端部署:规模决定效果

在云端部署场景中,研究者使用了一个256x256的systolic阵列TPU来模拟计算。结果显示,1-bit LLMs的效果与模型规模密切相关

  • 对于小型模型(如OPT 350M),注意力头的优化比投影层更重要。这意味着单纯使用1-bit LLM技术可能收效甚微。

  • 中等规模模型(如OPT 1.3B和2.7B)则是两者兼顾的最佳选择。既可以采用1-bit LLM技术,又可以考虑优化注意力机制,如用Hadamard乘积替代矩阵乘法。

  • 大型模型(OPT 6.7B及以上)则完全不同,注意力头的优化几乎无关紧要。在这种情况下,仅仅采用1-bit LLM方法就能带来显著的性能提升

边缘设备:1-bit LLM大显身手

在边缘计算场景下,研究者使用了一个小得多的32x32 systolic阵列TPU。令人惊讶的是,在所有情况下,优化投影层都能带来更显著的整体性能提升。这意味着1-bit LLM技术在边缘设备上的应用前景更加广阔。

研究者提出,未来的研究方向应该集中在开发高效的定制硬件,以实现极度量化的投影层,而不是将精力过多地放在注意力头的算法和硬件创新上。

Amdahl定律的LLM版本

为了量化部分改进对整体性能的影响,研究者提出了"LLM版Amdahl定律"。这个公式帮助我们理解,当只有模型的一部分得到改进时,整体性能会有怎样的提升。

结果再次印证了先前的发现:在云端部署中,模型规模决定了优化策略的效果;而在边缘设备上,1-bit LLM技术几乎在所有情况下都是最优选择。

未来研究方向

这项研究不仅揭示了1-bit LLMs的潜力和局限性,还为未来的研究指明了方向:

  • 对于大型模型,重点应放在提升1-bit LLM技术本身。

  • 中等规模模型需要平衡1-bit LLM和注意力机制的优化。

  • 边缘计算场景下,开发专门的硬件加速器将是关键。

  • 探索混合内存层次结构设计,将占主导地位的模型组件卸载到更快的内存技术上。

1-bit LLMs的出现无疑为AI硬件和算法的发展开辟了新的道路。随着研究的深入,我们或许能看到更多令人惊喜的突破,让AI在云端和边缘设备上都能高效运行。

相关链接

论文地址:arxiv.org/pdf/2408.11939

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章