Meta开源Llama 3.2,内存缩减40%,速度翻倍,AI效率新突破!

2024-10-29 19:59   广东  
Meta最新力作Llama 3.2轻量化模型震撼上线,10亿和30亿参数任你挑选!为了让这款黑科技在移动设备上大显身手,Meta团队可谓煞费苦心。

他们巧妙运用LoRA适配器和SpinQuant技术,对模型进行了深度优化,内存使用量减少41%,模型规模缩减56%,而推理效率却翻了两到四倍。

实测数据显示,Llama 3.2在一加12手机上解码延迟提升了2.5倍,预填充延迟更是提高了4.2倍;而在三星S24+、S22手机上,性能提升同样惊人!

赶紧收藏!这里有个超给力的开源地址:

https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

别看它名字普通,功能可强大了!Llama 3.2 1B和3B的架构,采用了经典的Transformer结构。但别小看了它的独特之处,它在所有变压器块中的线性层都进行了特别的量化处理。

采用了4位组来量化权重,激活部分更是厉害,采用了8位每标记的动态量化!分类层也不甘示弱,采用了8位每通道的权重和8位每标记的动态激活量化,连嵌入部分都用了8位每通道量化。这可不是一般的牛气!

在模型优化上,巧妙融合了LoRA适配器、量化感知训练以及SpinQuant这两大核心技术。

首先,LoRA适配器在初始化QAT时,会运用经过有监督微调的BF16 Llama 3.2模型检查点,再进行一轮带有QAT的有监督微调训练。

接着,将QAT模型的主干部分进行冻结,然后利用低秩自适应的LoRA适配器对变压器块的所有层进行第二轮有监督微调。

值得一提的是,LoRA适配器的权重和激活均保持在BF16级别。最终,通过直接偏好优化,成功打造出了高能效的模型。

SpinQuant作为业界领先的量化技术,它运用WikiText数据集巧妙地学习旋转矩阵,有效缓解数据异常,提升量化效率。它虽不及QAT+LoRA精确,却拥有出色的可移植性,无需私享训练数据。

对于数据资源有限的应用场景,SpinQuant无疑是最佳选择。此外,开发者还能利用它量化Llama模型,轻松适配各类硬件和场景,其开源库与ExecuTorch和Llama Stack完美兼容,扩展性强。

即便Llama 3.2 1B和3B参数小,却支持128k tokens的上下文长度,对移动端处理长文本、理解复杂指令至关重要。

在总结长篇小说、提取学术论文要点等任务中,它能够深入理解文本逻辑和语义,提供更精准的结果。

Meta最新公布的测试数据更加令人震惊,在MMLU、GSM8K、MATH、MGSM等重磅基准测试中,经过量化处理的Llama 3.2版不仅保持了卓越的性能,更是与Llama 3 8B版不相上下,实力证明其高性能与低能耗的完美结合!

今天就聊到这了,我是Glen,等我出手吧~

感谢你看我的内容,欢迎大家继续支持我,请点赞、收藏、分享三连走一波吧~


推荐阅读


Glen
关注我,免费领AI整合包合集。我是Glen,原鹅厂、字节高级产品经理,现AI公司创始人。让一部分人,看见AI并连接。分享人工智能、互联网、商业、职场等内容,管理精力,提升认知。种一棵树最好的时机是十年前,其次是现在!
 最新文章