他们巧妙运用LoRA适配器和SpinQuant技术,对模型进行了深度优化,内存使用量减少41%,模型规模缩减56%,而推理效率却翻了两到四倍。
实测数据显示,Llama 3.2在一加12手机上解码延迟提升了2.5倍,预填充延迟更是提高了4.2倍;而在三星S24+、S22手机上,性能提升同样惊人!
赶紧收藏!这里有个超给力的开源地址:
https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
别看它名字普通,功能可强大了!Llama 3.2 1B和3B的架构,采用了经典的Transformer结构。但别小看了它的独特之处,它在所有变压器块中的线性层都进行了特别的量化处理。
采用了4位组来量化权重,激活部分更是厉害,采用了8位每标记的动态量化!分类层也不甘示弱,采用了8位每通道的权重和8位每标记的动态激活量化,连嵌入部分都用了8位每通道量化。这可不是一般的牛气!
在模型优化上,巧妙融合了LoRA适配器、量化感知训练以及SpinQuant这两大核心技术。
首先,LoRA适配器在初始化QAT时,会运用经过有监督微调的BF16 Llama 3.2模型检查点,再进行一轮带有QAT的有监督微调训练。
接着,将QAT模型的主干部分进行冻结,然后利用低秩自适应的LoRA适配器对变压器块的所有层进行第二轮有监督微调。
值得一提的是,LoRA适配器的权重和激活均保持在BF16级别。最终,通过直接偏好优化,成功打造出了高能效的模型。
SpinQuant作为业界领先的量化技术,它运用WikiText数据集巧妙地学习旋转矩阵,有效缓解数据异常,提升量化效率。它虽不及QAT+LoRA精确,却拥有出色的可移植性,无需私享训练数据。
对于数据资源有限的应用场景,SpinQuant无疑是最佳选择。此外,开发者还能利用它量化Llama模型,轻松适配各类硬件和场景,其开源库与ExecuTorch和Llama Stack完美兼容,扩展性强。
即便Llama 3.2 1B和3B参数小,却支持128k tokens的上下文长度,对移动端处理长文本、理解复杂指令至关重要。
在总结长篇小说、提取学术论文要点等任务中,它能够深入理解文本逻辑和语义,提供更精准的结果。
Meta最新公布的测试数据更加令人震惊,在MMLU、GSM8K、MATH、MGSM等重磅基准测试中,经过量化处理的Llama 3.2版不仅保持了卓越的性能,更是与Llama 3 8B版不相上下,实力证明其高性能与低能耗的完美结合!
今天就聊到这了,我是Glen,等我出手吧~
感谢你看我的内容,欢迎大家继续支持我,请点赞、收藏、分享三连走一波吧~
推荐阅读