Meta开源首个量化模型Llama 3.2：减少40%内存，效率提升2倍以上！

文摘 2024-11-15 08:02 浙江

近期文章回顾（更多热门文章请关注公众号与知乎Rocky Ding哦）

写在前面

WeThinkIn最新福利放送：大家只需关注WeThinkIn公众号，后台回复“简历资源”，即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源，希望能给大家在AIGC时代带来帮助。

AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍（持续更新）独家资源：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章（持续更新），点击链接直达干货知识：https://zhuanlan.zhihu.com/p/684068402

全球社交巨头Meta开源了首个轻量级量化版模型Llama 3.2，一共有10亿和30亿两种参数。

为了使该模型能在手机、平板、笔记本等移动设备上部署使用，Meta使用了带有LoRA适配器的量化感知训练和SpinQuant进行了大幅度性能优化，平均减少了41%的内存使用、减少56%的模型规模，但推理效率却提升了2—4倍。

例如，在一加12手机上，Llama 3.2的解码延迟平均提高了2.5倍，预填充延迟平均提高了4.2倍，而在三星的S24+、S22两款手机同样获得了类似的数据。

开源地址：https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

在架构方面，Llama 3.2 1B和3B采用了标准的Transformer结构。但对所有变压器块中的线性层进行了特定的量化处理，采用4位组方式量化权重，并对激活进行8位每标记动态量化。

分类层则量化为8位每通道的权重和8位每标记的动态激活量化，同时使用了8位每通道量化用于嵌入。

模型优化方面，使用了LoRA适配器量化感知训练和SpinQuant两种重要技术。LoRA适配器量化在初始化 QAT 时，会使用经过有监督微调后获得的BF16 Llama 3.2模型检查点，进行额外一轮带有 QAT 的有监督微调训练。

然后冻结 QAT 模型的主干，再使用低秩自适应的 LoRA 适配器对变压器块内所有层进行另一轮有监督微调，并且LoRA 适配器的权重和激活保持在 BF16，最后通过直接偏好优化进行微调得到高能效模型。

而SpinQuant是目前最先进的后训练量化技术之一，通过使用WikiText数据集来学习旋转矩阵，这些矩阵有助于平滑数据中的异常值，促进更有效的量化。在确定了旋转矩阵之后，应用了包括范围设置和生成性后训练量化在内的最佳量化效果。

该方法虽不如 QAT + LoRA 准确，但具有很灵活的可移植性，且无需访问通常是私有的训练数据集。这对于数据可用性或计算资源有限的应用来说，是一个非常好的解决方法。

开发者还可以使用此方法对自己微调后的 Llama 模型进行量化，以适应不同的硬件目标和用例，其开源库与 ExecuTorch和 Llama Stack 完美兼容扩展性很强。

虽然Llama 3.2 1B和3B的参数很小，但都支持128k tokens 的上下文长度，这对于移动端来说非常重要，可轻松处理长文本的总结、复杂指令的理解等场，例如，在处理长篇小说的内容总结、学术论文的要点提取等任务时，可以更好地理解文本的整体逻辑和语义，从而提供更准确的结果。

根据Meta公布的测试数据显示，在MMLU、GSM8K、MATH、MGSM等主流基准测试中，量化后的Llama 3.2不仅性能没有减少，还能与Llama 3 8B的性能媲美，充分证明了其高性能低消耗的特点。

本文素材来源Meta官网，如有侵权请联系删除

1、加入AIGCmagic社区知识星球

AIGCmagic社区知识星球不同于市面上其他的AI知识星球，AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台，涉及AI绘画、AI视频、大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向，内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等。

那该如何加入星球呢？很简单，我们只需要扫下方的二维码即可。知识星球原价：299元/年，前200名限量活动价，终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠：

2、《三年面试五年模拟》算法工程师面试秘籍

《三年面试五年模拟》面试秘籍旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法，力求让读者在获得心仪offer的同时，增强技术基本面。

Rocky已经将《三年面试五年模拟》面试秘籍的完整版构建在Github上：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main，欢迎大家star！

想要一起进行项目共建的朋友，欢迎点击链接加入项目团队：《三年面试五年模拟》版本更新白皮书，迎接AIGC时代

3、Sora等AI视频大模型的核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用AI视频大模型，从0到1训练自己的AI视频大模型，AI视频大模型性能测评，AI视频领域未来发展等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Sora等AI视频大模型文章地址：https://zhuanlan.zhihu.com/p/706722494

4、Stable Diffusion 3和FLUX.1核心原理，核心基础知识，网络结构，从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画，从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型，Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Stable Diffusion 3和FLUX.1文章地址：https://zhuanlan.zhihu.com/p/684068402

5、Stable Diffusion XL核心基础知识，网络结构，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Stable Diffusion XL文章地址：https://zhuanlan.zhihu.com/p/643420260

6、Stable Diffusion 1.x-2.x核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Stable Diffusion文章地址：https://zhuanlan.zhihu.com/p/632809634

7、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1训练自己的ControlNet模型，从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

ControlNet文章地址：https://zhuanlan.zhihu.com/p/660924126

8、LoRA系列模型核心原理，核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

LoRA文章地址：https://zhuanlan.zhihu.com/p/639229126

9、Transformer核心基础知识，核心网络结构，AIGC时代的Transformer新内涵，各AI领域Transformer的应用落地，Transformer未来发展趋势等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Transformer文章地址：https://zhuanlan.zhihu.com/p/709874399

10、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布！

码字不易，欢迎大家多多点赞：

AIGC面经文章地址：https://zhuanlan.zhihu.com/p/651076114

11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布！

码字不易，欢迎大家多多点赞：

算法工程师三年面试五年模拟文章地址：https://zhuanlan.zhihu.com/p/545374303

《三年面试五年模拟》github项目地址（希望大家能多多star）：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer

12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识，从0到1搭建AI绘画框架，从0到1使用AI绘画框架的保姆级教程，深入浅出介绍AI绘画框架的各模块功能，深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

AI绘画框架文章地址：https://zhuanlan.zhihu.com/p/673439761

13、GAN网络核心基础知识，网络架构，GAN经典变体模型，经典应用场景，GAN在AIGC时代的商业应用等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

GAN网络文章地址：https://zhuanlan.zhihu.com/p/663157306

14、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本，大家可以关注公众号WeThinkIn，并在后台【精华干货】菜单或者回复关键词“YOLO” 进行取用。

http://mp.weixin.qq.com/s?__biz=Mzg4NDYwOTUwNA==&mid=2247489713&idx=2&sn=ca601e151b5422aec07ddb77c0e9993f

WeThinkIn

Rocky相信人工智能，数据科学，商业逻辑，金融工具，终身成长，以及顺应时代的潮流会赋予我们超能力。