Llama中文社区
官网
https://llamafamily.cn
今天凌晨,Llama 3.2 多模态AI模型发布,其中包括小型和中型视觉 LLM(11B 和 90B)以及适合边缘和移动设备的轻量级纯文本模型(1B 和 3B),包括预训练和指令调整版本。
多样化模型选择:
Llama 3.2引入了小型和中型视觉大语言模型(11B和90B),以及适用于边缘和移动设备的轻量级文本模型(1B和3B),这些模型支持预训练和指令微调版本。
强大的上下文处理能力:
1B和3B模型支持高达128K的上下文长度,非常适合于本地设备上的摘要、指令跟随和重写等用例。这些模型已在Qualcomm和MediaTek硬件上优化,以支持Arm处理器。
视觉理解能力:
11B和90B视觉模型在图像理解任务中表现超越了闭源模型,如Claude 3 Haiku。
与其他开放多模态模型不同,Llama 3.2提供了可微调的预训练和对齐模型,支持开发者使用torchtune进行自定义应用,并通过torchchat进行本地部署。
视觉模型
Llama 3.2的11B和90B模型支持图像推理用例,如文档级理解、图表和图形的说明,以及基于自然语言描述的视觉定位任务。这些模型能够提取图像中的细节,理解场景,并生成相应的文本描述。
轻量级模型
1B和3B模型具备强大的多语言文本生成和工具调用能力,支持开发者构建个性化的本地应用程序,确保数据隐私不离开设备。这些模型的本地运行带了瞬时响应和更高的隐私保护。
训练方法
轻量级模型是通过强大的教师模型来创建更小、更高效的模型,提升性能。Llama 3.2的1B和3B模型采用了两种方法:剪枝和蒸馏。
剪枝(Pruning):
这是一种减少模型大小的方法。对于1B和3B模型,从Llama 3.1的8B模型中进行了一次性结构剪枝,系统性地移除网络中的部分结构,同时调整权重和梯度,确保新模型能够保留原有模型的性能。
知识蒸馏(Knowledge Distillation):
这种方法利用较大的模型(教师模型)向较小的模型(学生模型)传递知识,使得小模型能够获得更好的表现。在Llama 3.2中,预训练阶段使用了来自Llama 3.1的8B和70B模型的输出作为目标,帮助小模型学习。
通过这两种方法,1B和3B模型变得更加高效,能够在设备上运行,同时保持优秀的性能表现。
后期训练
在后期训练中,采用与Llama 3.1相似的流程,通过多轮对齐来生成最终的聊天模型。
每一轮包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),并且将上下文长度扩展到128K个token,同时保持与预训练模型相同的质量。
此外,进行合成数据生成,通过仔细的数据处理和筛选,以确保高质量数据。这些数据经过精心组合,旨在优化摘要、改写、指令跟随、语言推理和工具使用等多个能力。
模型评估
初步评估显示,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础多模态模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。
Llama 3.2 3B 模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 相媲美。
社区即将上线Llama 3.2的模型下载并且开放API供大家使用
网址:https://llamafamily.cn/chat/#/
此外还会有各类基于Llama3.2的开源应用即将上线
网址:https://llamafamily.cn/store
敬请期待...
扫码加入Llama中文社区交流群,一起玩转大模型!
注:用飞书APP扫码
Llama45
人工智能41
LLM34
创业22
Llama3.12
Llama · 目录
上一篇