北京时间,2024 年 9 月 26 日 凌晨,Meta 发布 Llama 3.2。本次发布,包含 4 种尺寸的模型,包括 1B、3B的端侧小模型,可用于手机等边缘设备,和11B、 90B的多模态大模型,用于替代 Llama 3.1 8B 和 70B。主要参数如下:
不支持中文
128k上下文
训练数据截至2023年12月
使用了GQA(Grouped-Query Attention )
对于多模态模型:使用了6B数量的图像文本对训练
首先看下多模态的两个模型在benchmark上的结果:
多模态版本的两个模型,方法也是延续了标准的MLLM范式。训练流程由多个阶段组成,从预训练的Llama 3.1文本模型开始。首先,添加图像编码器和adpater,然后在大规模带有噪声的图像文本对上进行预训练。接下来,在中等规模的高质量图像文本对数据上进行第二阶段训练训练。
在后训练中,Llama3.2使用与文本模型类似的方法,SFT、拒绝采样和DPO,进行几轮对齐。利用Llama 3.1模型生成合成数据,在域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排名,以提供高质量的微调数据。同时还添加了增强模型安全性的训练数据。
对于两个小模型,则使用了剪枝和蒸馏的方法,让大模型的能力尽量多在小模型上也能保留。
Ak大佬部署的免费demo:
https://huggingface.co/spaces/akhaliq/Llama-Vision-Together
官方huggingface仓库:
https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
点击👇关注 “思源数据科学”
👇点个“赞”和“在看”吧