9月25日,Llama团队宣布发布了其最新版本Llama 3.2,此次更新包括了小型和中型视觉语言模型(LLMs)——即11B和90B模型,以及适用于边缘和移动设备的轻量级文本模型——1B和3B版本。
这些模型不仅包括预训练版本,还包含了指令调优版本,支持128K标记长度的上下文,旨在为边缘计算提供一流的本地任务处理能力,如摘要生成、指令跟随及文本重写等。
Llama团队评估了150多个涵盖多种语言的基准数据集的性能。
对于视觉LLM,评估了图像理解和视觉推理的基准性能。
还进行了广泛的人工评估,将Llama3.2 与真实场景中的竞争模型进行了比较。
对于11B和90B视觉模型而言,它们作为首批支持视觉任务的Llama模型,需要一种全新的架构来实现图像推理功能。
为此,开发团队在预训练的语言模型中引入了一组适配器权重,并通过一系列交叉注意力层将图像编码器表示整合进语言模型中。
适配器训练过程中使用了文本-图像对数据,以对齐图像和语言表示。
值得注意的是,在适配器训练期间,仅更新了图像编码器参数,而未对语言模型参数进行调整,从而确保了所有文本处理能力的完整保留,使开发者能够无缝替换先前版本的Llama模型。
Llama 3.2的1B和3B轻量级模型采用了剪枝和蒸馏技术从Llama 3.1 8B模型中提炼而成,不仅保持了原有网络性能,同时显著减小了模型体积,使其更易于部署在边缘设备上。
知识蒸馏过程中利用了更大规模的模型作为教师模型,以指导小型模型的学习过程,确保了小型模型能够继承较大模型的部分性能。
为了确保模型的安全性,团队推出了Llama Guard 3系列保护措施,包括针对11B视觉模型设计的Llama Guard 3 11B Vision,能够过滤包含文本或图像的输入提示及其响应。
另外还有针对1B模型优化后的Llama Guard 3 1B,通过剪枝和量化处理,使得模型大小从2,858MB减少到438MB,大大降低了部署成本。
本次发布还包括了首个官方的Llama Stack分布版本,简化了开发人员在单节点、本地、云端及设备上操作Llama模型的方式。
借助PyTorch ExecuTorch实现了设备上的分发,而在单节点环境中则采用Ollama进行分发。
同时,Llama Stack还支持基于云环境的分发,如AWS、Databricks等平台;本地环境方面,则有Dell等合作伙伴的支持。
Llama 3.2模型已经在官网和Hugging Face平台上提供下载,并可在广泛的生态系统中立即用于开发。
此外,Llama团队正与众多业界领先的技术公司合作,包括但不限于AMD、Google Cloud、IBM、Intel等,共同推动Llama模型的应用和技术发展。
直达链接:https://www.llama.com/
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】