多模态大模型Llama 3.2 发布!

文摘   2024-09-26 12:02   福建  

在 Meta Connect 2024 活动中,马克·扎克伯格 (Mark Zuckerberg) 宣布了新的 Llama 3.2 系列模型,对标 OpenAI 的 o1 和 o1 mini模型。此外,Llama 3.2 模型首次配备了多模态图像支持。

  • Meta 发布了 Llama 3.2 系列模型,其中包括较小的纯文本模型 Llama 3.2 1B 和 3B,用于手机和笔记本电脑上的设备任务。

  • 另外两种型号是 Llama 3.2 11B 和 90B,它们带来了多模态和视觉功能,也可以分析图像。

  • 您可以通过网络上的 Meta AI 聊天机器人、WhatsApp、Facebook、Instagram 和 Messenger 开始使用 Llama 3.2 11B 和 90B 视觉模型。


Llama 3.2 模型优化

Llama 3.2 有两个较小的模型,包括用于设备任务的 Llama 3.2 1B 和 3B。Meta 表示,这些小型模型经过优化,可在移动设备和笔记本电脑上运行。

Llama 3.2 1B 和 3B 模型最适合于设备上汇总、指令跟踪、重写,甚至函数调用以在本地创建操作意图。Meta 还声称,其最新的 Llama 型号的性能优于谷歌的 Gemma 2 2.6B 和Microsoft的 Phi-3.5-mini。


技术原理

Llama 3.2的技术原理主要基于深度学习中的Transformer架构,这是一种以自注意力机制为核心的神经网络结构。通过堆叠多层Transformer模块,Llama 3.2能够捕捉到文本和图像中的复杂依赖关系,进而实现高度准确的自然语言理解与生成以及图像理解。


在训练过程中,Llama 3.2采用了大规模并行计算框架,将模型训练与推理过程分散到多个计算节点上,显著提高了模型的训练速度与推理效率。同时,通过精细化调优策略如梯度累积、混合精度训练等,加速了模型收敛,提高了训练稳定性。

基本上,开发人员可以在 Qualcomm 和 MediaTek 平台上部署这些模型,以支持许多 AI 用例。Meta 进一步表示,Llama 3.2 1B 和 3B 模型是从较大的 Llama 3.1、8B 和 70B 模型中删除和蒸馏而来的。

Llama 3.2 应用前景

现在来到令人兴奋的视觉模型,它们有更大的尺寸 - Llama 3.2 11B 和 Llama 3.2 90B。它们取代了旧的纯文本 Llama 3.1、8B 和 70B 型号。Meta 继续说,Llama 3.2、11B 和 90B 模型在视觉推理方面可与 Anthropic 的 Claude 3 Haiku 和 OpenAI 的 GPT-4o mini 等封闭模型相媲美。

这些新的 Llama 3.2 11B 和 90B 视觉模型将通过网络上的 Meta AI 聊天机器人、WhatsApp、Instagram、Facebook 和 Messenger 提供。由于这些是视觉模型,因此您可以上传图像并询问有关它们的问题。例如,您可以上传食谱的图像,它可以分析并为您提供有关如何制作它的说明。您可以让 Meta AI 捕捉您的脸部并在大量不同的场景和肖像中重新想象自己。


AI科技前沿
关注最重要的科技前沿!
 最新文章