Llama 3.2 加速 Open AI 发展:开源视觉模型与边缘AI齐头并进

文摘   2024-09-27 07:28   美国  
  • • Meta 发布 Llama 3.2,包括支持视觉推理的模型和轻量级文本模型,适用于边缘和移动设备。

  • • Llama 3.2 在开放性、性能和成本效益方面继续领先,挑战了封闭模型的主导地位。

  • • Llama Stack 和 Llama Guard 的引入简化了 Llama 模型的部署和负责任的使用。

Meta 再放大招!Llama 3.2 强势来袭,开源视觉和边缘 AI 迎来新突破!

还记得两个月前 Meta 推出的 Llama 3.1 模型系列吗?尤其是那个首个开放的边界级 AI 模型 405B,它在业界掀起了不小的波澜。Llama 3.1 模型系列自发布以来,特别是首个开放的边界级人工智能模型 405B,在短短两个月内取得了令人瞩目的成果,包括 Llama 使用量在 5 月到 7 月期间翻了一番。但构建这些强大的模型需要海量的计算资源和专业的 AI 知识,这无疑将许多开发者拒之门外。

不过,好消息来了!就在 Connect 大会上,Meta 创始人兼 CEO 马克·扎克伯格宣布,Llama 3.2 正式发布!这次,Meta 不仅带来了更强大的模型,还将目光投向了更广阔的应用场景:边缘设备和移动设备。Llama 3.2 包括适用于特定边缘和移动设备的小型和中型视觉大型语言模型 (LLM)(11B 和 90B)以及轻量级的纯文本模型(1B 和 3B)。这意味着,即使你没有强大的计算资源,也能轻松体验 Llama 的魅力,开发出属于自己的 AI 应用!

Llama 的开源之路:开放、创新、合作

从 Llama 首次亮相到今天,仅仅过去了一年半。在这短短的时间里,Llama 取得了令人瞩目的成就。今年,Llama 的使用量实现了 10 倍的增长,并成为了负责任创新的标杆。Llama 在开放性、可修改性和成本效益方面一直处于领先地位,其性能甚至可以与那些封闭的模型相媲美,在某些领域还更胜一筹。

Meta 坚信,开放性是推动创新的关键,也是 AI 未来发展的正确方向。因此,他们将继续分享最新的研究成果,并与合作伙伴和开发者社区紧密合作,共同构建一个更加繁荣的开源 AI 生态。

Llama 3.2 核心特性深度解析

视觉模型:赋予 AI “看”的智慧

Llama 3.2 系列中最大的两个模型,11B 和 90B,是开源 LLM 领域的一大突破!它们支持图像推理用例,包括:

  • • 文档级理解:不仅能理解文本,还能理解图表等复杂内容,让 AI 能够“读懂”各种文档。例如,用户可以询问上一年中哪个月份他们的小企业销售额最高,Llama 3.2 可以根据提供的图表进行推理并快速给出答案。

  • • 图像字幕:根据图像内容自动生成描述性文字,帮助用户快速了解图像信息。11B 和 90B 模型还可以通过从图像中提取细节、理解场景,然后编写一两句话作为图像字幕来帮助讲述故事,从而弥合视觉和语言之间的差距。

  • • 视觉基础:根据自然语言描述,在图像中精确定位物体,例如用户可以问“地图上哪条路线最陡峭?”,Llama 3.2 就能根据地图信息给出答案。另一个例子是,该模型可以根据地图进行推理,并帮助回答诸如徒步旅行何时可能会变得更陡峭或地图上标记的特定路线的距离等问题。


Llama 3.2 视觉模型性能评估


为了实现这些强大的视觉能力,Meta 采用了一种全新的模型架构:

  • • 适配器权重:将预训练的图像编码器集成到预训练的语言模型中,让模型能够同时处理图像和文本信息。为了增加图像输入支持,Meta 训练了一组适配器权重,将预训练的图像编码器集成到预训练的语言模型中。

  • • 交叉注意层:将图像编码器表示馈送到语言模型中,使图像表示与语言表示一致,让模型能够“理解”图像的含义。适配器由一系列交叉注意层组成,这些层将图像编码器表示馈送到语言模型中。Meta 在文本图像对上训练适配器,以使图像表示与语言表示一致。在适配器训练期间,Meta 还更新了图像编码器的参数,但有意没有更新语言模型参数。通过这样做,Meta 保留了所有纯文本功能的完整性,为开发者提供了 Llama 3.1 模型的直接替代方案。

Meta 的训练流程也经过精心设计:

  • • 多阶段预训练:首先在大型噪声(图像、文本)对数据上进行预训练,然后在中等规模的高质量域内和知识增强(图像、文本)对数据上进行训练,确保模型能够学习到丰富的知识。Meta 的训练流程包括多个阶段,从预训练的 Llama 3.1 文本模型开始。首先,Meta 添加图像适配器和编码器,然后在大型噪声(图像、文本)对数据上进行预训练。接下来,Meta 在中等规模的高质量域内和知识增强(图像、文本)对数据上进行训练。

  • • 微调和安全缓解:通过监督微调、拒绝抽样和直接偏好优化等技术,提高模型的性能和安全性,并添加安全缓解数据,确保模型的输出是安全可靠的。在后期训练中,Meta 使用与文本模型类似的方法,通过在监督微调、拒绝抽样和直接偏好优化上进行多轮对齐。Meta 利用 Llama 3.1 模型来过滤和扩充域内图像上的问题和答案,并使用奖励模型对所有候选答案进行排名,以提供高质量的微调数据,从而利用合成数据生成。Meta 还添加了安全缓解数据,以生成具有高安全级别的模型,同时保持模式的有效性。

轻量级模型:将 AI 力量带到边缘

Llama 3.2 中的 1B 和 3B 模型是专为边缘和移动设备设计的轻量级模型。它们具有强大的多语言文本生成和工具调用能力,例如:

  • • 多语言文本生成:支持多种语言的文本生成,让 AI 应用能够服务更广阔的用户群体。这些模型使开发者能够构建具有强大隐私性的个性化设备代理应用程序,其中数据永远不会离开设备。

  • • 工具调用:可以调用外部工具来完成特定任务,例如发送邮件、设置日历等,让 AI 应用更加实用。例如,此类应用程序可以帮助汇总最近收到的 10 条消息,提取行动项,并利用工具调用直接发送日历邀请以进行后续会议。

在本地运行这些模型具有两大优势。首先,由于处理是在本地完成的,因此提示和响应可以感觉是即时的。其次,在本地运行模型可以通过不将消息和日历信息等数据发送到云端来维护隐私,从而使整个应用程序更加私密。由于处理是在本地进行的,因此应用程序可以清楚地控制哪些查询保留在设备上,哪些查询可能需要由云中的更大模型来处理。


Llama 3.2 轻量级模型性能对比


为了在有限的资源下实现高性能,Meta 使用了两种关键技术:

  • • 剪枝:系统地删除网络的某些部分,并调整权重和梯度的大小,创建更小、更高效的模型。剪枝使 Meta 能够在尽可能多地恢复知识和性能的同时,减少 Llama 模型系列中现有模型的大小。对于 1B 和 3B 模型,Meta 采用了一种从 Llama 3.1 8B 中一次性使用结构化剪枝的方法。这包括系统地删除网络的某些部分,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

  • • 蒸馏:使用较大的网络将知识传授给较小的网络,让较小的模型能够获得比从头开始更好的性能。知识蒸馏使用较大的网络将知识传授给较小的网络,其理念是,较小的模型可以使用教师模型获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B,Meta 将 Llama 3.1 8B 和 70B 模型的 logits 纳入模型开发的预训练阶段,其中这些较大模型的输出(logits)被用作标记级目标。剪枝后使用知识蒸馏来恢复性能。

通过这些技术,Llama 3.2 的轻量级模型可以在边缘设备上高效运行,为构建个性化、设备上的代理应用程序提供了新的可能。例如,可以开发一个 AI 应用,帮助用户汇总最近收到的消息、提取行动项,并自动发送日历邀请进行后续会议,而且所有数据都只在用户的设备上处理,不会上传到云端,充分保障用户隐私!

Llama 3.2 的优势:开放、高效、安全

性能评估:实力比肩封闭模型

Meta 对 Llama 3.2 进行了全面的性能评估,结果表明:

  • • 视觉模型:在图像识别和一系列视觉理解任务上的性能可与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。Meta 的评估表明,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上的性能可与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。

  • • 轻量级模型:3B 模型在遵循指令、摘要、提示重写和工具使用等任务上的性能优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型的性能与 Gemma 相当。3B 模型在遵循指令、摘要、提示重写和工具使用等任务上的性能优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型的性能与 Gemma 相当。Meta 在涵盖多种语言的 150 多个基准数据集上评估了模型的性能。对于视觉 LLM,Meta 在图像理解和视觉推理的基准测试上评估了其性能。


Llama 3.2 视觉模型与其他模型在 ScienceQA 基准测试上的性能比较


开放性和可定制性:构建属于你的 AI 应用

Llama 3.2 不仅性能强大,而且开放易用:

  • • 模型获取:你可以在 llama.com 和 Hugging Face 下载 Llama 3.2 模型,也可以在 Meta 广泛的合作伙伴平台上直接进行开发。Meta 正在提供 Llama 3.2 模型下载,网址为 llama.com 和 Hugging Face,同时还可以在 Meta 广泛的合作伙伴平台上直接进行开发。

  • • 设备合作伙伴Meta 还与 Arm、联发科和高通等设备合作伙伴合作,确保 Llama 3.2 能够在各种边缘和移动设备上运行。为了使社区能够在这些模型上进行创新,Meta 与全球最大的两家移动系统芯片(SoC)公司高通和联发科,以及为 99% 的移动设备提供基础计算平台的 Arm 密切合作。今天发布的权重基于 BFloat16 数字。Meta 的团队正在积极探索量化变体,这些变体将运行得更快,Meta 希望很快能分享更多相关信息。

边缘和移动设备支持:AI 无处不在

Llama 3.2 的轻量级模型专为边缘和移动设备设计,具有以下优势:

  • • 即时响应:由于处理是在本地完成的,因此提示和响应速度极快,用户体验更加流畅。首先,由于处理是在本地完成的,因此提示和响应可以感觉是即时的。

  • • 数据隐私:数据不会离开用户的设备,充分保障用户隐私安全。其次,在本地运行模型可以通过不将消息和日历信息等数据发送到云端来维护隐私,从而使整个应用程序更加私密。

  • • 灵活控制:应用程序可以控制哪些查询在本地处理,哪些查询需要上传到云端,兼顾效率和隐私。由于处理是在本地进行的,因此应用程序可以清楚地控制哪些查询保留在设备上,哪些查询可能需要由云中的更大模型来处理。

Llama Stack 和 Llama Guard:让 AI 开发更简单、更安全

Llama Stack:你的 AI 工具箱

Llama Stack 是 Meta 为 Llama 模型开发提供的一套工具和 API,它可以帮助你:

  • • 定制 Llama 模型:根据你的特定需求对 Llama 模型进行微调,使其更适合你的应用场景。今年 7 月,Meta 发布了关于 Llama Stack API 的征求意见稿,这是一个用于规范工具链组件(微调、合成数据生成)的标准化接口,用于定制 Llama 模型和构建代理应用程序。参与度很高。

  • • 构建代理应用程序:使用 Llama Stack 提供的 API,轻松构建能够与外部世界交互的 AI 应用。从那时起,Meta 一直在努力使 API 成为现实。Meta 为推理、工具使用和 RAG 构建了 API 的参考实现。此外,Meta 一直在与合作伙伴合作,使他们成为 API 的提供者。

  • • 简化部署:Llama Stack 支持云、本地和边缘部署,让你可以方便地将 AI 应用部署到各种环境中。最后,Meta 引入了 Llama Stack 发行版,作为一种打包多个 API 提供者的方法,这些提供者可以很好地协同工作,为开发者提供单一端点。Meta 现在正在与社区分享一种简化且一致的体验,使他们能够在多种环境中使用 Llama 模型,包括本地、云、单节点和设备上。

完整的发行版包括:

  1. 1. Llama CLI(命令行界面),用于构建、配置和运行 Llama Stack 发行版

  2. 2. 多种语言的客户端代码,包括 python、node、kotlin 和 swift

  3. 3. 用于 Llama Stack 发行版服务器和代理 API 提供者的 Docker 容器

  4. 4. 多种发行版

    1. 1. 通过 Meta 内部实现和 Ollama 实现的单节点 Llama Stack 发行版

    2. 2. 通过 AWS、Databricks、Fireworks 和 Together 实现的云 Llama Stack 发行版

    3. 3. 通过 PyTorch ExecuTorch 在 iOS 上实现的设备上 Llama Stack 发行版

    4. 4. 由 Dell 支持的本地 Llama Stack 发行版

Meta 期待与开发者和合作伙伴合作,简化使用 Llama 模型构建的所有方面,并欢迎反馈。

Llama Stack 架构图


Llama Guard:守护 AI 安全

Llama Guard 是一款安全解决方案,旨在帮助开发者构建安全可靠的 AI 应用。它可以:

  • • 过滤有害内容:过滤文本和图像提示/响应中的有害内容,防止 AI 应用被滥用。首先,Meta 将发布 Llama Guard 3 11B Vision,它旨在支持 Llama 3.2 的新图像理解能力,并过滤对这些提示的文本+图像输入提示或文本输出响应。

  • • 促进负责任的使用:帮助开发者遵循负责任的 AI 开发原则,确保 AI 应用的安全性。在 Meta 之前发布的版本和支持负责任创新的持续努力的基础上,今天 Meta 将为其安全保障系列添加新的更新:

  • • 开源易用:Llama Guard 集成到 Meta 的参考实现、演示和应用程序中,并已开源,供开发者社区使用。这些新的解决方案已集成到 Meta 的参考实现、演示和应用程序中,并已准备好供开源社区在第一天使用。

其次,随着 Meta 发布 1B 和 3B Llama 模型以用于设备上等更受限制的环境中,Meta 还对 Llama Guard 进行了优化,以大幅降低其部署成本。Llama Guard 3 1B 基于 Llama 3.2 1B 模型,并经过剪枝和量化,使其大小从 2,858 MB 降至 438 MB,使其部署效率比以往任何时候都高。

Llama 3.2:未来已来

Llama 3.2 的发布,标志着开源 AI 领域又向前迈进了一大步。Meta 相信,Llama 3.2 将会惠及更多人,并推动 AI 技术在更广泛的领域得到应用。他们将继续与合作伙伴和开发者社区紧密合作,共同构建一个更加开放、创新、安全的 AI 生态。

Meta 期待看到开发者们利用 Llama 3.2 创造出更多令人惊叹的 AI 应用!未来已来,让我们一起拥抱 AI 的无限可能!

相关链接

  • • Llama 网站:https://www.llama.com/

  • • Llama 3.2 博客文章:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

  • • Hugging Face Llama 3.2 页面:https://huggingface.co/meta-llama

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章