王者归来:开源大模型Llama 3正式发布(附下载链接)

百科   2024-04-19 09:22   上海  

本周四,Meta最新发布的 8B 和 70B 参数的 Llama 3 模型可以说是 Llama 2 的重大飞跃,由于预训练和后训练(Post-training)的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最佳模型。与此同时,后训练过程的改进大大降低了模型出错率,进一步改善了一致性,并增加了模型响应的多样性。 


Llama 3 将数据和规模提升到新的高度。Meta 表示,Llama 3 是在两个定制的 24K GPU 集群上、基于超过 15T token 的数据上进行了训练 —— 相当于 Llama 2 数据集的 7 倍还多,代码数据相当于 Llama 2 的 4 倍。从而产生了迄今为止最强大的 Llama 模型,Llama 3 支持 8K 上下文长度,是 Llama 2 容量的两倍。



此外,Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。


与此同时,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Facebook 等全系应用,并单独开启了网站。另外还有一个图像生成器,可根据自然语言提示词生成图片。


Meta AI 网址:https://www.meta.ai/



扎克伯格表示,Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。


在多款应用中无缝集成

Meta AI 也可以在 Facebook、Instagram、WhatsApp 和 Messenger 中搜索。你可以在不离开应用程序的情况下访问来自整个网络的实时信息。假设你正在 Messenger 小组聊天中计划一次滑雪旅行。使用 Messenger 中的搜索功能,你可以要求 Meta AI 查找从纽约到科罗拉多的航班,并找出最不拥挤的周末去——所有这些操作都无需离开 Messenger 应用程序。

在 Feed 信息流中使用 Meta AI

当浏览 Facebook Feed 时,也可以访问 Meta AI。看到感兴趣的帖子?可以直接从帖子中要求 Meta AI 提供更多信息。所以,如果你看到一张冰岛极光的照片,你可以问 Meta AI 一年中什么时间最适合观赏北极光。

更「实时」的图片生成功能

我们正在提升图像生成的速度,让用户能够通过 Meta AI 的「imagine」功能,即时根据文字描述生成图片。从今天起,这项新功能将在美国地区的 WhatsApp 和 Meta AI 的网页版上以 beta 版推出。

您在输入文字的同时,就能实时看到图像逐渐呈现——每输入几个字母,图像就会随之变化,让您亲眼见证 Meta AI 如何将您的想象变为可视的现实。

现在生成的图片质量更高、更清晰,并且更擅长在图像中融入文字。无论是专辑封面设计、婚礼指示牌、生日装饰还是服装搭配灵感,Meta AI 都能够迅速且更出色地将您的创意点子转化为生动的图像。它还会给出有用的提示和创意,帮助你对图像进行修改和迭代,让你从最初的构想出发,不断优化设计。

Meta 表示,Llama 3 在多个关键的基准测试中性能优于业界先进同类模型,其在代码生成等任务上实现了全面领先,能够进行复杂的推理,可以更遵循指令,能够可视化想法并解决很多微妙的问题。


简而言之,Llama 3 的主要亮点包括:


  • 基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;

  • 支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;

  • 在大量重要基准中均具有最先进性能;

  • 新能力范畴,包括增强的推理和代码能力;

  • 训练效率比 Llama 2 高 3 倍;

  • 带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。


刚刚发布的 8B 和 70B 版本 Llama 3 模型已用于 Meta AI 助手,同时也面向开发者进行了开源,包括预训练和微调版本:


下载链接:https://llama.meta.com/llama-downloads/

Github:https://github.com/meta-llama/


模型架构


Llama 3 选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:


  • Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;

  • 为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);

  • 在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

训练数据

为了训练最好的语言模型,构建一个庞大且高质量的训练数据集是关键所在。本着我们的设计理念,我们在预训练数据上投入了大量资源。Llama 3 的预训练基于超过 15T 的 Token,这些 Token 全部来源于公开可获取的数据。与 Llama 2 相比,我们的训练集规模扩大了七倍,代码数据量也增加了四倍。为了适应即将到来的多语言场景需求,Llama 3 的预训练数据中超过 5% 是非英语的高质量数据,覆盖了超过 30 种语言。尽管如此,我们预计这些语言的性能表现会弱于英语。

为了保障 Llama 3 能够在最优质的数据上进行训练,我们设计并实施了一系列先进的数据过滤流程。这些流程包括应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等,用以预判数据的优劣。我们意外发现,Llama 系列的前代产品在筛选优质数据上表现出奇地高效,因此我们利用 Llama 2 来生成用于 Llama 3 的文本质量分类器的训练集。

此外,我们开展了大量的实验,旨在寻找将不同来源的数据以最佳方式混合的策略,以构建我们的最终预训练数据集。这些实验帮助我们确定了一种数据组合,使得 Llama 3 能够在包括智力问答、STEM、编程、历史知识等多个应用场景中均有出色的表现。

预训练规模

为了让 Llama 3 充分吸收和利用我们的预训练数据,我们在扩大预训练规模上做了大量工作。具体而言,我们为后续的性能基准测试制定了一套详尽的 Scaling Laws。这套法则帮助我们精选出最佳的数据处理方案,并指导我们如何最高效地使用我们的计算资源。更重要的是,这些 scaling laws 让我们能在模型训练之前,就预测出在关键任务(比如 HumanEval 基准测试中的代码生成任务)上的最大模型性能。这样的预测能力确保了我们的最终模型在多样化的应用场景和能力上都能有出色的表现。

在开发 Llama 3 的过程中,我们对模型规模的效应有了新的发现。例如,对于一个 8B 参数的模型,Chinchilla 模型建议的训练计算量大约是 200B 个 Token,但我们的研究发现,即使在模型处理了比这个量大两个数量级的数据之后,性能仍在提升。无论是 8B 还是 70B 参数的模型,当我们将训练数据量提升到 15T 个 Token 时,它们的性能都还在以对数线性的方式提升。虽然大型模型在较少的计算资源下就能达到小型模型的性能,但由于推理阶段的高效率,小型模型通常更受青睐。

为了训练我们最大规格的 Llama 3 模型,我们采用了三种并行化技术:数据并行、模型并行和流水线并行。在 16K 个 GPU 上同时训练时,我们的最高效实现方式能够达到每个 GPU 超过 400 TFLOPS 的计算利用率。我们还特别构建了两个 24K GPU 的集群来进行模型训练。

为了提高 GPU 的使用效率,我们开发了一套先进的训练栈,它能够自动进行错误检测、处理和维护。此外,我们还大大提升了硬件的可靠性,改进了静默数据损坏的检测机制,并研发了新的可扩展存储系统,以降低检查点和回滚操作的开销。这些创新使得我们的训练效率达到了 95% 以上。总的来说,与 Llama 2 相比,Llama 3 的训练效率提升了大约三倍。

指令微调


为了充分释放预训练模型在聊天场景中的潜力,Meta 还对指令微调方法进行了创新。Llama 3 后训练方法用的是有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。


此次模型质量的最大改进,来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。


通过 PPO 和 DPO 从偏好排序中学习,也极大地提高了 Llama 3 在推理和编码任务上的性能。Meta 发现,如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择它。对偏好排序的训练使模型能够学习如何选择正确答案。


AI实践派
算法备案,大模型备案,数据出境,AI合规
 最新文章