王者归来：开源大模型Llama 3正式发布（附下载链接）

百科 2024-04-19 09:22 上海

本周四，Meta最新发布的 8B 和 70B 参数的 Llama 3 模型可以说是 Llama 2 的重大飞跃，由于预训练和后训练（Post-training）的改进，本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最佳模型。与此同时，后训练过程的改进大大降低了模型出错率，进一步改善了一致性，并增加了模型响应的多样性。

Llama 3 将数据和规模提升到新的高度。Meta 表示，Llama 3 是在两个定制的 24K GPU 集群上、基于超过 15T token 的数据上进行了训练 —— 相当于 Llama 2 数据集的 7 倍还多，代码数据相当于 Llama 2 的 4 倍。从而产生了迄今为止最强大的 Llama 模型，Llama 3 支持 8K 上下文长度，是 Llama 2 容量的两倍。

此外，Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合，Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

与此同时，扎克伯格宣布：基于最新的 Llama 3 模型，Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Facebook 等全系应用，并单独开启了网站。另外还有一个图像生成器，可根据自然语言提示词生成图片。

Meta AI 网址：https://www.meta.ai/

扎克伯格表示，Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。

在多款应用中无缝集成

Meta AI 也可以在 Facebook、Instagram、WhatsApp 和 Messenger 中搜索。你可以在不离开应用程序的情况下访问来自整个网络的实时信息。假设你正在 Messenger 小组聊天中计划一次滑雪旅行。使用 Messenger 中的搜索功能，你可以要求 Meta AI 查找从纽约到科罗拉多的航班，并找出最不拥挤的周末去——所有这些操作都无需离开 Messenger 应用程序。

在 Feed 信息流中使用 Meta AI

当浏览 Facebook Feed 时，也可以访问 Meta AI。看到感兴趣的帖子？可以直接从帖子中要求 Meta AI 提供更多信息。所以，如果你看到一张冰岛极光的照片，你可以问 Meta AI 一年中什么时间最适合观赏北极光。

更「实时」的图片生成功能

我们正在提升图像生成的速度，让用户能够通过 Meta AI 的「imagine」功能，即时根据文字描述生成图片。从今天起，这项新功能将在美国地区的 WhatsApp 和 Meta AI 的网页版上以 beta 版推出。

您在输入文字的同时，就能实时看到图像逐渐呈现——每输入几个字母，图像就会随之变化，让您亲眼见证 Meta AI 如何将您的想象变为可视的现实。

现在生成的图片质量更高、更清晰，并且更擅长在图像中融入文字。无论是专辑封面设计、婚礼指示牌、生日装饰还是服装搭配灵感，Meta AI 都能够迅速且更出色地将您的创意点子转化为生动的图像。它还会给出有用的提示和创意，帮助你对图像进行修改和迭代，让你从最初的构想出发，不断优化设计。

Meta 表示，Llama 3 在多个关键的基准测试中性能优于业界先进同类模型，其在代码生成等任务上实现了全面领先，能够进行复杂的推理，可以更遵循指令，能够可视化想法并解决很多微妙的问题。

简而言之，Llama 3 的主要亮点包括：

基于超过 15T token 训练，相当于 Llama 2 数据集的 7 倍还多；
支持 8K 长文本，改进的 tokenizer 具有 128K token 的词汇量，可实现更好的性能；
在大量重要基准中均具有最先进性能；
新能力范畴，包括增强的推理和代码能力；
训练效率比 Llama 2 高 3 倍；
带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。

刚刚发布的 8B 和 70B 版本 Llama 3 模型已用于 Meta AI 助手，同时也面向开发者进行了开源，包括预训练和微调版本：

下载链接：https://llama.meta.com/llama-downloads/

Github：https://github.com/meta-llama/

模型架构

Llama 3 选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比，Llama 3 做了几个关键的改进，包括：

Llama 3 使用具有 128K token 词汇表的 tokenizer，可以更有效地对语言进行编码，从而显著提高模型性能；
为了提高 Llama 3 模型的推理效率，研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA)；
在 8192 个 token 的序列上训练模型，使用掩码确保自注意力不会跨越文档边界。

训练数据

为了训练最好的语言模型，构建一个庞大且高质量的训练数据集是关键所在。本着我们的设计理念，我们在预训练数据上投入了大量资源。Llama 3 的预训练基于超过 15T 的 Token，这些 Token 全部来源于公开可获取的数据。与 Llama 2 相比，我们的训练集规模扩大了七倍，代码数据量也增加了四倍。为了适应即将到来的多语言场景需求，Llama 3 的预训练数据中超过 5% 是非英语的高质量数据，覆盖了超过 30 种语言。尽管如此，我们预计这些语言的性能表现会弱于英语。

为了保障 Llama 3 能够在最优质的数据上进行训练，我们设计并实施了一系列先进的数据过滤流程。这些流程包括应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等，用以预判数据的优劣。我们意外发现，Llama 系列的前代产品在筛选优质数据上表现出奇地高效，因此我们利用 Llama 2 来生成用于 Llama 3 的文本质量分类器的训练集。

此外，我们开展了大量的实验，旨在寻找将不同来源的数据以最佳方式混合的策略，以构建我们的最终预训练数据集。这些实验帮助我们确定了一种数据组合，使得 Llama 3 能够在包括智力问答、STEM、编程、历史知识等多个应用场景中均有出色的表现。

预训练规模

为了让 Llama 3 充分吸收和利用我们的预训练数据，我们在扩大预训练规模上做了大量工作。具体而言，我们为后续的性能基准测试制定了一套详尽的 Scaling Laws。这套法则帮助我们精选出最佳的数据处理方案，并指导我们如何最高效地使用我们的计算资源。更重要的是，这些 scaling laws 让我们能在模型训练之前，就预测出在关键任务（比如 HumanEval 基准测试中的代码生成任务）上的最大模型性能。这样的预测能力确保了我们的最终模型在多样化的应用场景和能力上都能有出色的表现。

在开发 Llama 3 的过程中，我们对模型规模的效应有了新的发现。例如，对于一个 8B 参数的模型，Chinchilla 模型建议的训练计算量大约是 200B 个 Token，但我们的研究发现，即使在模型处理了比这个量大两个数量级的数据之后，性能仍在提升。无论是 8B 还是 70B 参数的模型，当我们将训练数据量提升到 15T 个 Token 时，它们的性能都还在以对数线性的方式提升。虽然大型模型在较少的计算资源下就能达到小型模型的性能，但由于推理阶段的高效率，小型模型通常更受青睐。

为了训练我们最大规格的 Llama 3 模型，我们采用了三种并行化技术：数据并行、模型并行和流水线并行。在 16K 个 GPU 上同时训练时，我们的最高效实现方式能够达到每个 GPU 超过 400 TFLOPS 的计算利用率。我们还特别构建了两个 24K GPU 的集群来进行模型训练。

为了提高 GPU 的使用效率，我们开发了一套先进的训练栈，它能够自动进行错误检测、处理和维护。此外，我们还大大提升了硬件的可靠性，改进了静默数据损坏的检测机制，并研发了新的可扩展存储系统，以降低检查点和回滚操作的开销。这些创新使得我们的训练效率达到了 95% 以上。总的来说，与 Llama 2 相比，Llama 3 的训练效率提升了大约三倍。

指令微调

为了充分释放预训练模型在聊天场景中的潜力，Meta 还对指令微调方法进行了创新。Llama 3 后训练方法用的是有监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）的组合。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。

此次模型质量的最大改进，来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习，也极大地提高了 Llama 3 在推理和编码任务上的性能。Meta 发现，如果你向模型提出一个它难以回答的推理问题，该模型有时会产生正确的推理轨迹：模型知道如何产生正确的答案，但不知道如何选择它。对偏好排序的训练使模型能够学习如何选择正确答案。

http://mp.weixin.qq.com/s?__biz=MjM5NjkzNTUwMQ==&mid=2650071997&idx=1&sn=ed617f0cf7ec1e0c255e5ef5b76fcef8

AI实践派

算法备案，大模型备案，数据出境，AI合规

197个大模型通过备案北京一地竟独占40%

上海徐汇区开启大模型备案奖励申报

上海34个大模型完成备案徐汇一区独占21个

重磅发布！《人工智能安全治理框架》1.0版来了

我国完成备案并为公众提供服务的AI大模型已超过180多个

全国教育大模型完成备案已达40个

工信部部长：构建算法安全治理体系，完善算法备案等监管制度

我司总经理张戈参加第十届中国车联网大会暨智慧交通博览会

数据安全这一块让总理费心了

中央网信办主任：优化大模型备案流程降低企业合规成本

免费分享！算法备案流程以及所需资料

这三种情形企业不需要办理大模型备案

有关于算法备案的五大误区你知道吗？

奖励100万！成都三家通过大模型备案获巨额奖金

马斯克的X’ Grok-1大模型预训练：在9个欧盟国家遭受举报！

最高200万！苏州成都杭州的这些AI政策补贴，你拿到了吗？

第七批算法备案公示！487个产品通过

欧盟人工智能法案现已生效：全球企业实用指南

最高5000万！深圳的这些AI政策补贴，你拿到了吗？

欧洲最严AI法案即将实施，国内出海企业该何去何从？

最高5000万！北京的这些AI政策补贴，你拿到了吗？

被罚19亿韩元！阿里再次在韩国被罚惨了

最高500万！上海的AI政策补贴你拿到了吗？

不备案的后果：违规提供AIGC服务遭处罚

必看！一文带你分清大模型备案和互联网算法备案的区别

大模型备案，这样操作就对了！全程指导助你成功备案

算法备案申请！这些条件你满足了吗？

揭秘！中国AI产业巨头背后的秘密，算法备案清单大揭秘！

为何要进行算法备案？保障数据安全不容小觑！

Kimi 浏览器插件来了！还有这些新功能

中国AI实力爆发！Hugging Face排行榜揭示真相

AI赚钱新趋势！从焦虑到回归商业本质

网信办发布深度合成服务算法备案清单2024年6月（附完整备案名单）

马斯克xAI融资60亿美元，宣布打造世界第一超算中心

美国「开源 AI 大模型」出口限制法案：43 票赞成、3 票反对，第一轮通过

AI出海的朋友们，填问卷，咱们一起探讨未来！

OpenAI年度产品发布会：GPT-4o完全免费，实时语音视频交互震撼全场

完成大模型及其算法备案最高可获100万！

王者归来：开源大模型Llama 3正式发布（附下载链接）

阿里系排第一！网信办公示：940个深度合成服务通过算法备案，北京、广东、上海、浙江四地区垄断榜单！

【科技革命】AI技术改变游戏规则，开启智能化玩具时代！

VC/PE市场在这个春天迎来了一次急刹车

服务型机器人制造商完成8100万美元B轮融资，软银是股东

金融税务科技、医疗服务机器人、元宇宙、智能营销项目投资机会

医疗服务机器人控股权转让

全球独角兽数量达1058家《胡润全球独角兽榜》最新出炉

东北唯一独角兽，要IPO了

哪些国家跟俄罗斯做生意最多？数据揭秘

毕马威首次发布《初探元宇宙》报告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉