TLDR
Meta 重磅发布 Llama 3.1,宣称这是迄今为止规模最大、性能最佳的开源 AI 模型,在多个基准测试中力压 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。Llama 3.1 不仅性能强悍,多语言能力出众,其开源特性更赋予开发者前所未有的自由和控制力。扎克伯格豪言,Meta AI 将在今年年底前超越 ChatGPT,成为全球最受欢迎的 AI 助手。
开源 AI 的 Linux 时刻?
回顾高性能计算的早期,各大科技公司都醉心于打造自己的闭源 Unix 版本,彼时难以想象会有其他路径能够催生如此先进的软件。然而,开源 Linux 最终获得了成功——最初是因为它允许开发人员自由修改代码,成本也更低廉;随着时间的推移,它变得更加先进、安全,并拥有更广泛的生态系统,支持比任何闭源 Unix 更多的功能。如今,Linux 已经成为云计算和大多数移动设备操作系统行业标准的基础,我们都受益于它带来的更优质产品。
扎克伯格认为,AI 领域也将重演这一幕。今天,一些科技公司正在开发领先的闭源 AI 模型,但开源正在迎头赶上。去年,Llama 2 只能与前沿技术之后的老一代模型相媲美。今年,Llama 3 已经具备与最先进模型竞争的实力,并在某些领域处于领先地位。Meta 预计,从明年开始,未来的 Llama 模型将成为业界最先进的模型。但即使在今天,Llama 在开放性、可修改性和成本效益方面也已占据优势。
Llama 3.1:向行业标准发起冲击
Meta 正朝着开源 AI 成为行业标准的目标稳步迈进。今天,Meta 发布了 Llama 3.1 405B,这是第一个前沿级别的开源 AI 模型,以及全新改进的 Llama 3.1 70B 和 8B 模型。除了性能优势之外,405B 模型的开源特性将使其成为微调和蒸馏小型模型的理想选择。
Llama 3.1 的最大版本拥有 4050 亿个参数,使用超过 16,000 个英伟达昂贵的 H100 GPU 进行训练。虽然 Meta 没有透露开发 Llama 3.1 的成本,但仅根据英伟达芯片的成本就可以推测,其成本高达数亿美元。
扎克伯格:开源 AI 的未来更光明
那么,考虑到如此高昂的成本,Meta 为什么要继续免费提供 Llama,而且只要求拥有数亿用户的公司获得批准呢?扎克伯格在 Meta 公司博客上发表的一篇文章中指出,开源 AI 模型将超越专有模型——而且改进速度已经更快——就像 Linux 成为支持当今大多数手机、服务器和小工具的开源操作系统一样。
他将 Meta 对开源 AI 的投资比作其早期的“开放计算项目”。该项目通过让惠普等外部公司在 Meta 建设自身容量的过程中帮助改进和标准化其数据中心设计,为 Meta 节省了“数十亿美元”。展望未来,他预计 AI 领域也会出现同样的情况,并写道:“我相信 Llama 3.1 的发布将成为业界的一个转折点,大多数开发人员将开始主要使用开源。”
Llama 3.1:技术细节
模型信息
Meta Llama 3.1 系列多语言大型语言模型 (LLM) 是一个包含 8B、70B 和 405B 三种规模的预训练和指令微调生成模型(文本输入/文本输出)。Llama 3.1 指令微调纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准测试中,其性能优于许多现有的开源和闭源聊天模型。
模型开发者: Meta
模型架构: Llama 3.1 是一种自回归语言模型,使用优化的 Transformer 架构。微调版本使用监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 来与人类对有用性和安全性的偏好保持一致。
训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | GQA | 词元数量 | 知识截止日期 | |
Llama 3.1(纯文本) | 来自公开可用在线数据的新组合。 | 8B | 多语言文本 | 多语言文本和代码 | 128k | 是 | 15T+ | 2023 年 12 月 |
70B | 多语言文本 | 多语言文本和代码 | 128k | 是 | ||||
405B | 多语言文本 | 多语言文本和代码 | 128k | 是 |
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Llama 3.1 模型系列。词元数量仅指预训练数据。所有模型版本都使用分组查询注意力 (GQA) 来提高推理可扩展性。
模型发布日期: 2024 年 7 月 23 日。
状态: 这是一个在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型安全性,未来将发布微调模型的新版本。
Llama 3.1 的关键能力
Llama 3.1 家族模型拥有一系列强大的功能:
• 多语言输入和输出: 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
• 长上下文窗口: 最高支持 128k 词元,可以处理更长的文本输入。
• 工具使用: 可以与搜索引擎、数据库等外部工具集成,完成更复杂的任务。
• 代码生成和解释: 可以生成代码,并利用代码解释器执行代码。
• 代理行为: 可以根据用户的指令,自主地规划和执行一系列操作,例如预订航班、发送电子邮件等。
• 合成数据生成: 可以生成高质量的合成数据,用于训练其他 AI 模型。
• 模型蒸馏: 可以将大型模型的知识蒸馏到小型模型中,降低模型的部署成本和延迟。
预训练模型基准测试
类别 | 基准测试 | # Shots | 指标 | Llama 3 8B | Llama 3.1 8B | Llama 3 70B | Llama 3.1 70B | Llama 3.1 405B |
通用 | MMLU | 5 | macro_avg/acc_char | 66.7 | 66.7 | 79.5 | 79.3 | 85.2 |
MMLU-Pro (CoT) | 5 | macro_avg/acc_char | 36.2 | 37.1 | 55.0 | 53.8 | 61.6 | |
AGIEval English | 3-5 | average/acc_char | 47.1 | 47.8 | 63.0 | 64.6 | 71.6 | |
CommonSenseQA | 7 | acc_char | 72.6 | 75.0 | 83.8 | 84.1 | 85.8 | |
Winogrande | 5 | acc_char | - | 60.5 | - | 83.3 | 86.7 | |
BIG-Bench Hard (CoT) | 3 | average/em | 61.1 | 64.2 | 81.3 | 81.6 | 85.9 | |
ARC-Challenge | 25 | acc_char | 79.4 | 79.7 | 93.1 | 92.9 | 96.1 | |
知识推理 | TriviaQA-Wiki | 5 | em | 78.5 | 77.6 | 89.7 | 89.8 | 91.8 |
阅读理解 | SQuAD | 1 | em | 76.4 | 77.0 | 85.6 | 81.8 | 89.3 |
QuAC (F1) | 1 | f1 | 44.4 | 44.9 | 51.1 | 51.1 | 53.6 | |
BoolQ | 0 | acc_char | 75.7 | 75.0 | 79.0 | 79.4 | 80.0 | |
DROP (F1) | 3 | f1 | 58.4 | 59.5 | 79.7 | 79.6 | 84.8 |
安全性与责任
Meta 致力于负责任地开发和部署 AI,并采取了严格的安全措施来减轻 Llama 3.1 的潜在风险。这些措施包括:
• 红队测试: 使用对抗性提示对 Llama 3.1 进行测试,以发现和减轻潜在的风险。
• 安全微调: 对 Llama 3.1 进行微调,以减少有害内容的生成。
• 系统级安全措施: 提供 Llama Guard 3、Prompt Guard 和 Code Shield 等安全措施,供开发人员在其 Llama 系统中部署。
Meta 的安全措施旨在确保 Llama 3.1 的负责任使用,并防止其被用于恶意目的。
开源 AI 的未来
Meta 相信,开源 AI 是 AI 未来的发展方向。开源 AI 将带来更安全、更创新的模型,因为它们可以接受更广泛的审查和改进。Meta 的开源方法也有利于民主化 AI 技术,使更多人能够从中受益。
相关链接
• Llama 官网: https://llama.meta.com/
• Llama 3.1 模型卡: https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md
• 扎克伯格关于开源 AI 的文章: https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
关键字
• Llama
• Meta
• 人工智能
• 开源
• 大型语言模型