Meta 推出 Llama 3.3 70B,达到了之前 Llama 3.1 405B 所达到的智能水平,并超越了 11 月发布的 GPT-4o
Llama 3.3 的改进得益于新的对齐流程和在线强化学习技术的进步。该模型提供与 Llama 3.1 405B 类似的性能,具有成本效益高的推理能力,可在常见的开发人员工作站上本地运行。
已经完成了对 Llama 3.3 70B 的第一轮独立评估,发现人工分析质量指数从 68 跃升至 74,现在与 Llama 3.1 405B 的得分相当。
细节:
➤增幅最大的是 MATH-500(64% 至 76 %) 、GPQA Diamond(43% 至 49 %)和 HumanEval(80% 至 85 %)
➤ MMLU 增幅较小(84% 至 86 %)
➤ Llama 3.3 70B 现在在 Math-500 中领先于 Llama 3.1 405B,并且在 MMLU、GPQA Diamond 和 HumanEval 中的得分几乎与 405B 持平
➤在模型大小不变的情况下,我们预计大多数提供 Llama 3.1 70B API 的提供商将很快推出价格和速度与 3.1 70B 端点相当的 Llama 3.3 70B 端点
Llama 3.3 70B 在进行的所有评估中都取得了飞跃。
它在 MATH 中领先 Llama 3.1 405B,并且在 MMLU、GPQA Diamond 和 HumanEval 中几乎与 405B 匹敌。
对于在生产中使用 Llama 3.1 405B 的开发人员和公司来说,这提供了一个节省成本的巨大机会 - 尽管我们建议开发人员在迁移到 3.3 70B 之前仔细测试工作负载,因为评估分数并不完善,可能无法直接映射到所有场景。