Mistral Large 2 震撼来袭：性能更强，成本更低的开源大语言模型

文摘 2024-07-25 09:02 美国

TLDR

还记得那个开源大语言模型新秀Mistral AI吗？他们带着最新的Mistral Large 2模型强势回归了！这个模型不仅性能更强大，成本效益更高，而且还支持多种语言和代码生成，简直是为开发者和研究人员量身打造的利器。更重要的是，Mistral AI 依然坚持开源和合作，致力于让 AI 更易于访问和有益。

大语言模型军备竞赛进入白热化阶段

最近，大语言模型领域可谓是风起云涌，各大公司纷纷发布新模型，争夺技术制高点。就在 Meta 的 Llama 3.1 模型发布后不到一天，Mistral AI 就宣布推出最新一代大型语言模型 Mistral Large 2，再次点燃了这场激烈的技术竞赛。

Mistral Large 2：性能更强，成本更低的开源大语言模型

Mistral Large 2 延续了 Mistral AI 一贯的风格，在成本效益、速度和性能方面都取得了显著的进步。该模型拥有 1230 亿参数，支持数十种自然语言和 80 多种编码语言，并且在单节点上就能实现高吞吐量，这意味着开发者和研究人员可以在更低的成本下获得更强大的性能。

Mistral Large 2 专为单节点推理而设计，考虑到长上下文应用——其 1230 亿参数的规模允许它在单个节点上以较高的吞吐量运行。Mistral Large 2 在 Mistral 研究许可证 (MRL-0.1) 下发布，该许可证允许用于研究和非商业用途。对于需要自行部署的 Mistral Large 2 的商业用途，必须通过联系 Mistral AI 获取 Mistral 商业许可证。

性能表现全面提升

• 整体性能: Mistral Large 2 在评估指标上的性能/服务成本方面树立了新的标杆。特别是在 MMLU 上，预训练版本达到了 84.0% 的准确率，并在开放模型的性能/成本帕累托前沿上设定了一个新的点。
• 代码和推理: 遵循 Mistral AI 在 Codestral 22B 和 Codestral Mamba 方面的经验，他们在很大一部分代码上训练了 Mistral Large 2。Mistral Large 2 的性能远远超过之前的 Mistral Large，并且与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等领先模型不相上下。

在训练过程中，一个关键的重点领域是最小化模型“幻觉”或产生听起来合理但实际上不正确或不相关信息的倾向。这是通过微调模型使其在响应中更加谨慎和有辨别力来实现的，从而确保它提供可靠和准确的输出。

此外，新的 Mistral Large 2 被训练成在无法找到解决方案或没有足够的信息来提供自信答案时承认。这种对准确性的承诺反映在模型在流行数学基准测试中改进的性能上，证明了其增强的推理和解决问题的能力：

代码生成基准测试的性能准确性（所有模型都通过相同的评估管道进行基准测试）

MultiPL-E 的性能准确性（所有模型都通过相同的评估管道进行基准测试，除了“论文”行）

GSM8K（8-shot）和 MATH（0-shot，无 CoT）生成基准测试的性能准确性（所有模型都通过相同的评估管道进行基准测试）

• 指令遵循和对齐: Mistral AI 大幅改进了 Mistral Large 2 的指令遵循和对话能力。新的 Mistral Large 2 在遵循精确指令和处理长时间多轮对话方面尤其出色。下面我们报告了 MT-Bench、Wild Bench 和 Arena Hard 基准测试的性能：

一般对齐基准测试的性能（所有模型都通过相同的评估管道进行基准测试）

在一些基准测试中，生成冗长的响应往往会提高分数。然而，在许多商业应用中，简洁性至关重要——简短的模型生成有助于更快的交互，并且对推理更具成本效益。这就是为什么 Mistral AI 花费了很多精力来确保生成尽可能简洁和切中要害。下图报告了不同模型在 MT Bench 基准测试问题上的平均生成长度：

• 语言多样性: 如今，很大一部分商业用例都涉及处理多语言文档。虽然大多数模型都以英语为中心，但新的 Mistral Large 2 是在很大一部分多语言数据上训练的。特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面表现出色。以下是 Mistral Large 2 在多语言 MMLU 基准测试上的性能结果，与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 相比。

多语言 MMLU 的性能（在基础预训练模型上测量）

• 工具使用和函数调用: Mistral Large 2 具有增强的函数调用和检索技能，并经过训练，能够熟练地执行并行和顺序函数调用，使其能够充当复杂商业应用的动力引擎。

简洁性：商业应用的福音

许多大型语言模型倾向于生成冗长的响应，但这在许多商业应用中可能并不理想。Mistral AI 投入了大量精力来确保 Mistral Large 2 的生成尽可能简洁和切中要害。这种对简洁性的关注反映了 Mistral AI 对构建满足实际商业需求的模型的承诺。

开放性和合作：推动 AI 领域共同进步

Mistral AI 在 Mistral 研究许可证下发布 Mistral Large 2，允许研究和非商业用途。这种开放性促进了 AI 研究界的合作和创新。Mistral AI 还与领先的云服务提供商合作，使 Mistral 模型更易于为全球受众所用，包括 Google Cloud Platform、Azure AI Studio、Amazon Bedrock 和 IBM watsonx.ai。这种对开放性和合作的承诺是 Mistral AI 使 AI 更易于访问和有益的愿景的一部分。

Mistral AI 正在整合 la Plateforme 上的产品，围绕两个通用模型 Mistral Nemo 和 Mistral Large，以及两个专家模型 Codestral 和 Embed。随着 Mistral AI 逐步弃用 la Plateforme 上的旧模型，所有 Apache 模型（Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral）仍然可以使用 Mistral AI 的 SDK mistral-inference 和 mistral-finetune 进行部署和微调。

从 Mistral Large 2 发布当天开始， Mistral AI 扩展 la Plateforme 上的微调功能：现在 Mistral Large、Mistral Nemo 和 Codestral 都可以使用这些功能。

用户评价：Mistral Large 2 vs. Claude 3.5 Sonnet vs. Llama 3.1 405B

根据 Hacker News 上的用户反馈，Mistral Large 2 与 Llama 3.1 405B 在性能上相当，但仍落后于 Claude 3.5 Sonnet。一些用户指出，Claude 3.5 Sonnet 在代码推理和对话能力方面表现出色，速度也令人印象深刻。然而，也有一些用户对 Claude 的文本输入框和性能表示不满。

用户还讨论了大型语言模型的局限性，例如在处理需要理解单个字母的任务时的困难，例如计算单词中某个字母的出现次数。这被认为是由于模型依赖于标记化而不是单个字符造成的。

大型语言模型的未来：突破与挑战

一些用户对大型语言模型的发展速度表示担忧，认为我们可能正在接近现有方法的极限，并呼吁在模型架构和训练数据方面取得突破。另一些用户则对持续的进展表示乐观，并强调了成本效益和效率改进的重要性。

结论

Mistral Large 2 代表了大型语言模型发展的重要一步，它在性能、成本效益和可靠性方面取得了显著进步。Mistral AI 对开放性和合作的承诺将有助于推动 AI 领域的进一步创新和进步，使 AI 技术惠及更广泛的受众。