Mistral 发布12B模型 NeMo：高效、开源、多语言，为全球用户打造前沿 AI 体验

文摘 2024-07-20 08:28 美国

TLDR

• Mistral AI 和 NVIDIA 携手推出了 Mistral NeMo，一个拥有 120 亿参数和 12.8 万个 token 上下文窗口的大语言模型，在性能和易用性之间取得了更好的平衡。
• Mistral NeMo 支持多种语言，并在推理、世界知识和代码准确性方面表现出色，超越了现有同等规模的模型。
• 得益于高效的 Tekken 分词器，Mistral NeMo 在处理多语言文本时更加高效，尤其是在源代码和中文等方面。
• Mistral NeMo 基于 Apache 2.0 许可开源，为更广泛的应用和研究铺平道路，并提供免费下载和使用。

大型语言模型的开源革命

近年来，大型语言模型（LLM）在人工智能领域掀起了一场前所未有的技术革命，不断刷新着人们对 AI 能力的认知。然而，训练和部署 LLM 的高昂成本、复杂的流程以及对特定语言的偏向性，在一定程度上限制了 LLM 更广泛的应用。试想，如果有一种 LLM 能够兼顾高效、易用和多语言特性，并以开源的方式供所有人使用，那将会为 AI 发展带来怎样的变革？

令人振奋的是，这个美好的愿景已经成为现实！致力于打造开源、高效 AI 模型的 Mistral AI 与 AI 硬件巨头 NVIDIA 强强联手，推出了全新的 Mistral NeMo，一个拥有 120 亿参数 的大语言模型，旨在为全球用户提供触手可及的前沿 AI 体验，推动 LLM 的开源革命。

Mistral NeMo：性能与效率的完美平衡

Mistral NeMo 的发布，旨在解决大型语言模型在实际应用中面临的挑战，它在性能和易用性之间取得了更好的平衡。

120 亿参数 的规模，使得 Mistral NeMo 在性能上足以与现有的大型语言模型相媲美，而 12.8 万个 token 的超长上下文窗口，则使其能够处理更长、更复杂的文本输入，例如整篇新闻文章、代码库或学术论文，并从中提取和理解关键信息。想象一下，Mistral NeMo 就像一个拥有超强记忆力和理解力的“超级读者”，能够“消化”海量信息，并根据用户的指令进行推理、总结和创作。

图 1：Mistral NeMo 基础模型与 Gemma 2 9B 和 Llama 3 8B 的性能比较。该模型在多项基准测试中均优于其他模型，包括代码生成（HumanEval）、常识推理（Hellaswag）、问答（NaturalQuestions）和世界知识（MMLU）。

基准测试结果表明，Mistral NeMo 在 推理、世界知识和代码生成 等方面均表现出色，超越了现有同等规模的模型，例如在代码生成任务 HumanEval 中，Mistral NeMo 的得分远超同等规模的 LLaMA 3 和 Gemma 2 模型。这意味着，Mistral NeMo 不仅“博闻强记”，还能“学以致用”，在各种任务中展现出强大的能力。

打破语言壁垒，赋能全球化 AI

不同于以往偏向英语的模型，Mistral NeMo 专为全球化、多语言应用而设计。它在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现出色，为全球用户打开了通向 AI 世界的大门，为构建多语言 AI 应用奠定了坚实的基础。

图 2：Mistral NeMo 在多语言基准测试中的表现。该模型在涵盖多种语言的 XTREME 和 XGLUE 基准测试中均取得了优异成绩，证明了其强大的多语言处理能力，例如在多语言问答任务 XGLUE 上，Mistral NeMo 的得分远超其他模型。

Tekken 分词器：多语言文本处理的效率革命

语言是 AI 理解和处理信息的关键，也是构建通用人工智能的难点之一。为了让 Mistral NeMo 更好地理解和处理多语言文本，Mistral AI 开发了全新的 Tekken 分词器，为 Mistral NeMo 扫清了语言障碍，使其能够更好地服务于全球用户。

图 3：Tekken tokenizer 压缩率。与 SentencePiece 和 LLaMA 3 分词器相比，Tekken 在压缩文本方面表现更出色，特别是在处理源代码、中文、意大利语、法语、德语、西班牙语和俄语等方面效率更高。在压缩韩语和阿拉伯语方面，Tekken 分别比 SentencePiece 高效 2 倍和 3 倍。

Tekken 分词器基于 Tiktoken 构建，并在 100 多种语言上接受了训练，能够高效地将文本和代码压缩成模型可以理解的 token 序列。如果将 Mistral NeMo 比作一个“超级大脑”，那么 Tekken 分词器就像一个“高效翻译官”，能够将各种语言“翻译”成“超级大脑”能够理解的语言。

指令微调，更懂你的心

为了让 Mistral NeMo 更好地理解和执行用户的指令，Mistral AI 对其进行了精细的指令微调。与之前的 Mistral 7B 相比，Mistral NeMo 在遵循精确指令、进行多轮对话和生成代码方面表现更加出色，这意味着 Mistral NeMo 不仅能“听懂”你的话，还能“理解”你的意图，给出更符合你期望的回应。

图 4：经过指令微调的 Mistral NeMo 模型的准确性。在使用 GPT-4 作为评判标准的官方参考测试中，该模型在多项任务中都表现出色，包括代码生成、问答和摘要生成。例如在代码生成任务上，Mistral NeMo 的准确率高达 84%。

拥抱开源，赋能 AI 创新

秉持着开放、合作、共赢的理念，Mistral AI 在 Apache 2.0 许可下开源了 Mistral NeMo 的预训练基础模型和指令微调检查点。这意味着 Mistral NeMo 不再是束之高阁的技术，任何人都可以免费下载、使用、修改和分发该模型，为其注入新的活力，推动 AI 领域的创新和发展。

Mistral NeMo：AI 时代的多语言助手

Mistral NeMo 的推出，为构建多语言 AI 应用奠定了坚实的基础，其高效的性能、多语言支持和开源特性，将吸引更多开发者和研究人员加入到 AI 应用开发的浪潮中，共同推动 AI 在各个领域的应用。可以预见，在不久的将来，Mistral NeMo 将在教育、医疗、金融、娱乐等各个领域发挥重要作用，为全球用户带来更智能、更便捷的体验。