Mistral 发布12B模型 NeMo:高效、开源、多语言,为全球用户打造前沿 AI 体验

文摘   2024-07-20 08:28   美国  

TLDR

  • • Mistral AI 和 NVIDIA 携手推出了 Mistral NeMo,一个拥有 120 亿参数和 12.8 万个 token 上下文窗口的大语言模型,在性能和易用性之间取得了更好的平衡。

  • • Mistral NeMo 支持多种语言,并在推理、世界知识和代码准确性方面表现出色,超越了现有同等规模的模型。

  • • 得益于高效的 Tekken 分词器,Mistral NeMo 在处理多语言文本时更加高效,尤其是在源代码和中文等方面。

  • • Mistral NeMo 基于 Apache 2.0 许可开源,为更广泛的应用和研究铺平道路,并提供免费下载和使用。

大型语言模型的开源革命

近年来,大型语言模型(LLM)在人工智能领域掀起了一场前所未有的技术革命,不断刷新着人们对 AI 能力的认知。然而,训练和部署 LLM 的高昂成本、复杂的流程以及对特定语言的偏向性,在一定程度上限制了 LLM 更广泛的应用。试想,如果有一种 LLM 能够兼顾高效、易用和多语言特性,并以开源的方式供所有人使用,那将会为 AI 发展带来怎样的变革?

令人振奋的是,这个美好的愿景已经成为现实!致力于打造开源、高效 AI 模型的 Mistral AI 与 AI 硬件巨头 NVIDIA 强强联手,推出了全新的 Mistral NeMo,一个拥有 120 亿参数 的大语言模型,旨在为全球用户提供触手可及的前沿 AI 体验,推动 LLM 的开源革命。

Mistral NeMo:性能与效率的完美平衡

Mistral NeMo 的发布,旨在解决大型语言模型在实际应用中面临的挑战,它在性能和易用性之间取得了更好的平衡。

120 亿参数 的规模,使得 Mistral NeMo 在性能上足以与现有的大型语言模型相媲美,而 12.8 万个 token 的超长上下文窗口,则使其能够处理更长、更复杂的文本输入,例如整篇新闻文章、代码库或学术论文,并从中提取和理解关键信息。想象一下,Mistral NeMo 就像一个拥有超强记忆力和理解力的“超级读者”,能够“消化”海量信息,并根据用户的指令进行推理、总结和创作。

图 1:Mistral NeMo 基础模型与 Gemma 2 9B 和 Llama 3 8B 的性能比较。该模型在多项基准测试中均优于其他模型,包括代码生成(HumanEval)、常识推理(Hellaswag)、问答(NaturalQuestions)和世界知识(MMLU)。

基准测试结果表明,Mistral NeMo 在 推理、世界知识和代码生成 等方面均表现出色,超越了现有同等规模的模型,例如在代码生成任务 HumanEval 中,Mistral NeMo 的得分远超同等规模的 LLaMA 3 和 Gemma 2 模型。这意味着,Mistral NeMo 不仅“博闻强记”,还能“学以致用”,在各种任务中展现出强大的能力。

打破语言壁垒,赋能全球化 AI

不同于以往偏向英语的模型,Mistral NeMo 专为全球化、多语言应用而设计。它在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现出色,为全球用户打开了通向 AI 世界的大门,为构建多语言 AI 应用奠定了坚实的基础。

图 2:Mistral NeMo 在多语言基准测试中的表现。该模型在涵盖多种语言的 XTREME 和 XGLUE 基准测试中均取得了优异成绩,证明了其强大的多语言处理能力,例如在多语言问答任务 XGLUE 上,Mistral NeMo 的得分远超其他模型。

Tekken 分词器:多语言文本处理的效率革命

语言是 AI 理解和处理信息的关键,也是构建通用人工智能的难点之一。为了让 Mistral NeMo 更好地理解和处理多语言文本,Mistral AI 开发了全新的 Tekken 分词器,为 Mistral NeMo 扫清了语言障碍,使其能够更好地服务于全球用户。

图 3:Tekken tokenizer 压缩率。与 SentencePiece 和 LLaMA 3 分词器相比,Tekken 在压缩文本方面表现更出色,特别是在处理源代码、中文、意大利语、法语、德语、西班牙语和俄语等方面效率更高。在压缩韩语和阿拉伯语方面,Tekken 分别比 SentencePiece 高效 2 倍和 3 倍。

Tekken 分词器基于 Tiktoken 构建,并在 100 多种语言上接受了训练,能够高效地将文本和代码压缩成模型可以理解的 token 序列。如果将 Mistral NeMo 比作一个“超级大脑”,那么 Tekken 分词器就像一个“高效翻译官”,能够将各种语言“翻译”成“超级大脑”能够理解的语言。

指令微调,更懂你的心

为了让 Mistral NeMo 更好地理解和执行用户的指令,Mistral AI 对其进行了精细的指令微调。与之前的 Mistral 7B 相比,Mistral NeMo 在遵循精确指令、进行多轮对话和生成代码方面表现更加出色,这意味着 Mistral NeMo 不仅能“听懂”你的话,还能“理解”你的意图,给出更符合你期望的回应。

图 4:经过指令微调的 Mistral NeMo 模型的准确性。在使用 GPT-4 作为评判标准的官方参考测试中,该模型在多项任务中都表现出色,包括代码生成、问答和摘要生成。例如在代码生成任务上,Mistral NeMo 的准确率高达 84%。

拥抱开源,赋能 AI 创新

秉持着开放、合作、共赢的理念,Mistral AI 在 Apache 2.0 许可下开源了 Mistral NeMo 的预训练基础模型和指令微调检查点。这意味着 Mistral NeMo 不再是束之高阁的技术,任何人都可以免费下载、使用、修改和分发该模型,为其注入新的活力,推动 AI 领域的创新和发展。

Mistral NeMo:AI 时代的多语言助手

Mistral NeMo 的推出,为构建多语言 AI 应用奠定了坚实的基础,其高效的性能、多语言支持和开源特性,将吸引更多开发者和研究人员加入到 AI 应用开发的浪潮中,共同推动 AI 在各个领域的应用。可以预见,在不久的将来,Mistral NeMo 将在教育、医疗、金融、娱乐等各个领域发挥重要作用,为全球用户带来更智能、更便捷的体验。

相关链接

  • • Mistral NeMo 官方博客: https://mistral.ai/news/mistral-nemo/

  • • Mistral NeMo HuggingFace 模型: https://huggingface.co/mistralai/Mistral-Nemo-Base-2407


子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章