Mistral发布旗舰模型Mistral Large 2:1230亿参数,代码生成、数学和推理能力显著增强

文摘   2024-07-25 13:37   中国香港  



海外的大模型市场竞争太激烈了。在 Meta 发布全球最大开源模型Llama 3.1 405B后的第二天,Mistral也发布了第二代旗舰模型Mistral Large 2,参数量高达1230亿。Mistral称其“突破成本效率、速度和性能的界限”。

与前代产品相比,Mistral Large 2 在代码生成、数学和推理方面的能力显著增强。它还提供了更强大的多语言支持和高级函数调用功能。

de后


//


Mistral Large 2


Mistral Large 2 具有 128k 上下文窗口,支持法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语等数十种语言,以及 Python、Java、C、C++、JavaScript 和 Bash 等 80 多种编码语言。


Mistral Large 2 专为单节点推理而设计,主要针对长上下文应用——其 1230 亿个参数的大小使其能够在单个节点上以大吞吐量运行。


Mistral Large是其最强大的版本,因此也不再开源。根据Mistral 研究许可证发布 Mistral Large 2,允许将其用于研究和非商业用途。对于需要自行部署的 Mistral Large 2 的商业用途,必须获取 Mistral 商业许可证。


总体表现


Mistral Large 2 在评估指标上在性能/服务成本方面树立了新标杆。特别是在 MMLU 上,预训练版本实现了 84.0% 的准确率,并在开放模型的性能/成本帕累托前沿上树立了新标杆。


代码与推理


根据之前Codestral 22B和Codestral Mamba的经验,在很大一部分代码上训练了 Mistral Large 2。Mistral Large 2 的表现远远优于之前的 Mistral Large,并且与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等领先模型相当。

Mistral还投入了大量精力来增强模型的推理能力。训练期间的重点关注领域之一是尽量减少模型产生“幻觉”或产生看似合理但实际上不正确或不相关的信息的倾向。这是通过微调模型来实现的,使其在响应时更加谨慎和敏锐,确保它提供可靠和准确的输出。


此外,新款 Mistral Large 2 经过训练,能够在无法找到解决方案或没有足够的信息来提供自信答案时识别。这种对准确性的承诺体现在流行数学基准测试中模型性能的提高,展示了其增强的推理和解决问题的能力:

代码生成基准上的性能准确性(所有模型都通过相同的评估流程进行基准测试)

MultiPL-E 上的性能准确度(除“论文”行外,所有模型都通过相同的评估流程进行基准测试)

GSM8K(8 次)和 MATH(0 次,无 CoT)生成基准上的性能准确度(所有模型都通过相同的评估流程进行基准测试)


指令遵循与对齐


Mistral 大幅改进了 Mistral Large 2 的指令遵循和对话能力。新款 Mistral Large 2 在遵循精确指令和处理长时间多轮对话方面表现尤为出色。下面报告了 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现:

在一般对齐基准上的表现(所有模型都通过相同的评估流程进行基准测试)


在某些基准测试中,生成较长的响应往往会提高分数。然而,在许多商业应用中,简洁性至关重要——较短的模型生成有助于加快交互速度,并且推理更具成本效益。Mistral 花费了大量精力确保生成尽可能简洁明了。下图报告了 MT Bench 基准测试中不同模型生成的平均长度:

语言多样性


如今,很大一部分业务用例涉及处理多语言文档。虽然大多数模型都是以英语为中心的,但新的 Mistral Large 2 是在大量多语言数据上进行训练的。特别是,它在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面表现出色。


以下是 Mistral Large 2 在多语言 MMLU 基准上的性能结果,与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 进行了比较。

多语言 MMLU 上的性能(在基础预训练模型上测量)


工具使用和函数调用


Mistral Large 2 配备了增强的函数调用和检索技能,并经过训练,可以熟练地执行并行和顺序函数调用,使其能够作为复杂业务应用程序的动力引擎。

在平台上试用 Mistral Large 2


用户现在可以通过la Plateforme使用 Mistral Large 2,名称为mistral-large-2407,并在 le Chat 上进行测试。它可在版本 24.07(应用于所有模型的 YY.MM 版本控制系统)和 API 名称下使用mistral-large-2407。instruct 模型的权重可用,并且也托管在HuggingFace上。


Mistral 正在整合 La Plateforme 上的产品,包括两个通用模型 Mistral Nemo 和 Mistral Large,以及两个专业模型 Codestral 和 Embed。随着逐步弃用 La Plateforme 上的旧模型,所有 Apache 模型(Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral)仍可使用 SDK mistral-inference 和 mistral-finetune 进行部署和微调。


从今天开始,Mistral 将扩展 la Plateforme 上的微调功能:这些功能现在可用于 Mistral Large、Mistral Nemo 和 Codestral。


通过云服务提供商访问 Mistral 模型


Mistral 正在扩大与 Google Cloud Platform 的合作,通过托管 API 将 Mistral AI 的模型引入Vertex AI。除了 Azure AI Studio、Amazon Bedrock 和 IBM watsonx.ai 之外,Mistral AI 的最佳模型现在可在 Vertex AI 上使用。


Mistral AI 模型的可用性时间表

END.


延伸阅读


大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告



猜想笔记
探索AI边界
 最新文章