Mistral发布旗舰模型Mistral Large 2：1230亿参数，代码生成、数学和推理能力显著增强

文摘 2024-07-25 13:37 中国香港

海外的大模型市场竞争太激烈了。在 Meta 发布全球最大开源模型Llama 3.1 405B后的第二天，Mistral也发布了第二代旗舰模型Mistral Large 2，参数量高达1230亿。Mistral称其“突破成本效率、速度和性能的界限”。

与前代产品相比，Mistral Large 2 在代码生成、数学和推理方面的能力显著增强。它还提供了更强大的多语言支持和高级函数调用功能。

de后

Mistral Large 2

Mistral Large 2 具有 128k 上下文窗口，支持法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语等数十种语言，以及 Python、Java、C、C++、JavaScript 和 Bash 等 80 多种编码语言。

Mistral Large 2 专为单节点推理而设计，主要针对长上下文应用——其 1230 亿个参数的大小使其能够在单个节点上以大吞吐量运行。

Mistral Large是其最强大的版本，因此也不再开源。根据Mistral 研究许可证发布 Mistral Large 2，允许将其用于研究和非商业用途。对于需要自行部署的 Mistral Large 2 的商业用途，必须获取 Mistral 商业许可证。

总体表现

Mistral Large 2 在评估指标上在性能/服务成本方面树立了新标杆。特别是在 MMLU 上，预训练版本实现了 84.0% 的准确率，并在开放模型的性能/成本帕累托前沿上树立了新标杆。

代码与推理

根据之前Codestral 22B和Codestral Mamba的经验，在很大一部分代码上训练了 Mistral Large 2。Mistral Large 2 的表现远远优于之前的 Mistral Large，并且与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等领先模型相当。

Mistral还投入了大量精力来增强模型的推理能力。训练期间的重点关注领域之一是尽量减少模型产生“幻觉”或产生看似合理但实际上不正确或不相关的信息的倾向。这是通过微调模型来实现的，使其在响应时更加谨慎和敏锐，确保它提供可靠和准确的输出。

此外，新款 Mistral Large 2 经过训练，能够在无法找到解决方案或没有足够的信息来提供自信答案时识别。这种对准确性的承诺体现在流行数学基准测试中模型性能的提高，展示了其增强的推理和解决问题的能力：

代码生成基准上的性能准确性（所有模型都通过相同的评估流程进行基准测试）

MultiPL-E 上的性能准确度（除“论文”行外，所有模型都通过相同的评估流程进行基准测试）

GSM8K（8 次）和 MATH（0 次，无 CoT）生成基准上的性能准确度（所有模型都通过相同的评估流程进行基准测试）

指令遵循与对齐

Mistral 大幅改进了 Mistral Large 2 的指令遵循和对话能力。新款 Mistral Large 2 在遵循精确指令和处理长时间多轮对话方面表现尤为出色。下面报告了 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现：

在一般对齐基准上的表现（所有模型都通过相同的评估流程进行基准测试）

在某些基准测试中，生成较长的响应往往会提高分数。然而，在许多商业应用中，简洁性至关重要——较短的模型生成有助于加快交互速度，并且推理更具成本效益。Mistral 花费了大量精力确保生成尽可能简洁明了。下图报告了 MT Bench 基准测试中不同模型生成的平均长度：

语言多样性

如今，很大一部分业务用例涉及处理多语言文档。虽然大多数模型都是以英语为中心的，但新的 Mistral Large 2 是在大量多语言数据上进行训练的。特别是，它在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面表现出色。

以下是 Mistral Large 2 在多语言 MMLU 基准上的性能结果，与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 进行了比较。

多语言 MMLU 上的性能（在基础预训练模型上测量）

工具使用和函数调用

Mistral Large 2 配备了增强的函数调用和检索技能，并经过训练，可以熟练地执行并行和顺序函数调用，使其能够作为复杂业务应用程序的动力引擎。

在平台上试用 Mistral Large 2

用户现在可以通过la Plateforme使用 Mistral Large 2，名称为mistral-large-2407，并在 le Chat 上进行测试。它可在版本 24.07（应用于所有模型的 YY.MM 版本控制系统）和 API 名称下使用mistral-large-2407。instruct 模型的权重可用，并且也托管在HuggingFace上。

Mistral 正在整合 La Plateforme 上的产品，包括两个通用模型 Mistral Nemo 和 Mistral Large，以及两个专业模型 Codestral 和 Embed。随着逐步弃用 La Plateforme 上的旧模型，所有 Apache 模型（Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral）仍可使用 SDK mistral-inference 和 mistral-finetune 进行部署和微调。

从今天开始，Mistral 将扩展 la Plateforme 上的微调功能：这些功能现在可用于 Mistral Large、Mistral Nemo 和 Codestral。

通过云服务提供商访问 Mistral 模型

Mistral 正在扩大与 Google Cloud Platform 的合作，通过托管 API 将 Mistral AI 的模型引入Vertex AI。除了 Azure AI Studio、Amazon Bedrock 和 IBM watsonx.ai 之外，Mistral AI 的最佳模型现在可在 Vertex AI 上使用。

Mistral AI 模型的可用性时间表

END.

延伸阅读

大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告

http://mp.weixin.qq.com/s?__biz=MzIxNTY4NzIyNw==&mid=2247486784&idx=2&sn=ed532c5bf51252f05e6f1dd33868ab43

猜想笔记

探索AI边界

最新文章

Runway CEO：AI时代终结，真正的新媒体诞生

Kimi投放1亿、豆包投放2亿，国产AI在投流上杀疯了

a16z确认拥有2万块H100 GPU，为初创公司提供低价算力换取股权

OpenAI计划于12月发布新模型Orion，你需要了解五个背景信息

Anthropic教会大模型以人类的方式使用电脑，RPA不存在了？

萨姆·奥特曼联合创立的加密货币“世界币”重大发布

红杉资本最新发布：o1模型如何推动生成式AI进入推理竞赛？

字节跳动悄悄发布第二代机器人大模型GR-2，初步具备世界模型能力

豆包“王炸”：字节跳动一天发布两款视频生成大模型

一文收藏最全面的大模型技术图表

被称为第一个杀手级应用的Cursor，到底比Github Copilot强在哪里？

大模型会是一场泡沫吗？

贾扬清团队发文阐述关于H100 GPU的一切

《时代》周刊评选2024年AI影响力100人，梁汝波、王小川入选领导者

红杉资本熔炉时刻第9集：50岁成立ServiceNow，到避免1500亿美元的错误

超10万钉钉低代码应用完成AI化

累计融资近10亿元，清华系AI公司「无问芯穹」要做大模型时代首选的“算力运营商”

23名员工，8000张H100，融资4.65亿美元，发布1亿Tokens上下文大模型

传米哈游联合创始人蔡浩宇创立AGI公司Anuttacon，两位大佬已加入

夸克发布全新PC端，系统级全场景AI能力升级AI电脑

英伟达撕下了大模型长文本的遮羞布

为企业定制大模型，AI21 Labs估值达14亿美元，英伟达也投资了

A16z发布Top100生成式AI产品排行榜：字节跳动6款上榜

原腾讯机器人实验室1号员工创业，投身具身智能，2024年完成商业化

FLUX挑战Midjourney文生图王者地位，网友已经玩疯了

福布斯发布Cloud 100云计算榜单：平均市值82亿美元

日本公司Sakana AI发布“AI科学家”，自动撰写论文一篇15美元

特斯拉Dojo：埃隆·马斯克打造人工智能超级计算机的大计划

钢铁、服务器和电力：赢得下一阶段AI竞赛的条件

格雷格·布洛克曼是如何加入OpenAI的？

阿里云推出首个域名AI大模型应用

华为云初创生态出品大模型报告：2024年中国AI大模型场景探索及产业应用

OpenAI再次流失三位高管，萨姆·奥特曼回归不到一年最大的成就是拆家？

火山引擎119页生成式AI商业落地白皮书：给CXO的AI转型战术指南

硅谷大模型洗牌，大厂正在批量收购AI公司CEO

Stable Diffusion作者团队成立AI公司“黑森林实验室”，已获a16z领投3100万美元融资

前Stability AI CEO成立的去中心化新公司SchellingAI：如何思考民主化AI

苹果发布Apple Intelligence技术报告：没有选英伟达，在8192块TPU上训练【全文翻译】

“Salesforce之死”：为什么AI将改变下一代销售技术？

AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

Anthropic表明对SB 1047 AI监管法案立场：如果修改就支持

Coatue发布具身智能报告：通用机器人不会有ChatGPT时刻

如何使用 Llama 3.1 405B 创建合成数据？

OpenAI加入AI搜索大战！正式内测SearchGPT，下周向Plus订阅用户推出

Llama 3.1论文精读：为什么模型参数是4050亿？

Mistral发布旗舰模型Mistral Large 2：1230亿参数，代码生成、数学和推理能力显著增强

刚刚，Meta 发布全球最大开源模型Llama 3.1 405B，15项测试拿了7个第一

xAI的10万卡H100超级集群上线，马斯克亲自在工厂接光纤

苹果没有发布7B小模型，而是发布了开源数据集测试平台DCLM

刚刚，OpenAI与Mistral同时发布了各自最强小模型，针尖对麦芒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉