3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

学术 2024-10-17 12:02 丹麦

今日凌晨，Mistral AI 推出了他们最新一代端侧模型 les Ministraux：Ministral 3B 和 Ministral 8B，这是两款用于端侧计算和边缘用例的 SOTA 模型。

据介绍，les Ministraux 在知识、常识、推理、函数调用和效率方面达到了 10B 以下同类模型的新高度，可直接用于或微调为各种用途，从协调智能体工作流到创建专业任务工作者。

两种模型都支持高达 128k 的上下文长度（vLLM 目前为 32k），Ministral 8B 具有一种特殊的交错滑动窗口注意力机制（SWA），可加快推理速度并提高内存效率。

使用案例

目前，为端侧翻译、无互联网智能助手、本地分析和自主机器人等关键应用提供本地、隐私优先推理的需求越发强烈。

Mistral AI 方面表示，Les Ministraux 就是为这些应用场景提供计算效率高、延迟低的解决方案而设计的。从独立业余爱好者到全球制造团队，Les Ministraux 可满足各种使用情况。与 Mistral Large 等大语言模型（LLM）结合使用时，Les Ministraux 还是多步骤智能体工作流中函数调用的高效中介。可以对它们进行微调，以处理输入解析、任务路由和根据用户意图在多种上下文中以极低的延迟和成本调用 API。

Benchmark

Mistral AI 在多个任务中展示了 les Ministraux 的性能，其表现始终优于同类产品。他们利用内部框架重新评估了所有模型，以便进行公平比较。

1.预训练模型

图｜Ministral 3B 和 8B 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B 和 Mistral 7B 在多个类别上的比较

图 | Ministral 3B 和 8B base 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B 和 Mistral 7B 的比较

2.Instruct 模型

图｜Ministral 3B 和 8B Instruct 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B、Gemma 2 9B 和 Mistral 7B 在不同评估类别上进行了比较

图｜3B 系列 Instruct 模型的比较 - Gemma 2 2B、Llama 3.2 3B 和 Ministral 3B。图中展示了 Ministral 3B 与更大的 Mistral 7B 相比的改进之处。

图｜8B 系列 Instruct 模型对比 - Gemma 2 9B、Llama 3.1 8B、Mistral 7B 和 Ministral 8B

此次 les Ministraux 的推迟，恰好为 Mistral 7B 发布一周年之际。Mistral AI 表示，“我们目前最小的模型（Ministral 3B）已经在大多数基准测试中超越了 Mistral 7B”，“更多模型，敬请期待。”

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592427&idx=2&sn=325c3d2be3a25dd0f32be4f552978b59

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉