国产“小钢炮”MiniCPM3-4B：小参数，大能量！

2024-09-06 10:51 上海

前沿科技速递🚀

在 AI 大模型浪潮中，国内厂商面壁智能再次突破，推出了其最新的“小钢炮”系列——MiniCPM 3.0。这款全新模型不仅实现了在移动设备上运行 GPT-3.5 级别的能力，而且具备超强的推理、检索与代码解释功能。MiniCPM 3.0 以仅 4B 参数的“轻量级”模型，成功超越了 GPT-3.5，在移动端 AI 应用场景中展现出强大的实力。

来源：传神社区

01 模型介绍：从 MiniCPM 1.0 到 3.0

MiniCPM 3.0 是面壁智能“小钢炮”系列的最新版本，相比于前两代，3.0 版本在模型结构、性能优化和功能支持上都有显著提升。以下是对比三代模型的结构差异和关键改进：

位置编码机制：RoPE -> RoPE -> RoPE

三代模型都采用了 RoPE（旋转位置编码），确保模型在处理长文本时能够高效地保留序列的位置信息，尤其是在处理超长上下文时表现更为出色。

注意力机制：MHA -> GQA -> MLA

MiniCPM 1.0 采用标准的多头自注意力机制（MHA），
MiniCPM 2.0 引入了分组查询注意力机制（GQA），提高了注意力计算效率，
MiniCPM 3.0 使用了 MLA（Multi-Level Attention），这一核心创新使得模型在复杂任务处理中的推理和生成能力更强，特别是长文本处理时性能更为稳定。

词表大小：123K -> 73K -> 73K

从 MiniCPM 2.0 开始，词表大小被大幅精简至 73K，有效提高了模型的处理速度和多语言场景中的适用性。

模型层数：40 -> 52 -> 62

随着版本迭代，模型层数逐步增加，提升了模型的复杂性与推理能力。

隐藏层节点数：2304 -> 1536 -> 2560

MiniCPM 3.0 的隐藏层节点增加至 2560，使模型的表现力和任务处理能力进一步增强，特别是在数据推理任务上表现更加优秀。

最大上下文长度：4K -> 4K -> 32K

MiniCPM 3.0 的上下文处理长度大幅提升至 32K，支持长文本的处理。这为模型在文档分析、写作工具等应用场景中提供了强大的优势。

系统提示词与工具调用能力：不支持 -> 不支持 -> 支持

MiniCPM 3.0 引入了系统提示词功能，并支持工具调用和代码解释器，使得模型能够通过自然语言交互执行复杂任务，特别是在工具调用上性能显著增强。

02 核心亮点：打破性能与参数之间的界限

无限长文本处理，性能随文本长度延展

MiniCPM 3.0 引入了 LLMxMapReduce 技术，实现了无限长文本的处理能力。无论是 32K 还是 512K，模型都能高效处理长文本，并且在长文档场景中具备超强的性能稳定性。
在长文本测试的 InfiniteBench Zh.QA 评测中，MiniCPM 3.0 甚至超越了 8B、9B 参数量级的对手 Kimi，展现出极为优异的表现。

端侧最强 Function Calling，媲美 GPT-4o

MiniCPM 3.0 是目前端侧设备上 Function Calling 性能最强的模型之一，能够精准理解用户输入，并转化为可执行的结构化指令。无论是调用日历、天气、还是手机中的文件和应用，MiniCPM 3.0 都能流畅响应。
在 Berkeley Function-Calling Leaderboard 上，MiniCPM 3.0 的性能接近 GPT-4o，证明了它在工具调用上的实力。

RAG 三件套：检索、排序、生成全能选手

MiniCPM 3.0 同时发布了 RAG（检索增强生成）三件套：MiniCPM-Embedding（检索）、MiniCPM-Reranker（重排序）和 MiniCPM3-RAG-LoRA（生成）。在多项检索任务中取得了 SOTA（State of the Art）的表现。
经过 LoRA 微调后，MiniCPM 3.0 在开放域问答、多跳问答等任务上，超越了 Llama3-8B 和 Baichuan2-13B，成为中英文跨语言检索的领导者。

03 MiniCPM性能评估

从评测数据中可以看出，MiniCPM3-4B 在多个评测集上的表现优越，尤其在整体性能和工具调用能力方面展现了明显的领先优势。

在综合评测的平均分上，MiniCPM3-4B 以 66.3 的得分超越了 Qwen2-7B（65.3） 和 GLM-4-9B-Chat（65.0） 等大模型，展现出强大的综合能力。与部分 7B、9B 参数的大模型相比，MiniCPM3-4B 的性能表现显著更好，尤其是在中文能力、数学能力等任务中优势明显。

在工具调用能力的评测中，MiniCPM3-4B 在 BFCL（Berkeley Function Calling Leaderboard）上的得分高达 76.0%，领先于 Qwen2-7B-Instruct（71.6%）和 GLM-4-9B-Chat（70.1%）等多个更大参数模型，表现出超强的工具调用能力。相比于其他大模型，MiniCPM3-4B 在这方面的领先地位使其在实际应用中更加高效、灵活。

04 模型下载

传神社区：

MiniCPM3-4B：

https://opencsg.com/models/OpenBMB/MiniCPM3-4B

github：

https://github.com/OpenBMB/MiniCPM/

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247486588&idx=1&sn=2081dbad22fa2ccd36df2bd5e3dae85f

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉