仅 4B 参数,MiniCPM 3.0 在自然语言理解、知识、代码、数学等多项能力上对GPT-3.5 实现赶超,并在 Qwen2-7BPhi-3.5,GLM4-9B,LLaMa3-8B 等一众中外知名小参数模型的表现中脱颖而出。
经过量化处理,MiniCPM 3.0内存需求仅为2.2GB,使得它可以在手机等端侧设备上流畅运行。MiniCPM 3.0的问世,意味着端侧「ChatGPT」时刻到来,端侧设备不再只有云端模型一个选择,另一条技术路线被打通。
面壁智能,这家端侧模型的AI初创公司,正从高效大模型入手,探索独特的AGI技术路线。
1、成立背景
面壁智能同样是清华系出身的大模型公司,2022年,清华大学计算机系长聘副教授刘知远的牵头成立了面壁智能,团队成员主要来自清华大学 NLP 实验室。
面壁智能团队初始成员是国内最早一批接触AI大模型训练的研究人员,他们大多来自北京智源人工智能研究院「悟道」项目。
2020年12月,刘知远教授牵头智源研究院的文源团队发布了全球第一个中文开源大模型CPM;2021年6月,文源团队发布了千亿 MoE 大模型 CPM-2。
在大参数模型的训练过程中,面壁智能团队逐步认识到,提升模型效果是大模型训练的根本目标,但这并不意味着一定要通过扩大参数量规模和燃烧高昂的算力成本来实现。
相反,「让每一个参数发挥最大的作用」,在同等参数量上实现更好的性能,才是解决大模型「高效」训练的核心。
基于这个理念,刘知远教授及其团队出来成立了面壁智能。
2023年8月,面壁智能的千亿级参数大模型CPM已接近GPT-3.5水平,但面壁智能不追求堆积参数规模以抵达GPT-4水平,而是将精力放在了如何去利用小模型来建立起对大模型能力的预测上。
在这过程中,面壁智能开启了Mini CPM系列模型的研究,并惊喜的发现通过高质量的参数同样也能使小规模的模型达到超越团队所有人想象的水平,并决定以端侧这个当时没有被深挖的角度作为研究方向。
面壁智能希望能够在同等规模的模型参数里面,能够把更多的知识注入到模型之内, 以Mini CPM系列模型的研究为基础,面壁智能提出了面壁定律——大模型的知识密度平均每 8 个月提升一倍。
2、团队构成与专业背景
如今,面壁智能已经拥有超 100 人的科研团队,平均年龄 28 岁。
这支团队的「清北」含量 80%,此外还有来自阿里、字节、百度等一线公司的骨干。
(1)刘知远——联合创始人、首席科学家
刘知远,清华大学长聘副教授,面壁智能联合创始人、首席科学家。
右一为刘知远
2011年获得清华大学博士学位,主要研究方向为自然语言处理、基础模型。
刘知远教授长期从事知识图谱与语义计算、社会计算与计算社会科学方面的研究,面向基础大模型技术开展了较为深入的研究和前沿探索,取得多项创新成果,在自然语言处理、知识图谱和社会计算等方面实现了前沿领域突破。
(2)曾国洋——联合创始人、首席技术官
曾国洋,出生于 1998 年,是刘知远在清华的学生,8岁自学编程、奥赛冠军保送清华。
在大学期间,曾国洋加入了清华大学NLP实验室,是中国最早一批大模型研究员之一,并成为悟道·文源中文预训练模型团队的骨干成员。
曾国洋作为联合发起人创建了 OpenBMB 开源社区,是模型训练加速和推理加速 BMTrain、BMInf 的主要作者之一,也是 CPM-Ant、CPM-Bee 两期大模型的主要完成人之一。
面壁智能成立后,曾国洋自此成为这家初创公司的技术 1 号位。
(3)李大海——联合创始人、CEO
李大海,主要负责公司的战略发展和日常运营管理。
李大海最早就职于Google中国,成为其创始员工之一。在Google工作四年多后,他与刘俊共同创立了国内首个社会化搜索引擎「云云网」。
随后,李大海加入了豌豆荚负责搜索业务,并在2015年成为知乎的联合创始人、执行董事和CTO。
在知乎期间,他推动了对面壁智能的天使轮投资,并与面壁智能进行了深入合作。2023年6月,李大海辞去知乎CTO职务,全身心投入到面壁智能的工作中,这是他的第四次创业。
3、业务介绍
面壁智能在商业方面主要推进大模型在企业端落地,具体聚焦端侧模型与Agent两方面。此外,面壁智能同样也有如Eurux-8x22B等开源大模型。
目前,面壁智能已与多家企业合作,包括在世界机器人大会上与加速进化机器人的合作,将MiniCPM模型植入人形机器人,作为其「大脑」。
李大海表示,手机、PC、机器人和汽车是面壁智能目前很明确的四个落地方向,预计明年将有配备端侧模型的终端设备开始量产。
此外,面壁智能还推出了基于群体智能的AI原生应用——ChatDev智能软件开发平台,这是业内首次将AI Agents群体智能协作技术应用于软件开发的SaaS平台产品,旨在帮助开发者和创新创业者以极低的成本和门槛高效完成软件开发工作。
(1)端侧模型——MiniCPM系列
面壁智能主要做端侧模型。相比互联网大厂和其他大模型创业公司主要发力的云侧大模型,端侧模型一般参数较小,与已经开启「百模大战」的云侧大模型市场相比,端侧模型市场的国内参与者较少。
面壁智能所做的事,是在同样的时间、同等参数量的条件下,把模型知识压缩的效率做到极致,把更多的高质量数据压缩进一个更小更优的模型中。
在过去面壁智能曾发布过包括CPM-Bee 10B、UltraLM-13B等小模型,而端侧模型要做到比7B更小,面壁智能最具代表性产品就是MiniCPM系列模型。
MiniCPM
2024年1月,面壁智能发布并开源小钢炮MiniCPM-2B。MiniCPM-2B 语言模型有 24亿(2.4B)的非词嵌入参数量, 总计 2.7B 参数量。
经过 SFT 后,MiniCPM-2B 在公开评测集上与 Mistral-7B 表现相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
经过 DPO 后,MiniCPM-2B 在 MTBench 上也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。
MiniCPM-2B一经发布,火速登顶 Github Trending不到一周,斩获 2.5k 星标。NLP 大牛、HuggingFace 联合创始人 Thomas Wolf 盛赞:
「面壁的 MiniCPM, UltraFeedback等工作是来自中国的一系列惊人的开源模型与技术报告,MiniCPM 以如此震撼的小尺寸,做出了极具深度的工作。」
MiniCPM 2.0
2024年4月,面壁智能继续推出新一代 MiniCPM 2.0 系列模型,MiniCPM 2.0 系列模型对 MiniCPM 进行了多个维度的升级,包括以下模型版本:
MiniCPM-V 2.0:基于 MiniCPM 2.4B 和 SigLip-400M 构建,共拥有 2.8B 参数。MiniCPM-V 2.0 具有领先的光学字符识别(OCR)和多模态理解能力。
MiniCPM-2B-128k:将 MiniCPM-2B 的上下文长度从 4k 扩展至 128k,在 InfiniteBench 测试集上优于 ChatGLM3-6B-128k、Yi-6B-200k 等更大参数量的模型。
MiniCPM-MoE-8x2B:基于 MiniCPM-2B 进行 MoE 扩展,综合表现相比于 MiniCPM-2B 平均提高 4.5 个百分点。
MiniCPM-1B:相比于 MiniCPM-2B 成本下降 60%,综合表现仍然优于 LLaMA2-13B。
MiniCPM-S-1B:在保持下游任务性能无损的前提下,FFN 层实现了 87.89% 的平均稀疏度,将 FFN FLOPs 降低了 84%。结合 PowerInfer 推理框架,解码速度提升约 2.8 倍。
MiniCPM-Llama3-V 2.5
2024年5月,面壁智能发布并开源端侧多模态模型MiniCPM-Llama3-V 2.5,本次模型增强了 OCR 能力,支持 30 多种语言,并首次在端侧实现了 GPT-4V 级的多模态能力。
多语言LLaVABench评测结果
本模型基于 SigLip-400M 和 Llama3-8B-Instruct 构建,共 8B 参数量,相较于 MiniCPM-V 2.0 性能取得较大幅度提升。
主流多模态基准下的评测结果
MiniCPM-Llama3-V 2.5 在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1,以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型,大幅超越基于Llama 3构建的其他多模态大模型。
MiniCPM-Llama3-V 2.5 发布后火速登顶 HuggingFace 与GitHub热度榜 Top1,与 Meta、微软、谷歌等科技巨头共同从全球 66 万模型中脱颖而出。
MiniCPM-V 2.6
2024年8月,面壁智能发布并开源端侧多模态模型MiniCPM-V 2.6。
MiniCPM-V 2.6 仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。
同时将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。
MiniCPM 3.0
2024年9月,面壁智能发布并开源他们的第三代端侧模型MiniCPM 3.0。
MiniCPM 3.0 是一个 4B 参数量的语言模型,相比 MiniCPM1.0/2.0,功能更加全面,综合能力大幅提升,多数评测集上的效果比肩甚至超越众多 7B-9B 模型。第一次在端侧模型达到GPT-3.5水平。
MiniCPM 3.0在长文本技术上通过引入LLMxMapReduce长文本分帧处理技术,通过将长文本切分片段并行处理,再汇总答案,MiniCPM 3.0实现了无限长度的文本处理能力,使上下文长度从32K、128K拓展至512K甚至更高。
MiniCPM 3.0的Function Calling功能也得到了增强,能够调用端上的各种工具和函数,扩展了模型的应用边界,并配合RAG外挂知识库技术使端侧模型在实际应用中有多功能性。
性能上,MiniCPM 3.0超越了如阿里的Qwen2-7B和智谱的GLM4-9B等知名模型,在包括自然语言理解、知识、代码、数学等多项能力上超越OpenAI的 GPT-3.5。
(2)Agent
推动大模型在端侧的落地也是面壁目前的重点之一。
目前,面壁的大模型已经在端云侧建立起大小模型之间的协同,一方面可以提升云侧大模型的服务速度,同时与面壁端侧模型相结合,进一步显著降低大模型使用成本。
面壁智能和清华 NLP 实验室的研究目前研究团队已在大模型智能体方向有诸多研究,成功推出了大模型驱动的 Al Agent 「三驾马车」。
XAgent:超强大模型智能体应用框架,可自行拆解复杂任务,并高效执行。
ChatDev:多智能体协作开发框架,让多个不同角色的智能体进行协作,自动化开发软件应用。
AgentVerse:大模型驱动的智能体通用平台,招募各种各样的 agent 专家,共同帮助用户解决复杂任务。
XAgent
面壁智能联合清华大学NLP 实验室共同研发并推出大模型 「超级英雄」——XAgent。
XAgent 是一个可以实现自主解决复杂任务的全新AI智能体,以LLM为核心,能够理解人类指令、制定复杂计划并自主采取行动。
传统智能体通常受到人类定制规则的限制,只能在限定范围内解决问题。它们更像是为人类所用的「工具」,而不是真正的「自主智能体」,难以自主解决复杂问题。
相反,XAgent被赋予了自主规划和决策的能力,使它能够独立运行,发现新的策略和解决方案,不受人类预设的束缚。
XAgent在真实复杂任务处理中全面超越AutoGPT
它的能力已全面超越AutoGPT,在众多场景任务上展示出了惊人的自主性和复杂任务的求解能力,将AI智能体的智能水平提升到了一个全新高度。
ChatDev
ChatDev是面壁智能联合 OpenBMB 及清华大学NLP实验室开源的「大模型+Agent」项目。
ChatDev 拟作一个由多智能体协作运营的虚拟软件公司,在人类「用户」指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。
这一技术为软件开发自动化提供了新的可能性,支持快捷高效且经济实惠的软件制作,未来将有效地将部分人力从传统软件开发的繁重劳动中解放出来。
ChatDev 开源仅 6 周,星标数已超 1.2 万,曾持续3天霸榜 GitHub Trending 榜首。
多智能体框架 AgentVerse
由清华大学、北邮和腾讯的研究人员发布,顾名思义,AgentVerse是类似一个大模型宇宙,李大海则称之为智能体通用平台,让每个Agent如同角色扮演一般加入其中并彼此互动。
最早斯坦福大学和谷歌进行了这方面的探索,让一个虚拟小镇迎来了25个智能角色,AgentVerse是面壁针对这种思路延伸出来的产品,现在已经迭代了多个版本。
最新的更新是研究人员试图让Agent的行为不再 sequential ,即不再顺序执行,而是可以并行执行——这样一来Agent的行为就会更接近人类。
(3)智能大语言模型产品—面壁露卡
面壁露卡(Luca)是面壁智能最新推出的千亿多模态大模型智能对话助手,支持中文和英文进行交流互动。
Luca主要基于面壁智能的新一代大语言模型CPM,能与用户进行多轮对话与互动,帮助用户了解世界知识、激发创作灵感、理解图片内容、处理数理逻辑、编写程序代码,以更好地获取信息、做出规划、解决问题。
4、面壁智能估值及融资情况
面壁智能目前经历2轮融资,最新估值未对外披露。
天使轮融资:2023年4月,面壁智能完成天使轮融资,金额为数千万人民币,此轮融资知乎领投,智谱AI跟投。
A轮融资:2024年4月,面壁智能完成A轮融资,金额为数亿元人民币,此轮融资由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。
5、小结
端侧模型是今年AI大模型发展的其中一个重心,包括谷歌、OpenAI等大模型头部公司都开始研究及发布小模型,面壁智能是国内在端侧模型第一梯队的公司之一,同时也是端侧模型最先发力的一批公司。
单从端侧模型水平上看,与国际第一梯队差距不大。在端侧模型达到GPT-3.5水平的情况下,端侧已实际变成可考虑的发展路线,在手机、PC等端侧设备有着较高的商业化价值。
- END -