作者|王艺
编辑|王博
“首先和大家分享一个好消息:面壁智能完成新一轮数亿元融资,我们将站在一个全新台阶上,提速以端侧AI为代表的高效大模型商业化布局,为用户创造具体可感知的价值。”
今天上午,在2024甲子引力年终盛典上,面壁智能联合创始人、CEO李大海在线下首次公布了面壁智能的最新融资消息。
「甲子光年」了解到,本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富投资基金联合领投,北京市人工智能产业投资基金与清科创投跟投,万甲资本担任本轮独家财务顾问。
面壁智能是以“高效”为第一性原理的大模型公司。端侧模型面壁小钢炮MiniCPM凭借以小博大、高效低成本的性能优势,接连在端侧模型领域带来了GPT-4V和ChatGPT时刻,不仅在多项基准测试中接连越级领先,还将无限长文本、超清OCR识图、实时视频理解等首次集成到端侧,创造多项纪录。自今年2月份发布以来,面壁小钢炮MiniCPM系列模型累计下载量突破300万,屡次登顶GitHub、HuggingFace大模型趋势榜单。
“模型肯定要卷,但是只卷模型是不够的,因为模型的迭代速度太快了。”李大海在2024甲子引力年终盛典上说,“我们希望用同等的参数做出更高性能、更低能耗、更快速度的模型,这些都意味着效率的提升。”
李大海透露,面壁智能会持续深耕端侧模型,“今年年初我们让GPT-3水平的模型上了端,9月份让GPT-3.5水平的模型上了端,未来会让GPT-4o及更高水平模型上端。”
在大会现场,李大海还动情地介绍,今天上午他刚刚给公司内部发了全员信,“站在年尾,感慨颇多。这是我们推动高效大模型深度服务客户的一年,我为面壁同仁的小钢炮精神骄傲!走先人一步的路,打以少胜多的仗,这就是响当当的小钢炮精神!”
把更高效低成本的大模型,放到离用户最近的地方,面壁智能的这一步,走得很坚定。
1.“面壁定律”与模型迭代
脱胎于清华NLP实验室,2018年就发布了全球首个知识指导的预训练模型ERNIE,2020年成为悟道大模型的首发主力阵容,2022年成立OpenBMB开源社区,同年面壁智能开始公司化运作。面壁智能不仅是全国最早研发大模型的团队之一,更是国内首个提出“高效大模型”概念的厂商。
自OpenAI提出Scaling Law并用GPT-3证明了其在文本数据上的有效性以来,各家模型厂商就在卷参数量的道路上一去不复返,模型越做越大,涌现出了千亿、万亿甚至十万亿的模型。但越到后面,大家渐渐发现参数量更大,不代表模型效果更好。
在面壁智能看来,如果大模型作为实现AGI的关键路径,但成本却无比高昂,那意义也不大,所以要降低模型成本。对大模型来说,“效率”至关重要,只有在做好成本控制的基础上达到更好的效果,才能扩展大模型的应用边界。
该怎么提升大模型训练效率呢?
在2024年初的一篇论文《Predicting Emergent Abilities with Infinite Resolution Evaluation》中,面壁智能提出了解决思路:如果大模型还未训练出来时就能预测性能大约在什么水平,那么可以先通过小模型做实验、调参数,再按照相同的数据配比、参数调整等方法训练大模型。
通过此方法,面壁智能成功实现了用小十倍参数模型预测大十倍参数模型的性能,并且取得了不错的成绩。
旗舰端侧基座模型MiniCPM以2.4B的参数量,在性能上超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗舰端侧多模态模型MiniCPM-V刷新了开源模型最佳OCR表现,部分能力比肩世界级多模态模型标杆Gemini-Pro与GPT-4V;今年5月发布的MiniCPM-Llama3-V 2.5,超越多模态巨无霸Gemini Pro 、GPT-4V实现了“以最小参数,撬动最强性能”的最佳平衡点。
由此,面壁智能提出了以知识密度为核心的“面壁定律”——大模型的知识密度每8个月提升一倍。其中,知识密度=模型能力 / 参与计算的模型参数。
数据表明,相比GPT-3,参数规模小的多的MiniCPM2.4B具备同等性能, 整体知识密度提高了约86倍。
面壁高效大模型还在持续进化中。在今年的世界人工智能大会(WAIC 2024)上,面壁智能还发布了高效稀疏模型MiniCPM-S,和助力开发者打造SuperAPP的全栈式工坊MobileCPM。
MiniCPM-S 1.2B采用了高度稀疏架构,通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境,实现知识密度的“空前提升”——达到了同规模稠密模型MiniCPM 1.2B 的2.57倍,Mistral-7B的12.1倍。
而今年9月,面壁智能发布的MiniCPM 3.0更是再次挖掘了端侧模型的极致性能,仅靠4B参数,就在包括自然语言理解、知识、代码、数学等多项能力上超越了GPT-3.5,在Qwen2-7B、Phi-3.5、GLM4-9B、LLaMa3-8B等一众中外知名模型脱颖而出。
李大海今天在2024甲子引力年终盛典上介绍,目前面壁智能已将“面壁定律”升级成了“Densing Law”,大模型的知识密度也从平均每8个月提升一倍,变成了平均每3.3个月提升一倍。
李大海认为,电力有能量密度,芯片有摩尔定律,大模型也有知识密度。
“今年年初我们让GPT-3水平的模型上了端,9月份让GPT-3.5水平的模型上了端,未来会让GPT-4o及更高水平模型上端。”李大海说。
2.All in 端侧AI
在这波AI浪潮中,面壁智能是国内少有选择All in端侧AI的头部大模型厂商。
面壁智能自成立以来,一直致力于大模型的“高效训练”。在探索Scaling Law的过程中,面壁智能发现了可以通过小模型预测大模型性能的技术路线Scaling Prediction。
基于高效Scaling Prediction的技术路线,面壁智能有两条产品技术线:一条是基座大模型,另一条是给大模型做端侧版本。这一方面可以提升大模型的效率,让每个参数发挥更好的效果;另一方面也能在与应用场景相匹配的成本下做出最好的模型。
“这两条产品线,其实是一条路,就是面壁通往AGI的道路。”此前在接受媒体采访时,面壁智能CTO曾国洋说。
「甲子光年」观察发现,面壁智能做端侧模型,是基于其高效训练的理念、技术普惠的目标、产品技术线的布局和市场需求等多方面因素共同作用的结果,而MiniCPM等一系列模型的成功也证明了面壁的技术实力和战略方向的合理性。
面壁智能的端侧模型有两个着力点:语言模型和多模态模型。
其中端侧的多模态模型更重要不是“生成”而是“感知”,是和环境的深度互动。面壁智能发布的端侧最强多模态模型MiniCPM-V 2.6增加了实时视频理解、多图联合理解、多图ICL视觉类比等功能,首次在端侧实现了单图、多图、视频理解等多模态核心能力全面超越GPT-4V,单图理解越级比肩Gemini 1.5 Pro和GPT-4o mini。
“像iPad这样的设备,借助摄像头就能‘开眼看世界’。”李大海说。
为了推动端侧模型更好地融入端侧设备,面壁智能与联发科技、英特尔等芯片企业展开了深度合作,通过降低模型功耗的方式,做模型和芯片的深度适配。与芯片更好适配的端侧模型在AI Phone、AIPC、智能座舱、智能家居与具身机器人等领域发挥了重要作用,在今年的世界机器人大会上,「甲子光年」就注意到,面壁智能联手加速进化,实现了业内首个高效端侧模型在人形机器人上的应用。
此外,面壁智能还积极与行业下游合作,在主流消费电子和新型硬件上融入端侧AI,布局端云协同的未来范式。今年6月,面壁智能与华为云达成了正式合作,共同推进大模型端云协同解决方案的研发和部署;今年9月,面壁智能与长城汽车签署战略合作协议,表示将在大模型技术的研发与应用上展开深入合作,推动智慧出行与用户服务的发展。
3.推动高效大模型深度服务客户的一年
除了布局端侧AI,得益于在自然语言处理方面的技术渊源和优质行业数据的深厚积累,面壁团队还将大模型深度应用到法律、教育、金融等垂直领域,用技术赋能行业场景。
李大海在2024甲子引力年终盛典上给出的评价是:“这是我们推动高效大模型深度服务客户的一年。”
今年7月,面壁智能、人民法院出版社、深圳迪博共同助力深圳中院,正式启用了全国首个司法审判垂直领域大模型,该大模型全面覆盖立案、阅卷、庭审、文书制作等审判业务的85项流程,能够精确诊断案情,充分尊重裁判者的自主决策权,确保技术进步不“越俎代庖”,让司法裁判始终由审判人员作出,解决了AI在司法领域的应用难题。
今年11月,面壁智能作为联合研发团队参与的千亿参数通用大模型“法信法律基座大模型”在最高法发布,训练语料是经过高质量专业标注的万亿字量级法律专业数据。法信法律基座大模型定位为法律行业基座模型,既是一个为法治领域提供生成式人工智能底层能力的基座模型,也是一套为保障法律人工智能安全发展,配套安全治理机制,提供数据资源、算力资源、评测资源的服务体系。
同样被赋能的还有金融场景。面壁智能与国内头部银行客户进行了深入合作,通过大模型为客户的“智能财富助理”产品提供强大的语言对话能力和逻辑推理能力,解答用户在金融理财等业务咨询中的专业问题。
“所有的领先,往深处都是认知的领先;任何商业竞争,归根结底都是效率的比拼。高效,不仅是我们企业运营的核心;在商业环境中,也意味着更快的响应速度、更低的成本、更高的产出和更好的客户满意度。”在新一轮融资的全员信中,李大海的表达很直接。
今年下半年,市场竞争愈发激烈,中国大模型的比拼也进入了新阶段。
但面壁智能显然走出了一条符合自己特点的道路,成为了中国大模型“6+2”格局里极具辨识度的代表。
“我们相信,人工智能的发展经过了几次起落,接下来肯定不会再落到地上了,”李大海说,“因为大模型带给行业的价值是实实在在的。”
(封面图及未标注来源图片来自2024甲子引力年终盛典)
END.