26岁的“天才少年”，带队面壁打通高效大模型之路

财富 2024-06-14 15:37 浙江

26岁的面壁智能CTO曾国洋，管理着清华系明星大模型创业公司的研发团队，坚定地踏上了AGI征途。

撰文｜张贺飞

编辑｜沈菲菲

每一轮技术浪潮出现时，冲在最前面的都是朝气蓬勃的年轻人。

当大模型代表的人工智能浪潮席卷全球，作为移动互联网“原住民”的年轻开发者，可以说是最活跃的群体。他们的脸庞还有些稚嫩，但在技术和方向上有着自己的想法，在火热的AI赛道里加速狂奔，努力打下一片新天地。

面壁智能CTO曾国洋就是其中的佼佼者，26岁的年纪管理着清华系明星大模型创业公司的研发团队，坚定地踏上了AGI征途。

十多年开发经验的创业公司CTO

在许多人的印象中，24岁不过是研究生刚毕业的年纪，刚刚进入职场，扮演的还是“学徒”的角色。但在曾国洋的故事里，24岁已经作为CTO带领着面壁智能的核心技术团队，同时也是一位有着十多年经验的资深开发者。

和OpenAI的创始人Sam Altman一样，曾国洋在8岁就开始学编程。身边的朋友、老师、父母等潜移默化地告诉他：“会写代码”是一件很厉害的事。于是从Visual Basic开始，懵懵懂懂地开启了编程之路。

到了中学时，曾国洋已经系统性地接触了C/C++，喜欢在网上看一些国内外的资料，尝试写出更复杂的程序。因为“写代码”的爱好，曾国洋在高二时先后获得全国青少年信息学竞赛金牌和亚太地区信息学竞赛金牌，并因此被保送到清华，为日后的大模型创业埋下了伏笔。

没有高考压力的曾国洋，在2015年的冬令营上了解到旷视正在招实习生，抱着试一试的心态报了名，由此正式步入AI领域。

AlphaGo和李世石的围棋大战，点燃了深度学习的热潮，无数年轻人为之彻夜不眠，曾国洋也不例外。大二期间，在室友的引荐下，曾国洋加入了清华大学NLP实验室，误打误撞成为中国最早一批大模型研究员，并在后来成为悟道·文源中文预训练模型团队的骨干成员。

十多年的开发经验，培养了曾国洋的工程化思维和能力，大学毕业时不甘于做象牙塔里的学术派，毅然加入到了大模型浪潮中。

在OpenAI发布GPT-3的第二年，为了解决大模型“训练难、微调难、应用难”的挑战，曾国洋作为联合发起人创建了OpenBMB开源社区，旨在打造大规模预训练语言模型库与相关工具，加速百亿级以上大模型的训练、微调与推理，以降低大模型的使用门槛，实现大模型的标准化、普及化和实用化，让大模型能够飞入千家万户。

清华大学计算机系长聘副教授刘知远在2022年牵头创办面壁智能时，曾国洋果断放弃了手里的多个Offer，担纲这家大模型创业公司的技术1号位，完成了从一线开发者到大模型创业公司CTO的华丽转身。

“高效大模型就是面壁智能”

Scaling law，被看作是 OpenAI 的核心技术，简单来说，可以通过更复杂的模型、更大的数据量、更多的计算资源，提高模型的性能。前两年，国内外企业都在卷参数量，做到了千亿、万亿，甚至是十万亿，越到后面，但大家渐渐发现参数量更大，不代表模型效果更好。

在曾国洋看来：如果大模型作为实现AGI的关键路径，但成本却无比高昂，那么即使实现了AGI，但AGI比人还贵、那也没太大意义，所以要降低模型成本。对于大模型落地来说，效率是很个关键的问题，需要控制成本来达到更好的效果，这样才能去扩展大模型的应用边界。

不久前举办的鲲鹏昇腾开发者大会2024上，曾国洋在演讲中表示：“面壁智能持续引领高效大模型路线，推动大模型高效训练、快步应用落地，以更快速度，更低成本，提供最优智能实现方案。”

首先要解决的就是高效训练。

公开数据显示，OpenAI训练GPT-3的成本约为430万美元，到了GPT-4已经上涨到7800万美元，谷歌Gemini Ultra在计算上花费了1.91亿美元......比大模型能力更早指数性增长的，居然是大模型的训练成本。

该怎么提升大模型训练效率呢？

面壁智能在2024年初的一篇论文中提出了思路：如果大模型还未训练出来时就能预测性能大约在什么水平，可以先通过小模型做实验、调参数，再按照相同的数据配比、数调整等方法训练大模型。

其实在2023年，面壁智能就已经开始探索高效的Scaling Law，用小十倍参数模型预测大十倍参数模型的性能，并且取得了不错的成绩：

旗舰端侧基座模型MiniCPM用2.4B的参数量，在性能上越级超越Mistral-7B、Llama2-13B乃至更大的全球知名模型；旗舰端侧多模态模型MiniCPM-V刷新了开源模型最佳OCR 表现，部分能力比肩世界级多模态模型标杆 Gemini-Pro 与 GPT-4V。前两天发布的端侧最强多模态模型MiniCPM-Llama3-V 2.5 ，超越多模态巨无霸 Gemini Pro 、GPT-4V实现了「以最小参数，撬动最强性能」的最佳平衡点。“大”并非是唯一选项，小模型也可以实现同样的效果。

面壁智能的“高效”，不单单体现在训练环节。

在部署方面，面壁智能是模型厂商中最早提出“端云协同”的，通过协同推理的方式降低降低推理部署的成本、时延和能耗，让大模型可以跑在手机、电脑、汽车、音箱等低功耗的芯片。

以及大模型驱动的群体智能技术体系，包含智能体通用平台AgentVerse、技术协同同台、应用层面的多智能体协作开发框架ChatDev，帮助开发者打通大模型落地应用的最后一公里。

全流程加速大模型应用升级

基于丰厚原创技术底蕴，并匹配大模型这一系统工程的本质要求，面壁打造了一条从数据原材料、到模型制作过程中精湛训练与调校工艺环环相扣的全高效生产线。

譬如面壁智能独家的“沙盒实验”，让小模型验证大模型性能成为可能；Ultra对齐技术，可以有效大模型的综合表现；现代化数据工厂，形成从数据治理到多维评测的闭环；高效的Infra，为面壁智能的大模型训练打好了地基；训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune构成工具套件平台，可在降低90%的训练成本同时，将推理速度提升10倍。

在创立之初，面壁智能就开始将大模型和国产软硬件基础设施做适配，想要从全流程加速大模型应用升级。直接的例子就是面壁智能和昇腾AI在软硬件的深度合作。

比如面壁智能基于昇腾基础软硬件完成了CPM－BEE大模型和BMTrain加速框架的迁移，通过两个关键步骤实现了BMTrain和昇腾的适配，通过亲和融合算子替换实现了大模型的性能提升，最终让CPM、llama等模型的集群训练性能与业界持平。

再比如基于昇腾底座采用MindSpore框架开展了深入的创新研究。在微调方面，面壁智能实现了多个下游任务Sora在使用不超过1%的模型参数微调时，仍然能够超越其他微调方式；针对推理场景，面壁智能通过量化、蒸馏、剪枝等技术的灵活组合，在多项任务上压缩至1/3时，模型精度仍能保持99%。

国内的大模型团队中，同时从算力、数据、算法切入的团队并不多见，为何面壁智能选择和昇腾AI一起，全面系统地推进大模型上下游工程？

曾国洋曾在媒体采访中这样说道：“我们追求的是，在同样的时间、同等参数量的条件下，实现更优的Scaling Law。当模型的效率优化到一定程度的时候，如果要继续精进下去，就需要数据、算力与算法多者结合。”

这种不给自己设限的挑战精神，所带来的不单单是效率，还有通往AGI道路时的底气。

不少大模型团队为算力卡脖子问题焦虑的时候，曾国洋态度相当镇定：“对于比较早开展大模型研发的团队来说，国产化适配基本上都已经完成了，因为做的早嘛。其实国产化算力的差距没有想象的那么大，特别是像昇腾这些设备，目前已经达到了大规模商用的水平。”

和面壁智能一样，昇腾AI也在全流程使能大模型创新落地，从大模型的开发训练到推理部署。正是这些同道人的相向而行，让大模型开发不再是复杂的超级工程，每个开发者都能参与其中。

写在最后

大模型市场竞争激烈，技术迭代日新月异，但曾国洋连续几个月工作都不觉疲惫，用他自己的话说“因为我很相信 AGI 会实现。”

这正是年轻人的“可爱之处”，他们有挑战新事物的勇气，也有躬身入局的行动力，更重要的是，他们还是一群有理想的开发者。就像曾国洋在创办OpenBMB开源社区的初心：帮助千千万万的开发者降低门槛，让大模型飞入千家万户。面壁智能无疑是理想和初心的延续。

往期推荐

算子开发到推理加速，一位00后开发者的“升级打怪”之旅

开发者怎么拥抱智能化浪潮？昇腾AI给出了“通关指南”

主理人 | 张贺飞（Alter）

前媒体人、公关，现专职科技自媒体

钛媒体、36kr、创业邦、福布斯中国等专栏作者

转载、商务、开白以及读者交流，请联系个人微信「imhefei」

Alter聊科技

探究产业兴衰，专注商业解读。

最新文章

AI-Native的路要怎么走？一群技术“老炮儿”指明了方向

影智科技唐沐：人形是累赘，具身智能并不缺少落地场景

出海风向标：海尔、九牧、比亚迪等国货品牌为何能“反向占领”？

新增市场份额超30%，昇思MindSpore成为AI框架的新选择

“伙伴+华为”，看见千行万业数智化的最优解

数智化赋能龙港中医院，让医疗服务有了“人情味”

“芯片围城”下国产AI要放缓？答案或截然相反

AutoGLM的一小步，人机交互进化的一大步

操作系统加码主动防护：数智化有了“安全底座”

肖特成立140周年：以创新铸就特种玻璃开拓者的传奇！

这条马桶魔性广告，为何让九牧“抢”了双11的流量密码？

全面升级的“新清影”，给AI生成视频带来了哪些新玩法？

从微笑曲线底端崛起，中国县城工厂走向“新质供给”

鲲鹏生态繁荣的“幕后推手”：虹信软件扛起“智改数转”大旗

阿里云上的Salesforce这一年：深耕本地化，释放新价值

拼多多的数字农业三部曲：新技术、新农人、新商路

滴滴企业版“崩了”的教训：企业应该对技术有“敬畏”之心

1.4亿元融资背后，媒体融合进程被按下“加速键”

“特斯拉式”创新，被这家科技卫浴品牌极致演绎

“好房子”的智能化探索，华为和保利为行业做了示范

联合赋能企业网络创新，中企通信和华为加速IPv6+进入“繁花期”

钉钉x昇腾：用AI一体机撬动企业数字资产智能化

再次上演“空间魔法”，方太重新定义水槽洗碗机的能力边界

从“纸面算力”到“好用算力”，超聚变打通AI+“最后一公里”

在成都建“圈”五年，鲲鹏让智能化新风吹遍巴蜀大地

千行万业的智能化转型，需要一场网络供给侧改革

银行核心系统的现代化改造，华为的答案是重塑敏捷和重塑韧性

百年码头遇见数智化：华为和天津港解锁新质生产力

拼多多为何主动“慢”下来进行商家生态治理？

“人手一个贾维斯”的愿望，正在被“视频通话”功能带进现实

智能马桶销量全球第一，为什么是中国九牧？

唤醒手机上的AI，还需要一个物理按键吗？

两分钟“熟读”《国史大纲》，大模型的下一个爆点是“书童”？

详解电商三巨头的运营成本：商家的压力到底来自哪？

千行万业的数智化，将在全闪普惠的土壤上开出新花

“新质互联网”解读：新在哪里，利在何处？

智谱AI再放“大招”，30秒将任意文字生成视频

“算法票友”搭档“技术博主”，他们说算子开发就像玩游戏打怪

比亚迪王传福对话九牧林孝发，一场火出圈的“科技跨界”

麦芒30全新绽放，中国电信勾勒出AI手机的新方向

透过三星Galaxy Z Fold6，看见高效生活的未来图景

中小企业和数智化的距离，只差一块华为IdeaHub

“内卷”的电商江湖：拼服务才有出路

英伟达被“压制”的25年

如何加速AI原生应用进程？华为云开天aPaaS提出新范式

如何占领消费者科技心智？这家中国企业给出标准答案

告别“低水平内卷”，云计算步入“黄金时代”

咖啡价格卷至6块6，这次轮到库迪慌了？

26岁的“天才少年”，带队面壁打通高效大模型之路

价格战迷雾下，大模型创业者只能被动挨打？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉