狂奔一年后，面壁者决心“破壁”

科技 2024-12-21 21:42 北京

出品 | 虎嗅科技组

作者 | 王欣

编辑 | 苗正卿

头图 |《奥本海默》

“世界上不需要超过 5 个或是几个大模型，我觉得这完全跟当年 IBM 的董事长的论调——世界不需要超过5台计算机是一模一样，是非常短视的。”面壁首席科学家、清华⼤学长聘副教授刘知远对虎嗅表示，“我认为未来的大模型就像是CPU一样，无处不在。所以我们首先要做的是降低成本，让每个人有属于自己的若干个大模型来支持生活、学习和工作。”

这是近期中关村初冬的早晨。2024中国人工智能大会(CCAI 2024)像呈燎原之势的大模型产业切片，汇集了AI新锐企业和学者。此时距离刘知远在CCAI 2024端侧专题论坛发表Densing Law主题演讲，不足一小时。

在众多AI企业中，面壁从路线、模式甚至名字，都显得又些另类。当刘知远坐在我面前，这些另类似乎都找到了答案源头——他的身上，学者的儒雅和接地气的一面达到了奇妙的平衡比例。

巧合的是，在交流的前一天，llya发表了预训练时代将会终结的判断，又撼动了一些从业者对于大模型和AGI的信心。

刘知远也观察到，目前国内已经有大模型公司放弃预训练。“这种事情在历史任何时刻都会存在”，就像2000年互联网泡沫破灭时，不坚定的参与者批量离场，“很多人看到大模型这个方向火，然后加入进来，这样的人，他一定会在遇到挫折的时候率先退场 。”

“数据差不多耗尽了，接下来的确会面临，模型可持续训练的未来的发展瓶颈”，但刘知远认为：“通过强化学习或者合成数据依然可以制造更多数据，明年仍然还是快速发展的阶段。”

这一瓶颈是刘知远在一年前就预判到的问题：“半年之后，国内一定有五六家可以把GPT-4水平的模型做出来，那还有必要做这个事情吗？”

从商业上考虑“投入了几千万，市面上五六个同类型的模型，你怎么能确保你的模型能卖得的比别人都好？”

因此一年前，脱胎于清华NLP实验室的面壁智能，就开始专注端侧模型的路线。

交流结束后，刘知远上台分享了近期团队的研究成果。正是Scaling Law遇到瓶颈后的“破壁之法”，预测大模型发展的另一视角——大模型密度定律（Densing Law）—— 模型能力密度随时间呈指数级增长。

就像摩尔定律背后的核心其实是有效地提升芯片上的电路密度，而不是简简单单的芯片尺寸。大模型行业也有着和摩尔定律相似的规律，和芯片的电路密度类似，大模型的能力“密度”也在提升，这意味我们能用更少的参数实现相同的智能水平。

模型能力密度提升意味着——如果一个4B的模型能实现40B模型的效果，那么它能搭载运行的终端范围会大大拓宽，比如原来服务器上的模型，就可以直接在手机上运行，它的应用范围也就拓宽了。

以下为虎嗅与刘知远一对一交流实录：

虎嗅：最近半年你关心的问题是什么？

刘知远：现在算力浪费现象严重，导致模型训练成本过高。历史上，IBM曾预测全球仅需5台大型计算机，但如今我们有13亿台PC、70亿部手机和数百亿联网设备，以及2000亿个CPU在运行。有种说法是世界上不需要超过 5 个或是几个大模型，我觉得这完全跟当年 IBM 的董事长的论调一模一样，是非常短视的。我认为未来大模型应像CPU一样普及，让每个人都能拥有大模型来改善生活、学习和工作。因此，降低成本是关键，来让大模型达到信息革命PC机的时刻。（虎嗅注：密度定律表明，达到相同能力的模型参数指数递减，2023年以来每3.3个月减少一半，相应模型推理速度提升一倍。例如，GPT-3.5级模型在过去20月内API价格下降至1/266.7，约2.5个月下降一倍。）

虎嗅：llya最近表示预训练毫无疑问将会终结，训练模型需要的海量数据即将枯竭。你如何看待他的观点？

刘知远：我觉得他说了一部分的这个正确的事情，现在数据差不多耗尽了，可能接下来的确会面临，模型可持续训练的未来的发展瓶颈。因为所谓的Scaling Law有两个基本的支撑点，数据和算力。llya主要还是强调的数据问题，但是其实我们会认为算力也是关键问题，随着这个模型变得越来越大，训练算力成本有限。如何支撑这个模型可以去有效scale？所以我们会认为llya提出来的是合时宜的，解决方案还要探讨。

其实我们在去年的时候就意识到这个问题。

虎嗅：目前国内有公司已经陆续放弃预训练，你怎么看？

刘知远：大模型是去年才开始火的。所以我们会认为，很多看到这个方向火然后就加入进来，这样的人，他一定会在遇到挫折的时候率先退场。这是必然的。因为在历史上的任何的时刻都会存在这样的事情，就跟千禧年互联网兴起的时候，也有很多人被吸引想要参与，但是互联网泡沫破灭时，就会主动地或者被动地退出。

虎嗅：这可能跟明年哪些新的趋势有关系？你对明年大模型发展的预判是什么？

刘知远：可以看到就是的，不管是比如说这个推理，还是说Agent，还是说别的强化学习等等，就是包括 o1他提到的各种各样，其实回归到本质的话，其实无非就是要想到某种办法，然后能够为这个模型来提供更多数据。

比如AlphaGo先从人类积累的数据来学习下起，所有的基础都学完后，就出现AlphaZero让下围棋的 Agent 跟自己下棋，来产生更多数据。

如果我们控制这个模型的参数规模不变，我们可以随着技术的发展，把更多能力放进去。也就是说模型的规模不变，但是模型的这个知识量密度在增加。所以我觉得面向未来其实仍然大有可为，明年一定还是快速发展的阶段。

这个过程其实就像是，科学技术的发展，来对抗这个世界的熵增的过程，就像芯片是要通过技术进步，来改善算力密集度，以更高的质量，更低的价格来达到相同的能力。

虎嗅：一年前是如何提前预判到行业目前现状的？为什么那时开始专注端侧？

刘知远：这个涉及到对技术的预判。就是在去年初的时候，ChatGPT的横空出世，其实是让很多人震惊。因为大家都还不知道这个东西到底是怎么训练出来的。但是经过大家快速的研判和探索，实际上在去年的大概到 4 月份，已经大致找到了到底如何达到相同水平的路径。

我们那次判断是：国内是到 2023 年12月实现GPT-3.5水准的模型能力，差不多需要一年的时间。

事实证明我们的判断是对的，因此2023年4月份GPT-4发布时，我们预计国内一定会在2024年的六月份前做出GPT-4水平模型。

所以我现在想问你，如果你是我们这个团队的决策者，你发现一年后国内一定有五六家可以把GPT-4水平的模型做出来，那还有必要做这个事情吗？问题是在于GPT-4的模型能力，至少需要几千万美元的算力。

当然，技术上是可以做的，但你做出来之后，你怎么把这个钱给赚回来？你投了几千万。但市面上有五六个同类型的模型，你怎么能确保你的模型能卖的比别人都好？

也就是说在我们确保技术上可行的时候，得去看这件事情在商业是不是值回成本的一件事情。

所以我们会认为应该更加重视的是极大地去降低训练模型的成本，极大地提升用相同的成本训练出来的模型品质，所以那个时候我们坚持的是这样的事情。这件事情其实事前我们并没有那么多信心一定是对的，当然事后的话证明我们是对的。

虎嗅：你怎么看现在有公司也开始转向端侧了？

刘知远：是的，我觉得这是好事。这是理性的决定。因为你不走向端侧，那就说明你还没有做出理性的决定。

虎嗅：你觉得未来这样公司会越来越多吗？

刘知远：一定会。

虎嗅：经历过这一年之后，你的感受是什么？

刘知远：我觉得学到好多事情。因为我是作为清华的老师，去参与创业。我觉得这的确是一个大的时代，一定要抽身参与其中，但是这里面其实对我来讲有很多新鲜感受。

我们最近几个月其实一直在尝试着去总结说我们到底怎么办？后面的路怎么走？因为这件事情是充满不确定的。

llya的判断出来后，很多人对AGI信心又撼动了。是不是llya说的就一定是对的？或是我说的就一定是对的？

这个世界本身就是充满非共识的。真正创新的东西才是推动科学发展的力量，所以其实我觉得还是要能够去寻找，历史上的一些蛛丝马迹的规律，来指导着我们往前走的方向。

我一直跟实验室的同学说要实事求是。不要因为你在这方向上取得了优势和一些积累，你就会认为这个方向就一直是对的。

我们团队其实从 2010 年开始，就在做自然语言处理，然后再到 2018 年从深度学习到大模型，其实我们应该算是最早做这个事情的。原因在于我会认为就是这个世界的趋势，它不以个人意志为转移，不会说因为你觉得这个技术有缺点，它就不会发展。该发生的一定会发生，我们要做的事情就是要去顺应事实，而且我们看得更前瞻，更前沿去做一下。

虎嗅：之前被斯坦福抄袭时，你的感受是什么？如何看待中美大模型发展差异？

刘知远：我觉得它可能算是一个偶然事件，本身对面也相当于只是一个学生团队，我个人倾向于不太会把这件事情当成有深刻含义的一件事情，我觉得如果放在宏大的历史上来去讲，就像是黄仁宇的《万历十五年》，就是通过那一个年份，来叙述整个明朝的衰败，所以其实众多的case，会汇聚成一个大的趋势。

我们其实能清晰地看到，中国在过去的这十年、二十年的发展，其实是非常快速地在去成为这个世界上的，从追赶者到去原始创新的一个角色。

20 年前，大家都在说copy to China。那又过了十年，到 2010 年的时候，那时中国的 AI 论文发表已经在国际上能够数得着，已经算是崭露头角，那个时候其实大家一般就很少说 copy to China，而是说，中国好像不太善于做技术创建，善于做模式的创建。

现在又过了十年。我们会看到国际的顶级会议，国人的身影已经占了一半，所以我会认为我们现在已经有足够多的高水平青年学者。现在我们也像历史上的任何一个强国一样，能够实现技术超车，这就跟Densing Law所指向的那个趋势一定会发生。

如对本稿件有异议或投诉，请联系tougao@huxiu.com

End

想涨知识关注虎嗅视频号！

虎嗅APP

从思考，到创造

最新文章

白酒经销商们撑不住了

早报｜禁止员工去冰雪大世界企业道歉；山姆回应代购在厕所分装蛋糕；恒大地产1.2亿元债权将1元起拍；滴滴回应越来越容易打到臭车了

从OpenAI 12天发布会里，我们看到了行业的四个关键问题

四百万外国人，正在涌入上海

雅戈尔们“黔驴技穷”？

逆转趋势，俄罗斯工业越打越强了？

中国机场第一城，要易主了？

一些商场已经想清退星巴克了

照着迈巴赫，造不出一台中国行政旗舰

没有AI，大学生已经不会写论文了吗？

婚纱女王，卖了

于东来踩中时代情绪了

在这个日本爆火的App里，日本人不许说日语

从年薪百万到月入三千，柜姐被中产抛弃

OpenAI成功为自己制造了危机

微信推出这个送礼功能，到底好不好用？

有很多强二线城市率先回暖了

日本车企的团结，可能是中国车企最稀缺的一种品质

三股势力，强攻硅光

拉夫劳伦终于开窍了

理想，你再不拼就晚了

老外疯抢中国冥币

100家东盟企业走访思考

狂奔一年后，面壁者决心“破壁”

医药腐败“新花招”曝光，医保下令严查！

两个月挣一台车，年轻人排队给老人写回忆录

一大批餐饮店悄悄上新，羊肉餐饮要爆发了？

OpenAI正式发布o3：通往AGI的路上，已经没有了任何阻碍

从俄乌战场活着回来的年轻人

网约护士，是一门好生意吗

奢侈品变相降价

小红书终于解出了这道题

搞黄色才是第一生产力？我们可能都误会OnlyFans了

平价的江西小炒，正在全国爆发

拿到拆迁款，又迅速返贫的人

没有人会再低估15万级车的实力

万达再被公开“讨债”，这次是曾经最佩服他的人

澳门，又升级了

鲍威尔快演不下去了

早报｜商务部回应美方考虑禁售TPLink路由器；微信更新“送礼物”功能；武汉一公厕用“凹凸”分辨男女；国足年终排名中国排第90

被吹捧的“人类终极能源”，为何没人提了？

一顿冻10斤饭，打工人开始自制预制菜

为啥你拼命存的资源，最后又不想点开了？

AI牛奶是什么味儿？

2024年，多少年轻人在股市里赚钱了？

为啥9亿人次都信了这张榜单？

为什么越来越多的城市在取消公摊

大城市桂林米粉消亡史

二线豪华英菲尼迪，只要17万了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉