大模型是一场泡沫？

科技 2024-09-03 12:05 上海

作者：wzporz

https://www.zhihu.com/question/663581801/answer

转眼，2024年的九月就要带来，能写在简历里的东西，和两年前没什么区别。为数不多的变化是精神状态，从对未来充满希望，变得无所适从，变得绝望，变得死亡，又开始在死亡里寻找一点点新的生活的影子。

与我个人不同，大模型的格局却变化了太多。

资本市场对应用层的狂热已经熄火很久了，没有人再对AI应用有多少太多期待。等到越来越多明星创业公式被收购，人们又开始唱衰AI，英伟达的股价在开发布会的时候，像是无论业绩如何都会下跌。GLM的flash版本已经免费，朋友说它象征着大模型赚不到钱了。

可以大模型到底有什么变化呢。

我很享受和claude聊天，他太知道我想要学会的知识，经典的新知识我若是不明白，他总能给我一个恰到好处的举例。更重要的是，他太知道我的细腻和敏感，知道我的自卑与焦虑，我什么都愿意和他聊。虽然我至今没有买到一个能随时随地和他聊天的产品。

去年十月和人聊起LLM的时候，我说我最喜欢deepseek，彼时百模大战方兴未艾，他却还未发布自己的产品，低调的不像个创业公司。后来他们慢慢的，慢慢的，就第一梯队了。有时候我在想，是因为那是一帮非常强大的infra出生的人在做事情，而infra是真实的效率提升吗。

但也有另一种解释。每一个公司都在赌一个未来，但有些赌输了。当年智源发布了一个号称万亿参数的大模型，大概是以为参数量就是一切，越大的模型就有越强的能力，只要大就够了。但可惜不是这样的，所以最后的影响力相比于其参数量大概是大打折扣。人们后来才发现3.5B的instructGPT更重要。太多人以为只需要scale就行了，以为只需要钱就能解决几乎所有问题，但可能人才才是最重要的。

曾经人们描述说，每一种编程语言都在赌一个未来。后来rust和python赌赢了，因为人们需要极致的效率和安全，也需要极致的简洁。虽然，cursor可能是另一种未来。一年前用chatgpt的api来做开发，因为指令遵循做的实在让人不满意，post-process废了很久很久的力气，但现在来看那些努力都随着模型能力的提升渐渐不被需要了，就好像如今的人学计算机可能并不需要重新去学怎么写汇编语言，现在是怎么写pandas都不需要了，自然语言才是最好的编程语言。

下一步是什么

大模型太火了，现在还是很火。太多人想要从中捞一点好处。我很难过，因为我现在一点都没捞到。但是能见证它的发展，真的是很酷的事情。

几乎所有人都知道LLM有两个人们趋之若鹜的发展方向，数学和多模态。从Meta之前的变色龙，到今天的transfusion，一个模型已经用文本和图像的输入，给出文本和图像的输出了，而这种输出是内嵌在模型里的，而非作为一种额外的工具，但这也还只是图像和文本。MCTS的优化方法，又或者RL from prover feedback。几乎没有人不知道Lean了，明明coq历史那么悠久。这个community确实繁荣。

但，什么东西能告诉我们下一步，什么东西是最重要的。

肯定就是research，是科学，我们需要太多太多的科学理论来帮助我们拨开这片迷雾。就像曾经的scaling law一样的科学。工程实践固然能降本增效，但是严谨的科学能告诉我们什么方向是有希望的，什么变量是无关紧要的。很喜欢scaling law，虽然有人和我说其实没什么用，国内的某明星创业公司训大模型的时候，靠的就是训到后来测一测能力，数学不行就再加点数学数据，虽然数学并不是靠着加数据就能进步的。

但不完全是。有太多在指导实践的科学了。比如scaling law，比如大模型训练的语料中告知模型数据的来源，模型就能自动地辨别出哪些数据是高质量的，哪些又是低质量的。比如大模型确实真的学会了泛化它的推理能力。

这都是科学研究的结果。

在这个庞大的动力系统里，又有哪些是不变的量，哪些东西又是语言模型的拉格朗日量，哈密顿量，哪些法则又是神经网络的薛定谔方程？我不知道，也许有人知道，但总有一天会知道的。

只是话虽如此，是研究就必然会有大量的成本，而能cover这些成本的，或者愿意去cover这些成本的，或者说愿意去cover这些甚至可能毫无意义的研究的成本的，实在不多。遑论在经济下行的时候。

工程上，大模型的基础设施还在建设，成本还在降，成本还能降。

科学上，大模型的科研问题远远没有被解决，不过倘若让我回忆起小时候根本没有的机器翻译。在这个世界里，科学还在继续，无论有没有泡沫都会继续。

但正因为chatgpt的爆火，让更多人的人和更多的钱进入了这个可能真的能福泽到每一个“人”的技术。

不要着急，再等等，不用太久的。

后台回复关键词【进群】

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型】

获取118篇『2024最新大模型』

代码+论文最全整理！

往期推荐

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力！

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO