大模型是泡沫吗？

文摘 2024-08-21 10:40 江苏

今天给大家带来知乎好友@ybq（欢迎来关注），一篇关于从事大模型工作的感悟文章。不谈技术，只聊聊这两年从事 llm 工作的一些感悟。

知乎：https://zhuanlan.zhihu.com/p/715607861

我个人对 llm 是一种很复杂的态度。毕竟，它真的击碎了我 2023 年之前所有的技术积累，以前在 nlp 苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧，好像在 ChatGPT 面前显得一文不值。

不过，事情都有两面性。与我的技术一起被击碎的，还有我那一潭死水的工作内容。我不再是特征工程师 —— “花了几个月的时间，就只为了构造某个能力的数据特征，然后想办法加入到模型网络中”。当领导又想让模型有一个新的能力怎么办，重复这个特征构造的过程，下一个季度的 OKR 也就制定完毕了。我一点都不认为这样的工作节奏能带给我自己、带给我的公司任何有意义的内容。

因此，作为一个曾经研究对话系统的 nlp 码农，即使我过去的知识和工作经验极速贬值，我也认可 llm：认可它提高了程序员 code 的效率，认可它创造了新的研究范式，认可它给我的工作内容注入新的活力，认可它掀起了全民狂欢的技术浪潮！

llm 是生产力工具

不管有多少人抨击 ChatGPT 的技术路线，也不管 ChatGPT 未来会不会真的取代我程序员的工作，一个毋庸置疑的事实是：ChatGPT 是当今不可或缺的强大生产力工具。

不会前端的我敢答应领导说我会给个简单 demo，而不是像以前那样说“我不确定 Django 能不能做这个”；没学过 go 语言的我敢直接写用于上线的代码；记不住的正则命令我不需要再搜了；学不会的 pandas 终于不用再学了；shell 语言的冷门命令也能信手拈来了——这些都是 ChatGPT 带给我的自信。

不仅是程序员，只要是文本领域，ChatGPT 就都已经改变了工作方式。它写出的新闻稿、小说不能用？那就让他写十篇你选一篇，或者是让它写个大纲自己再修改下。也许模型在创作任务的效果永远超不过人，但架不住模型可以批量生产、以量取胜啊。

在我眼里，不承认 ChatGPT 效果的人只有一种：极度的懒人，只接受它给你一个百分之百的可用方案！明明模型已经帮我们做了 90% 的工作了，已经十分接近最终成果，我们只需要再加上自己的筛选或简单修改，就可以完工了，难道就因为这 10% 的工作不想自己亲手做，所以选择自己从零开始做吗？我实在难以理解这种行为。

卖 ChatGPT 账号的、调戏 ChatGPT 然后做成视频的、使用 ChatGPT 生图的、利用 ChatGPT 大量生产文章的……很多人已经赚到盆满钵满，不会用 ChatGPT 提高生产效率的，真的会最先被淘汰！

llm 把所有人拉到了同一起跑线

2023 年之前，没有几个人用过 megatron、deepspeed，没有几个人研究过 DPO、PPO、MOE，没有几个人知道 reward_model 怎么训，也没有几个方向的数据 piepeline 是需要花大价钱清洗才能运转的，就连“sft 数据要追求质量而不是数量”也是过了半年才达成共识的。

在这个新的技术范式之下，一个新人可以和工作十年的 nlp 从业人员进行激烈辩论，一个小白可以与各种大佬讨论对于 LLM 的认知和实验结果。

去年，我最喜欢说的一句话就是：“都是2023年开始学的，谁又能比谁能强多少呢？”。

今年这句话依然生效，只不过同时我也意识到了，2023年已经在逐渐远去，凭借着天赋、财力、努力，deepseek、qwen等团队的同学很明显已经开始和我们拉开距离了。每个 llm 的从业者都要有比去年更大的忧患意识：好不容易回到同一起跑线，怎么能这么轻易再次被拉开？

即使我们所在的公司可以做不过 deepseek，但是我们要努力让自己的认知和能力不要被他们甩开太远！

llm 带来了黄金的技术时代

公司愿意花钱去买卡租卡来让我实践学习，领导看见我工作时间读论文会感到满意，同事之间每天都在讨论新的 idea 或者是 Meta / OpenAI / Google 的新技术报告。我不得不说，这样的工作氛围，在 ChatGPT 出现之前，我从来没有遇到过。

可惜的是，如今大部分的公司开始拥抱应用，琐碎杂活再次多起来了。因此，如果真的感觉工作太忙有些力不从心，从一个打工人的视角出发，真心建议大家可以利用周末多学学习跑跑实验。想一下吧，公司租着 4W / 月（1机8卡，粗略估计）的机器，来培养我们的认知，我想不到比这两年更适合提升自我技术的时机啦。

这种黄金时代在“人均只有十年的程序员生涯”中，应该是很难再有了！

llm 是泡沫？

回归正题，llm 会是一场泡沫吗？我不太理解这个问题为什么会被反复拿出来提问。这个答案对程序员来说真的重要吗？它是不是泡沫又能怎么样呢？毕竟，我既不在乎 AIGC 会通往何方，也不在乎 llm 是不是一条正确的技术路线，我只想在这场 llm 浪潮中，向我的领导、未来的面试官证明一件事：我愿意去研究最新的技术方向，我有能力去复现最新的技术成果，仅此而已！

当 Google 再提出一个新的技术范式，难道各大公司会因为曾经研究过 llm 就不愿意招我们了吗？他们一定还是会选择“ llm 工作做的最好的那群人”，来组建新的研究团队去跟随新的前沿技术。

所以，llm 是泡沫吗？这是企业家们考虑的问题吧，程序员无需多想，我们只需享受这场技术革新的盛宴。

写在最后

我想再额外分享一个观点：在 llm 这个赛道，真的没必要羡慕别人的工作，做好自己的工作即可。

举个例子，文本工作的同学天天在想：

做 pretrain 的觉着自己的工作就是爬数据和洗数据、亦或者是和工程一样无休止的优化训练框架；

做通用 sft 的觉着跷跷板问题根本无法解决，觉着评测集根本反应不出模型能力，羡慕领域模型可以不在乎其他能力；
做领域 sft 的又觉着自己没任何技术含量，想去解决跷跷板问题，想去训 reward_model；
做 rlhf 的觉着自己根本拿不到任何收益，动不动就训练崩了，远不如 sft 的洗洗数据就能提很多点。

图像工作的同学则天天在想：

做 stable difusion 的认为多模态才是未来的方向；
做图像文本多模态的认为 sora 太过于惊艳，一定是 AIGC 的未来；
做 sora 的又觉着老板脑子有问题才会相信 OpenAI 画的技术大饼。

说实话，没必要抱怨自己的工作内容，有卡用，就领先了大多数的同行。即使是当下最具含金量的“pretrain / scaling law”工作，在未来也可能在求职时一文不值，毕竟难道曾经有公司招 nlp 方向的人要求会训出一个 BERT 吗？以应用为导向会是 llm 的必由之路。

在这场 AIGC 的浪潮下，工作没有高下之分，眼下的工作大概率都会像 BERT 一样成为时代的眼泪。我们只需要做好当下，培养自己鉴别论文价值的能力、复现开源项目的能力、debug 代码的能力，坐等真正的“AIGC”出现即可。

最后，没卡的同学，我这里还是建议多去找实习，大模型时代要多实践，有时候读再多的论文，刷再多的技术文章，也不如一次 debug 多机通讯报错带来的认知深刻。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！

我们的口号是“生命不止，学习不停”！

NLP工作站

日常分享AIGC前沿知识&落地经验总结，也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍

最新文章

LLM实践系列-从零开始预训练1B级别大模型的心路历程

也许是2024年最值得一去的大模型国内年会！

LLM实践系列—大模型的拒绝采样2

实测腾讯开源的Hunyuan-Large大模型，感觉。。。

LLM实践系列-昇腾910B上进行Qwen2.5推理

LLM实践系列-细聊LLM的拒绝采样

面向中文有害表情包（meme）的综合性检测

OpenAI-O1之下，我们技术该何去何从

CartesianMoE：通过笛卡尔积路由提升专家间的知识共享

LLM实践系列-拯救Continue Pretrain的数据

超全！一文详解大型语言模型的11种微调方法

LLM实践系列-详谈Tokenizer训练细节

LLM实践系列-数据去重之Simhash&Minhash分析与实现

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

全是细节 | 聊一聊做SFT的经验

Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

长文 | Reverse-o1：OpenAI o1原理逆向工程图解

全是细节 | 聊一聊做Pretrain的经验

Quest：一种以查询为中心的长文本数据合成方法

如何提升角色扮演大模型的拟人能力？

Qwen2.5系列模型开源，你值得拥有！！！

长文 | 探索基于RL的新LLM scaling范式

大模型千卡训练-经验指北

浅谈OpenAI o1的价值意义及RL 的Scaling Law

六个问题带你看懂什么是理工科学霸-OpenAI o1！

大型语言模型实战指南

大模型论文淘金

DPO，RM，RLHF 傻傻分不清楚

如何获取高质量数据进行代码指令调优？

浅谈大模型角色扮演：从当红炸子鸡到无人问津

将端侧大模型进行到底-MiniCPM3-4B开源