OpenAI-O1之下,我们技术该何去何从

文摘   2024-10-28 11:40   日本  

今天给大家带来一篇知乎好友@ybq的文章,《o1之下,技术何从》。

作者:ybq 
知乎:https://zhuanlan.zhihu.com/p/3341034510 

这篇文章不聊 o1 的技术路线(目前也没人能精准讲出来,毕竟大家都是猜测),我聊一下 o1 带来和改变了什么。

虽然之前立过 flag 说再也不写“感想文”了,但怪只能怪 o1 带给我的震撼还是太大了,实在忍不住想来谈谈这波新的技术范式。

o1 带来了什么

在模型效果上,o1 带来了令人瞠目结舌的理工科能力。我这里不举例子来论证了,行外人我解释了也听不进去,行内人则无需我解释。我建议感兴趣的同学花 20 美元买个会员,去把自己写不出来的代码,推不出来的公式扔给它试试。它就算给你解决不了问题,它的 cot 过程也足以带给你灵感。我不知道博士的知识量是多少,但如果以自己的知识量作为硕士生的平均知识量,硕士生知识量已经被它完全碾压了。具体说来,理科生不如它会写代码,工科生不如它会推公式。

在产品定位上,o1 的出现暗含了一种趋势:llm 不再是陪用户瞎聊的玩具,而是每一次回复都有价值的工具。如果你体验过 o1 就会发现,它的 token 很贵,回复很长,一个简单的加减法它都要给你写一堆分析过程。也就是说,o1 不鼓励我们再把简单的问题抛给它,有事没事就随便问问它,它现在鼓励我们把有难度的问题抛给它。换言之,它在提纯用户,提纯对理工科知识需求极大,提出的问题都是复杂问题的用户,它在努力完成从一个聊天玩具到灵感工具的华丽变身。

在技术路线上,o1 则再次证明了强化学习的重要性。dpo 是我这种没有强化基础的老 nlp 从业者的一块遮羞布,o1 则完全撕下了这张遮羞布。不学强化,不训 reward_model 是吧,那就抱着 sft / dpo 这些老古董一辈子技术落后别人吧。

o1 可能改变什么

明人不说暗话,我觉着 o1 最可能取代我这种非头部的算法工程师。

在 o1 之前,我一度认为算法程序员不会轻易被 AI 取代,毕竟我们是训 AI 的人。但 o1 的炸裂效果让我开悟了,llm 算法程序员作为“工资最多,产出最少的程序员群体”,是最可能被取代的,算法可能真的只需要留下何凯明这种最优秀的人去拓新了。毕竟,既然怎么都跟不上 openAI 的脚步,那我就买现成的呗,让 BBAT 等的 AIlab 去跟呗。这很现实,就像 llm 六小虎的模型被开源模型打得丢盔弃甲,以至于各种网传不做预训练了。

我认真的思考过 o1 能不能取代我,结论是:相比于 o1 ,我比它强的并不是脑子,而是眼睛、耳朵和嘴巴。换句话说,我的知识量和逻辑能力已经完败,仅存的优点是“我懂得从这个世界获取有用的信息来解决问题”。这包括沟通能力,从外界汲取新知识的能力,找援助的能力…… 但如果把我所见所闻的信息全部写成 prompt 灌给它,它写出来的代码会更快更好。

虽然我引以为傲的优点,也就是和客观世界交流互动的能力,大概率是 AIGC 最大的难点,要很长时间才能突破。但问题是,即使 AIGC 没有攻克这个难题,我的优点也可以被其他人取代,被一个不会训模型的工资只有我 N 分之一的人来取代。如果“有知识 + 会沟通”的人被称为人才,那么“会用 o1 + 会沟通”的人则是未来的廉价人才,这就是我认为 o1 可能会改变的事物 —— 人才的定义:“人才是能弥补 AI 短板的那群人,或优化 AI 本身,或协助 AI 和客观世界进行交流”。

技术何从

言归正传,在新的 o1 的技术范式之下,像我这种 llm 算法工程师该何去何从呢?我觉着答案很简单:学 o1,即使做不出来 o1,也要学会 o1 的技术储备。等到有人公布 o1 的技术路线,立刻能够复现 o1 这个工作,提出新的优化方向。就像当初大家靠会魔改 bert 来证明自己是有价值的,很可能马上也要通过会魔改 o1 来证明自己是有价值的。

好,这里涉及到另一个问题了,o1 到底是怎么实现的?

我问过我的饭搭子,万一 openAI 连 next_token_prediction 或者 transformer 都抛弃了,那我们再怎么努力不都像傻子一样吗?他说不会,“openAI 追求的一直是大道至简,把最简单的技术路线做到极致,而不是拓展各种杂七杂八的支线。在 bert 时代,他们顶着讥讽坚持了五年的 gpt 网络结构就是证据。scaling_law 的提出也是一个证据。” 不知道大家怎么想,我是认同了我朋友的观点,openAI 的技术路线大概率就是把 RLHF 做到了极致。

在坚定了 RLHF 的路线没有问题后,过去一个月我读了很多大佬的文章,张俊林、朱小霖、猛猿、曹宇 …… 可我依旧连一个基础问题 “o1 是几个模型” 都回答不上来。除了 cot 模型 和 generate 模型,o1 的自我纠错能力到底是离线 PRM 训出来的,还是在线挂了一个 PRM 呢?大佬们给的都是自己的猜测,却没有一个人能给出令人信服的证据。

好消息是,大家都提到了几个关键点 MCTS ,PPO ,PRM。那就没啥说的了,先学好这几项技术,然后耐心等大神们纰漏更多的技术,或者自己尝试成为这个大神。此外,我补充一个技术观点:llm 现在连推理耗时都不在乎了,带 cot 的 generate_reward_model 该成为主流了吧。不计任何训练成本,就是要准。

写在最后

说白了,我这篇文章没啥意义,纯粹的在传播焦虑,以及“劝学”。我知道国内的 llm 从业者可能只有不到十分之一的人研究方向是强化,但其他人就眼睁睁看着他们做最前沿的方向吗?遮羞布 dpo 已经被撕了啊!公司不给时间学,那就下班学,周末学,节假日学。现在的 llm 算法从业者就是在逆水行舟,没有喘息的余地了。

我和饭搭子知乎@真中合欢 经常在吃饭遛弯时瞎聊:你最近悄悄学的 ppo 啥时候分享啊?上周末你训生成式 reward_model 了吗?你觉着那谁说的 o1 路线可信不?—— 这些并不属于我们的工作内容,我们也没用工作时间来学这些,我们只是不甘心被别人甩的太远。

希望大家都能在学习路上找到自己的 o1 技术伙伴吧,不行就来找俺们这种强化菜鸟一起学!PS:看到这里,如果觉得不错,可以来个点赞在看关注。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

NLP工作站
日常分享AIGC前沿知识&落地经验总结,也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍
 最新文章