o1之下，技术何从

科技 2024-11-03 15:35 安徽

作者：ybq

知乎：https://zhuanlan.zhihu.com/p/3341034510

这篇不聊 o1 的技术路线（目前也没人能精准讲出来，毕竟大家都是猜测），我聊一下 o1 带来和改变了什么。

虽然之前立过 flag 说再也不写“感想文”了，但怪只能怪 o1 带给我的震撼还是太大了，实在忍不住想来谈谈这波新的技术范式。

o1 带来了什么

在模型效果上，o1 带来了令人瞠目结舌的理工科能力。我这里不举例子来论证了，行外人我解释了也听不进去，行内人则无需我解释。我建议感兴趣的同学花 20 美元买个会员，去把自己写不出来的代码，推不出来的公式扔给它试试。它就算给你解决不了问题，它的 cot 过程也足以带给你灵感。我不知道博士的知识量是多少，但如果以自己的知识量作为硕士生的平均知识量，硕士生知识量已经被它完全碾压了。具体说来，理科生不如它会写代码，工科生不如它会推公式。

在产品定位上，o1 的出现暗含了一种趋势：llm 不再是陪用户瞎聊的玩具，而是每一次回复都有价值的工具。如果你体验过 o1 就会发现，它的 token 很贵，回复很长，一个简单的加减法它都要给你写一堆分析过程。也就是说，o1 不鼓励我们再把简单的问题抛给它，有事没事就随便问问它，它现在鼓励我们把有难度的问题抛给它。换言之，它在提纯用户，提纯对理工科知识需求极大，提出的问题都是复杂问题的用户，它在努力完成从一个聊天玩具到灵感工具的华丽变身。

在技术路线上，o1 则再次证明了强化学习的重要性。dpo 是我这种没有强化基础的老 nlp 从业者的一块遮羞布，o1 则完全撕下了这张遮羞布。不学强化，不训 reward_model 是吧，那就抱着 sft / dpo 这些老古董一辈子技术落后别人吧。

o1 可能改变什么

明人不说暗话，我觉着 o1 最可能取代我这种非头部的算法工程师。

在 o1 之前，我一度认为算法程序员不会轻易被 AI 取代，毕竟我们是训 AI 的人。但 o1 的炸裂效果让我开悟了，llm 算法程序员作为“工资最多，产出最少的程序员群体”，是最可能被取代的，算法可能真的只需要留下何凯明这种最优秀的人去拓新了。毕竟，既然怎么都跟不上 openAI 的脚步，那我就买现成的呗，让 BBAT 等的 AIlab 去跟呗。这很现实，就像 llm 六小虎的模型被开源模型打得丢盔弃甲，以至于各种网传不做预训练了。

我认真的思考过 o1 能不能取代我，结论是：相比于 o1 ，我比它强的并不是脑子，而是眼睛、耳朵和嘴巴。换句话说，我的知识量和逻辑能力已经完败，仅存的优点是“我懂得从这个世界获取有用的信息来解决问题”。这包括沟通能力，从外界汲取新知识的能力，找援助的能力…… 但如果把我所见所闻的信息全部写成 prompt 灌给它，它写出来的代码会更快更好。

虽然我引以为傲的优点，也就是和客观世界交流互动的能力，大概率是 AIGC 最大的难点，要很长时间才能突破。但问题是，即使 AIGC 没有攻克这个难题，我的优点也可以被其他人取代，被一个不会训模型的工资只有我 N 分之一的人来取代。如果“有知识 + 会沟通”的人被称为人才，那么“会用 o1 + 会沟通”的人则是未来的廉价人才，这就是我认为 o1 可能会改变的事物 —— 人才的定义：“人才是能弥补 AI 短板的那群人，或优化 AI 本身，或协助 AI 和客观世界进行交流”。

技术何从

言归正传，在新的 o1 的技术范式之下，像我这种 llm 算法工程师该何去何从呢？我觉着答案很简单：学 o1，即使做不出来 o1，也要学会 o1 的技术储备。等到有人公布 o1 的技术路线，立刻能够复现 o1 这个工作，提出新的优化方向。就像当初大家靠会魔改 bert 来证明自己是有价值的，很可能马上也要通过会魔改 o1 来证明自己是有价值的。

好，这里涉及到另一个问题了，o1 到底是怎么实现的？

我问过我的饭搭子，万一 openAI 连 next_token_prediction 或者 transformer 都抛弃了，那我们再怎么努力不都像傻子一样吗？他说不会，“openAI 追求的一直是大道至简，把最简单的技术路线做到极致，而不是拓展各种杂七杂八的支线。在 bert 时代，他们顶着讥讽坚持了五年的 gpt 网络结构就是证据。scaling_law 的提出也是一个证据。” 不知道大家怎么想，我是认同了我朋友的观点，openAI 的技术路线大概率就是把 RLHF 做到了极致。

在坚定了 RLHF 的路线没有问题后，过去一个月我读了很多大佬的文章，张俊林、朱小霖、猛猿、曹宇 …… 可我依旧连一个基础问题 “o1 是几个模型” 都回答不上来。除了 cot 模型和 generate 模型，o1 的自我纠错能力到底是离线 PRM 训出来的，还是在线挂了一个 PRM 呢？大佬们给的都是自己的猜测，却没有一个人能给出令人信服的证据。

好消息是，大家都提到了几个关键点 MCTS ，PPO ，PRM。那就没啥说的了，先学好这几项技术，然后耐心等大神们纰漏更多的技术，或者自己尝试成为这个大神。此外，我补充一个技术观点：llm 现在连推理耗时都不在乎了，带 cot 的 generate_reward_model 该成为主流了吧。不计任何训练成本，就是要准。

写在最后

说白了，我这篇文章没啥意义，纯粹的在传播焦虑，以及“劝学”。我知道国内的 llm 从业者可能只有不到十分之一的人研究方向是强化，但其他人就眼睁睁看着他们做最前沿的方向吗？遮羞布 dpo 已经被撕了啊！公司不给时间学，那就下班学，周末学，节假日学。现在的 llm 算法从业者就是在逆水行舟，没有喘息的余地了。

我和饭搭子知乎@真中合欢经常在吃饭遛弯时瞎聊：你最近悄悄学的 ppo 啥时候分享啊？上周末你训生成式 reward_model 了吗？你觉着那谁说的 o1 路线可信不？—— 这些并不属于我们的工作内容，我们也没用工作时间来学这些，我们只是不甘心被别人甩的太远。

希望大家都能在学习路上找到自己的 o1 技术伙伴吧，不行就来找俺们这种强化菜鸟一起学！

推荐阅读

（点击标题可跳转阅读）

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线

重磅！

1700多页的《人工智能学习路线、干货分享全集》PDF文档

扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。

长按扫码，申请入群

感谢你的分享，点赞，在看三连

http://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247567663&idx=2&sn=53abf8625b89a07339e925907e2189b3

AI有道

一个值得关注的 AI 技术公众号。主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为您提供切实可行的 AI 学习路线。

最新文章

确实可以封神了：一个悄然崛起的国产项目！

新的 Mamba 架构又双叒来了！上交大 & 华为提出 QuadMamba ：多个视觉任务 SOTA!

绝了，图片秒变代码，开发越来越简单了！

不是，现在都流行用 Kaggle 写论文了吗？

吴恩达出手，开源最新 Python 包，一个接口调用 OpenAI 等模型！

超越 GPT-4o！开源科研神器登场

小红书，把“失业线”压到了32岁

斯坦福大学发布全球人工智能实力排行榜

更新了！带 Agent 的 Cursor 太疯狂了

王者归来！Transformer 彻底爆发了！

突破 XGBoost！时间序列预测！！

美国 AI 曼哈顿计划 793 页文件曝光！全力研发 AGI，十大战略直指中国

万字长文，大模型分布式训练的学习过程总结

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

特朗普上台，第一刀再次扎在了留学生身上。。。

大模型中上分技巧大总结！！

FLUX“官方版ControlNet”来了！

训练大模型，这次竟卡在没图这里了。。。

Make U-Nets Great Again！北大&华为强强联合

计算机视觉顶尖期刊和会议有哪些？

王炸！字节又一爆款面试神器诞生了！

突破 LSTM！时间序列预测！！

谷歌浏览器，要被强制出售！

ChatGPT 4.0 与 Claude Pro 国内直接用！

史上最强！YOLOv11 杀疯了！

知名开源项目，阿里官宣停更，太痛了！

机器学习中降维和特征选择的对比介绍

直播预约 | CDCC 施耐德电气专场：算领未来，赋能无限！

已注销！985 新校区，不建了

12 个 ChatGPT 写作秘诀让你事半功倍！OpenAI 官方发布

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

打破纪录！中国科学家让薛定谔的猫活了 23 分钟

好生猛，全球首款 AI 游戏问世！

谷歌 2024 博士奖学金名单揭晓！清华姚班大神吕欣，KAN一作刘子鸣获奖

211 大学教授、博导，落马！

深入理解机器学习中的正则化

教授何恺明在 MIT 的第二门课——《深度生成模型》，讲座PPT陆续已出

裁员 9000 人。

ChatGPT 4o 国内直接用！

全球首例：14 岁男孩和 AI 聊天网恋后被诱导自杀，生前对话曝光

今年顶会这情况。。。大家提前做准备吧！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

Ilya 认错，Scaling Law 崩了？自曝 SSI 秘密技术路线取代 OpenAI

被导师放养，后果可能很严重。。。

GPT-5 被曝不及预期，OpenAI 员工：没什么科学突破了，接下来只需要工程

开源版 SearchGPT 来了，两张 3090 就可复现，超越 Perplexity 付费版

80w，确实可以封神了！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉