Q1:o1的开发者反馈怎么样?
A1:就和大家看得各种测评集一样,多数场景好一点。Coding(Devin报告)、教育做题场景(各类做题)、以及统计分析场景提高很多。
另外o1模型对于开发者来说,比用4o这些模型更难。因为o1内嵌cot,对很多开发者来说要重新改product flow,原来自己做的cot都不行。对于API的Finetune要求也会更高。
我们看到o1的早期客户一开始用的感受是小幅提升,但经过合作Finetune后,模型效果提升明显。
所以可能过一段时间会看到越来越多的usecase。
Q2:o1的Researcher反馈?
A2:很兴奋,解锁了很多研究员的心结。第一个是发现了一条稳步提升性能的新路径。第二个是发现API可以不管First Token Latency,而且居然还有场景。所有Researcher都会往这个方向再做一遍。
但RL的难度比Pretrain更高,寻找信号过程非常难,而且特别吃算力。可以说GPT4大家基本上都会做了,但是RL除了头部三家+XAI,还有比较大的挑战。
Q3:o1价格到底有多贵?
A3:价格非常贵。单价大概是4o的4倍,但是o1中间的隐藏推理过程全部算Token。所以单次query可能比o1贵20-100倍。
OpenAI这么定义隐藏推理的价格:While reasoning tokens are not visible via the APl, they still occupy space in the model's context window and are billed as output tokens。
o1的单价提高可能因为现在的推理模式需要更多搜索、排序等额外的算力。
这个价格大范围使用还是挺难得,后面应该会有一个工程更优化的版本。
Q4:o1还会有新版本吗?
A4:会有。OpenAI自己的Paper里,现在的是o1-preview,他同时也给了非o1-preview的o1的benchmark数据。
Q5:o1对GPT5有什么参考价值?
A5:如果这代模型到human level problem solving能力,就可以生成human level合成数据。互联网数据也是人生成了,如果人的能力尽量逼近,就可以帮GPT5提高pretrain的data quality。
Q6:RL的算力复杂性,以及算力需求
A6:算力复杂度介于Pretrain和Finetune之间。主要是RL需要不停的调模型参数,同时需要规模化找Recipe。
算力需求我们之前讲过了。现在搞这代RL,基本万卡是入场券。越头部越卷。
Q7:RL可以不用GPU吗?
A7:CUDA在RL领域的壁垒比Pretrain大。要用到很多通用的算子,原来是算子收敛到Pretrain就够了,现在是算子更宽了。那GPU还是几乎唯一的Scalable的方法。但另一方面,单卡性能优化、和模型公司自研asic,可能会削弱nv的壁垒。
而且这版o1从作者名单可以看出来OAI重写的Data Infra,这些也是一开始就围绕GPU做的工程体系。
Q8:RL的Scaling Law在什么阶段?
A8:RL还没收敛,我们判断还在Scaling law早期。各种方法都还没定下来。
Q9:o1对集群的影响?
A9:隐藏推理都算到context window里,KV Cache就会变得非常大。如果Context Window很大,可能还是要用到NVL36或者72。但如果场景可以接受更高的延时,那可能不一定需要。反过来如果场景要大幅缩短延时,那就得上NVL72。
集群目前很少有专门forRL的集群,都是posttrain和pretrain一起用,倾向于按照pretrain要求组建集群。当然,长期看,如果有专门为了RL的集群,那么互联要求会比pretrain低,但会比finetune和传统RLHF高。
而且另一方面,推理的集群化需求会更高。
Q10:o1对微软的影响
A10:自2季度财报的Preview开始,我们就表达了对合成数据的担心。o1出来后可能会大幅推动合成数据增长(更贵+新增用量),对微软的看法转向乐观。
更深入的问题欢迎联系久谦销售,与我们进行咨询。
我们即将发售一篇报告,其内容是:
Robotaxi与FSD的Scaling Law
尚有数篇报告正在调研中,其内容是:
AI客服的进展与影响:NICE、FIVN、NOW
AI咨询行业:PLTR、AI、ACN
ASIC调研与技术趋势
季度调研系列:META、MSFT、AMZN、AAPL、NVDA
在过去的四个月,我们已经发售了九篇报告:
算力需求场景测算
AI与GPU在META中的应用
微软Copilot进展、GenAI售卖场景以及如何影响公有云选择
北美算力租赁厂商近况及供需平衡情况
互联技术以及未来发展趋势
美国数据中心与电力情况
2Q24季度调研:META与MSFT
AI手机
草莓与前沿大模型进展
除了报告外,我们也承接定制化的投研需求。
对报告感兴趣,有定制化投研需求,或者对我们的日常调研纪要(每月超过50篇AI调研纪要)感兴趣的请联系下面的久谦销售同事,或者点击共识粉碎机底栏菜单页的投研服务:
NV大涨与RL自己的Scaling Law
OpenAI联合创始人离职解密
OpenAI到底亏了多少钱?