OpenAI o1模型十问十答

文摘   科技   2024-09-14 20:41   上海  
关注共识粉碎机,获取历史讨论会纪要

Q1:o1的开发者反馈怎么样?

A1:就和大家看得各种测评集一样,多数场景好一点。Coding(Devin报告)、教育做题场景(各类做题)、以及统计分析场景提高很多。

另外o1模型对于开发者来说,比用4o这些模型更难。因为o1内嵌cot,对很多开发者来说要重新改product flow,原来自己做的cot都不行。对于API的Finetune要求也会更高。

我们看到o1的早期客户一开始用的感受是小幅提升,但经过合作Finetune后,模型效果提升明显。

所以可能过一段时间会看到越来越多的usecase。

Q2:o1的Researcher反馈?

A2:很兴奋,解锁了很多研究员的心结。第一个是发现了一条稳步提升性能的新路径。第二个是发现API可以不管First Token Latency,而且居然还有场景。所有Researcher都会往这个方向再做一遍。

但RL的难度比Pretrain更高,寻找信号过程非常难,而且特别吃算力。可以说GPT4大家基本上都会做了,但是RL除了头部三家+XAI,还有比较大的挑战。

Q3:o1价格到底有多贵?

A3:价格非常贵。单价大概是4o的4倍,但是o1中间的隐藏推理过程全部算Token。所以单次query可能比o1贵20-100倍。

OpenAI这么定义隐藏推理的价格:While reasoning tokens are not visible via the APl, they still occupy space in the model's context window and are billed as output tokens。

o1的单价提高可能因为现在的推理模式需要更多搜索、排序等额外的算力。

这个价格大范围使用还是挺难得,后面应该会有一个工程更优化的版本。

Q4:o1还会有新版本吗?

A4:会有。OpenAI自己的Paper里,现在的是o1-preview,他同时也给了非o1-preview的o1的benchmark数据。

Q5:o1对GPT5有什么参考价值?

A5:如果这代模型到human level problem solving能力,就可以生成human level合成数据。互联网数据也是人生成了,如果人的能力尽量逼近,就可以帮GPT5提高pretrain的data quality。

Q6:RL的算力复杂性,以及算力需求

A6:算力复杂度介于Pretrain和Finetune之间。主要是RL需要不停的调模型参数,同时需要规模化找Recipe。

算力需求我们之前讲过了。现在搞这代RL,基本万卡是入场券。越头部越卷。

Q7:RL可以不用GPU吗?

A7:CUDA在RL领域的壁垒比Pretrain大。要用到很多通用的算子,原来是算子收敛到Pretrain就够了,现在是算子更宽了。那GPU还是几乎唯一的Scalable的方法。但另一方面,单卡性能优化、和模型公司自研asic,可能会削弱nv的壁垒。

而且这版o1从作者名单可以看出来OAI重写的Data Infra,这些也是一开始就围绕GPU做的工程体系。

Q8:RL的Scaling Law在什么阶段?

A8:RL还没收敛,我们判断还在Scaling law早期。各种方法都还没定下来。


Q9:o1对集群的影响?

A9:隐藏推理都算到context window里,KV Cache就会变得非常大。如果Context Window很大,可能还是要用到NVL36或者72。但如果场景可以接受更高的延时,那可能不一定需要。反过来如果场景要大幅缩短延时,那就得上NVL72。

集群目前很少有专门forRL的集群,都是posttrain和pretrain一起用,倾向于按照pretrain要求组建集群。当然,长期看,如果有专门为了RL的集群,那么互联要求会比pretrain低,但会比finetune和传统RLHF高。

而且另一方面,推理的集群化需求会更高。


Q10:o1对微软的影响

A10:自2季度财报的Preview开始,我们就表达了对合成数据的担心。o1出来后可能会大幅推动合成数据增长(更贵+新增用量),对微软的看法转向乐观。


更深入的问题欢迎联系久谦销售,与我们进行咨询。


我们的新书正在发售


我们即将发售一篇报告,其内容是:

  • Robotaxi与FSD的Scaling Law

尚有数篇报告正在调研中,其内容是:

  • AI客服的进展与影响:NICE、FIVN、NOW

  • AI咨询行业:PLTR、AI、ACN

  • ASIC调研与技术趋势

  • 季度调研系列:META、MSFT、AMZN、AAPL、NVDA

在过去的四个月,我们已经发售了九篇报告:

  • 算力需求场景测算

  • AI与GPU在META中的应用

  • 微软Copilot进展、GenAI售卖场景以及如何影响公有云选择

  • 北美算力租赁厂商近况及供需平衡情况

  • 互联技术以及未来发展趋势

  • 国数据中心与电力情况

  • 2Q24季度调研:META与MSFT

  • AI手机

  • 草莓与前沿大模型进展

除了报告外,我们也承接定制化的投研需求。

对报告感兴趣,有定制化投研需求,或者对我们的日常调研纪要(每月超过50篇AI调研纪要)感兴趣的请联系下面的久谦销售同事,或者点击共识粉碎机底栏菜单页的投研服务:



NV大涨与RL自己的Scaling Law


OpenAI联合创始人离职解密


OpenAI到底亏了多少钱?


共识粉碎机
寻找与共识的不同
 最新文章