ChatGPT O1 Pro 来了,有点想冲动消费了

文摘   2024-12-10 00:00   四川  

我平时一直使用 20 USD/月的 ChatGPT Plus 订阅,确实帮我解决了不少学习和生活上的难题。

在我自己工作领域里,我时常会遇到一些让我苦苦思索却得不到答案的难题。在 ChatGPT 诞生之前,对于这些难题,我经常很难找到合适的人去寻求帮助。感谢 ChatGPT,如今我相当于请到一位几乎无所不知,有问必答的专家,而且他对于我刨根究底式的追问,也永不会厌烦。

即便有时他的回答不是那么准确,但也能给我以启发。

最近 OpenAI 发布了ChatGPT 最新的 mode:O1 Pro,Subscription 费用比起之前的 Plus 订阅,翻了十倍,达到了 200 USD/月。

OpenAI 官网和 Altman 的 X 上,都声称 ChatGPT O1 Pro,能够使用更多的算力,为最难的问题,提供最佳的答案。

什么问题算得上是 hardest questions? 相信每个人心中都有不同的定义标准。

目前已经有不少网友体验了 Pro 模型的强大功能并给出了评测报告。

其中一份报告的链接如下:

https://www.reddit.com/r/OpenAI/comments/1h8j8gl/25_experiments_in_o1_pro_mode_what_worked_what/

这位网友在 24 小时内测试了 25 项任务,内容包含商业、一般推理、逻辑、数学、编程、科学和写作等各个领域。评测的目的是衡量 O1 Pro 模式在回答这些问题时响应的质量、准确性和可用性。

每项任务的响应,如果满足用户需求,则将结果标记为“满意”;如果不满足,则标记为“不满意”。评估是主观的,但以准确性、完整性、逻辑一致性和遵守用户指令等标准为指导。

评测结果如下:

  • 任务总数:25

  • 满意的回答数量:21 (84%)

  • 不满意的回答数量:4 (16%)

评测结果表明:

  • ChatGPT O1 Pro 推理、写作、逻辑、数学和科学任务中的表现都非常令人满意,在分析推理、解决问题、精确计算、科学解释和多功能写作任务方面表现出了极强的能力,表明该模式能够很好地实现需要清晰逻辑、既定知识和清晰表达的需求。


    依赖推理、解释和概念理解是该模式的强项。

  • 在让 O1 Pro 根据输入材料,制定业务计划(Business Plan)的测试中,回答也相当令人满意,这表明模型对企业高层战略和一般业务概念的理解非常准确,可以用来辅助进行日常商业计划和战略建议的制定。

    美中不足的是,在专业和技术性更强的财务建模领域里,模型的表现不令人满意。

  • 在编程领域的测试里,简单或概念性的编程任务,对于 ChatGPT O1 Pro 来说是小菜一碟。而在面对复杂度更高的编码需求,比如 PDF 文件的操作,不同编程语言之间根据语义进行转换时,O1 Pro 还无法胜任。

这位评测者的结论:

  • o1 Pro 模式在依赖事实知识、逻辑推理和结构化解释的领域中表现出强大而稳定的性能。它非常擅长创建连贯的业务策略、解决数学和科学问题、提供逻辑推理解决方案以及生成高质量的书面内容。
  • 在面对精度密集型任务,比如精细化财务建模和复杂的编码解决方案,O1 Pro 模式还需要使用者,具备更多特定领域的微调技能或提供更多的技术细节,才能有效完成任务。

有网友在 X 上给 Altman 建议,考虑到 O1 Pro 高达 200 美元/月的订阅费用,应该为所有 Plus 用户提供一周的试用期。如果 Plus 用户用了确实觉得满意,可以升级到 O1 Pro.

Altman 很快做了回答:这是个好主意!并声称有可能会在明年做出这方面的尝试。

评测中一道微积分的问题:O1 Pro 总共花费了 4分 54秒思考,并得出了正确答案:3

可是我用 Plus 账号的 O1 模式,回答同一个问题,只需要 59 秒。看来 O1 Pro 又出现了过度推理的问题。

那么,我还是等明年可能发布的 O1 Pro 体验版吧?

汪子熙
企业管理软件领域开发专家
 最新文章