又是期货,OpenAI推出全新推理模型o3,实力远超o1
创业
2024-12-21 07:24
中国香港
作者|子川
来源|AI先锋官
OpenAI 12天直播的最后一晚,终于祭出了压轴大招——不过这是个期货,计划明年一月份推出o3 Mini。目前该模型还处于安全测试阶段,但从今天开始,o3 Mini 将率先对外部安全研究人员开放测试!随后 o3 也会加入到开放测试中来。(怎么感觉和Sora的套路一样一样的呢)。大家可以通过访问 OpenAI 的官方网站,填写申请表格参与测试,说不定运气爆棚,就预约上了呢。地址:https://openai.com/index/early-access-for-safety-testing/话不多说,接下来直接奉上大家最关心的内容——o3的成绩单!在SWE-Bench Verified测试中,o3模型准确率达到71.7%,比o1还高出20%左右。之前o1在 CodeForces(一个全球知名编程竞赛网站)上的分数是 1891,这次o3直接冲到了 2727!在发布会上,奥特曼和马克还开玩笑的表示,这个分数可是超越了OpenAI首席科学家Yakov的2665分。在 AIME 2024数学竞赛 上,o3的准确率达到了 96.7%(全程只错了一题),相比之下,o1的成绩是 83.3%。在 GPQA Diamond(博士级科学问题基准测试) 上,o3的得分是 87.7%,成功超越了o1的 78%。为了说明这个分数的厉害程度,马克特意举了个例子:专业博士的平均分也就 70% 左右。这个测试可是出了名的难——被誉为“目前最艰难的数学基准”,陶哲轩对这项测试的第一印象是“可能难住AI好几年”。在此之前,国内外的顶级模型都没能在这个测试上得分超过 2%。而这次,o3的得分在直接来了一个飙升,来到了25.2%。ARC-AGI是Keras之父François Chollet发起的测试基准,是为AGI准备的测试题目,典型题目为图形逻辑推理,难度对于人工智能来说堪称变态级别。给大家看一下各大模型的在ARC-AGI基准下的成绩,就知道这个玩意有多难了。o1的成绩是32%,o3直接飙到了75.7%、87.5%。为什么会有两个成绩?因为o3支持低思考程度和高思考程度两种设置。o3实力这么强,o3-mini自然也不差,o3-mini还支持三种不同的设置:低、中和高推理。在 编码评估 上,低推理模式和o1 Mini差不多,但中高推理已经全面超越了o1!不过在 博士级科学问题 上,三种推理模式的表现都稍逊于o1了。此外,o3 Mini还支持 函数调用、结构化输出、开发者消息 等功能,与o1保持同一水准。本来以为这次12天的直播会潦草收场,想不到真来了一个大的,o3不仅是推理能力的升级,更是一次AI智能的全面进化。答案:避免与英国电信服务商O2的潜在版权或商标冲突。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。