Nature: OpenAI 的 o3 模型在 AI 测试中取得惊人成绩,离人类智能还有多远?

学术   2025-01-20 15:49   江西  

 提示欢迎点击上方「PaperRss」↑关注我们!




2025 年 1 月 14 日,《自然》杂志发布了一篇关于人工智能发展的重要报道。报道指出,科技公司 OpenAI 的最新实验性聊天机器人模型 o3 取得重大突破,在迈向通用人工智能(AGI)的测试中表现惊人。

这项测试由曾在谷歌工作的人工智能研究员弗朗索瓦・肖莱于 2019 年创建,名为 “面向通用人工智能的抽象与推理语料库(ARC - AGI)”。o3 在该测试中获得了 87.5% 的高分,远超之前人工智能系统 55.5% 的最佳成绩 。肖莱表示,虽然这并不意味着 AGI 已经实现,但 o3 绝对具备推理能力,且有很强的泛化能力。
位于加州伯克利的模型评估与威胁研究小组的人工智能基准测试研究员大卫・赖因,对 o3 在包括极难的 FrontierMath 测试在内的各种测试中的表现印象深刻,认为其成绩极为出色。不过,赖因等许多人也提醒,很难判断 ARC - AGI 测试是否真的能衡量人工智能的推理和泛化能力,寻找更好测试方法的工作仍在继续。
OpenAI 位于旧金山,尚未透露 o3 的工作原理。但该系统在该公司使用 “思维链” 逻辑解决问题的 o1 模型推出后不久就问世了。有专家认为,o3 可能会生成一系列不同的思维链,以从众多选项中筛选出最佳答案。

目前在华盛顿西雅图工作的肖莱表示,在测试时花更多时间完善答案对结果影响很大。但 o3 的运行成本极高,在 ARC - AGI 测试中,其高分模式解决每个任务平均需要 14 分钟,成本可能高达数千美元。卡内基梅隆大学研究大型语言模型的向岳表示,这引发了对可持续性的担忧。
由于 AGI 没有技术定义,对于人工智能何时能实现 AGI 也没有共识。目前有许多测试正在开发中,以追踪向 AGI 迈进的进展。例如,赖因在 2023 年创建的 Google - Proof Q&A,旨在评估人工智能系统在博士水平科学问题上的表现;OpenAI 在 2024 年推出的 MLE - bench,让人工智能系统应对在线数据科学竞赛平台 Kaggle 上的 75 项挑战,包括翻译古代卷轴和开发疫苗等现实问题。
向岳领导开发了名为 “面向专家级通用人工智能的大规模多学科多模态理解与推理基准测试(MMMU)” 的测试。他表示,OpenAI 的 o1 在 MMMU 测试中保持着 78.2% 的记录(o3 的分数未知),而顶级人类表现为 88.6%。ARC - AGI 则侧重于人类在幼儿时期通常发展的数学和模式识别基本技能,向岳认为它提供了互补的视角。



- THE END -

【免责声明】图文来自网络,版权属于原作者,如有侵权或非授权发布之嫌,请联系我们,我们及时更正、删除。转载目的在于促进信息交流,并不代表本公众号赞同其观点或对其内容真实性负责。欢迎关注PaperRSS公众号,每天都在更新。



温馨提示:



 PaperRSS,知名教育公众号。投稿、合作、转载授权事宜请联系本号。微信ID:IGDB2010 或邮箱:PaperRSS001@qq.com。此外,本公众号为国内实验室招聘人员、科研成果展示提供免费服务,欢迎垂询。



PaperRSS
PaperRSS:关注高校院所科研、人事、就业动态;分享国内外优秀博士科研风采!欢迎交流合作。让每位读者都有所收获。
 最新文章