OpenAI发布最强推理模型o1:会思考的AI模型

文摘   2024-09-20 21:54   美国  

o1物化生水平超人类博士

来源:openai.com

https://openai.com/o1/


9月12日,OpenAI重磅发布了o1系列大语言模型。该模型经过强化学习训练,具备了执行复杂推理的能力,取得了巨大进步,标志着人工智能水平迈入了一个新时代。


OpenAI o1在竞争性编程问题(Codeforces)中排名第 89 位,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。


在许多推理能力较强的基准测试中,o1 的表现明显优于 GPT-4o,可与人类专家的表现相媲美。


在2024年的AIME(AIME 是一项为美国最聪明的高中数学学生准备的考试)考试中,GPT-4o 平均仅解决了 12%(1.8/15)的题目。而 O1 平均解决了 74%(11.1/15)的题目,在每题使用单次采样的情况下;使用 64 次采样取共识后,成功率提升至 83%(12.5/15);通过使用学习得来的评分函数对 1000 次采样进行重新排序后,成功率进一步提升至 93%(13.9/15)。13.9 分的成绩足以让它跻身全国前 500 名学生之列,并且超过了进入美国数学奥林匹克竞赛的门槛。


同时,还用 GPQA 钻石对 o1 进行了评估,这是一项高难度的智力基准测试,测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,招募了拥有博士学位的专家来回答 GPQA-diamond 的问题。经测试发现,o1 的表现超过了这些人类专家,成为第一个在这一基准测试中做到这一点的模型。这些结果并不意味着 o1 在所有方面都比博士更有能力--只是说明该模型在解决博士有望解决的某些问题时更加熟练。在其他几项 ML 基准测试中,o1 的表现都超过了最先进的水平。在启用了视觉感知能力后,o1 在 MMMU 上的得分率达到了 78.2%,成为第一个能与人类专家竞争的模型。它还在 57 个 MMLU 子类别中的 54 个类别上超过了 GPT-4o。


与人类在回答一个难题之前可能会思考很长时间类似,o1 在尝试解决问题时也会使用一连串的思考。通过强化学习,o1 可以学会磨练自己的思维链,完善自己使用的策略。它学会识别和纠正错误。它学会把棘手的步骤分解成更简单的步骤。它学会在当前方法无效时尝试不同的方法。这个过程极大地提高了模型的推理能力。



了解更多美国与全球新能源,人工智能与可持续发展方面的最新消息,请关注美亚可持续发展基金会公众号。


美亚可持续发展基金会(U.S.-Asia Sustainable Development Foundation, UASDF)致力于促进美国、中国及亚洲其他国家在气候变化领域合作与交流。我们汇聚产业界、学术界、金融界与青年力量,共同构建一个可持续发展的全球人类命运共同体。我们的使命是通过跨国合作,推动新能源的全球化普及与发展,并关注人工智能行业背后的环境治理问题。


美亚可持续发展基金会(UASDF)与绿色人工智能研究院(Green AI Institute)将于2024年10月26日波士顿与线上举办本年度第二次重要的峰会活动 —— 绿色人工智能峰会。此次峰会将汇聚全球各界的专家、学者和青年领袖,聚焦推动全球可持续发展的关键议题聚焦人工智能对环境的影响、气候变化、清洁能源技术与绿色投资,探讨这些领域的最新进展,以及如何通过这些技术推动环保、能源转型和可持续的生产与消费模式。峰会将通过圆桌讨论、成果发布及专家讲座等形式,展示中美在气候变化领域的合作成果,分析人工智能的环境影响。



美亚可持续发展
致力于促进美国与亚洲可持续发展产业、学术与政策制定界的交流合作,分享新能源企业国际化信息,推动世界更多参与方联合应对气候变化。
 最新文章