在一场新考试中,几乎所有前沿大模型都败下阵来。
日前,一个名为“Epoch AI”的研究机构,发布了面向一个人工智能大模型的新测试基准FrontierMath。这个新测试基准中包含数百个原创的研究级数学问题,这些问题需要深度推理和创造力。
当地时间11月9日,Epoch AI团队在X上的一篇文章中宣布:“我们与60多位顶尖数学家合作,创造了数百道原创、极具挑战性的数学题。目前的人工智能系统能解决的数学题不到2%。”
先看一下考试成绩:
6个最前沿的AI大模型,包括 GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet等,它们解决的FrontierMath问题不到2%。
这个考试成绩意味着,人工智能大模型可能擅长生成文本、识别图像,甚至解决基本的数学问题——但在高级数学推理方面,仍有很多东西需要学习。
全新数学测试基准
对于人工智能大模型的数据能力,目前的考试基本上是GSM-8K和MATH等基准。
领先的AI大模型现在得分超过90%。一个主要问题是数据污染——AI模型通常针对与测试集中的问题非常相似的问题进行训练。
前段时间,苹果团队发布的一篇论文,也指出了这个问题。
FrontierMath大大提高了标准,不但问题都是全新设计的,难度上也大幅提升。
Epoch AI团队介绍,FrontierMath的问题则是全新的、未发表的,专门为防止数据泄露而设计。这些问题不是靠基本记忆或模式识别就能解决的。
它们通常需要人类数学家花费数小时甚至数天的时间,而且涉及的主题范围很广——从计算数论到抽象代数几何。
这种水平的数学推理需要的不仅仅是蛮力计算或简单的算法。它需要菲尔兹奖获得者陶哲轩所说的“深厚的领域专业知识”和创造性的洞察力。
在评估这个全新的基准之后,陶哲轩评论道:“这些 (问题)都极具挑战性……我认为它们至少能‘抵挡’AI几年时间。”
为什么数学对于 AI来说如此困难?
数学,尤其是在研究层面,是测试人工智能的一个独特领域。
与自然语言或图像识别不同,数学需要精确的逻辑思维,通常需要多个步骤。证明或解决方案中的每个步骤都建立在前一步的基础上,这意味着一个错误可能会导致整个解决方案不正确。

这使得数学成为测试人工智能推理能力的理想平台。大模型系统仅仅生成答案是不够的,它必须理解问题的结构,并浏览多层逻辑才能找到正确的解决方案。
与其他领域的评估不同,数学提供了一个清晰、可验证的标准:问题要么得到解决,要么没有得到解决。
这些问题不仅设计得很难,而且很难走捷径。每道题都是“防猜测”的,也就是说,如果不做数学工作,几乎不可能解答。
正如FrontierMath 论文所解释的那样,这些问题有大量的数字答案或复杂的数学对象作为解决方案,如果没有适当的推理,猜对的几率不到1%。
Epoch AI团队认为,FrontierMath代表着评估AI系统是否具有研究级数学推理能力迈出了重要一步。
如果人工智能最终能够解决FrontierMath中的问题,那么这可能预示着机器智能将取得重大飞跃——超越模仿人类行为,开始接近更接近真正理解的程度。
但就目前而言,人工智能在这个基准测试中的得分提醒人们:大模型并非无所不能,它们在那种深度、多步骤推理的数据问题上,比人类还差很多。
Epoch AI计划随着时间的推移继续扩展FrontierMath,增加更多问题并改进基准,以确保它仍然是未来AI系统的相关且具有挑战性的测试。
当然,也说不定哪天人工智能真的能够破解这些问题。
人工智能研究员Matthew Barnett 在X上评论称,“我认为,一旦FrontierMath被彻底解决,人类将与一组完全不同的智能生物生活在一起。我们将与人工智能共享这个地球,从某种意义上说,它们和我们一样聪明。”
参考链接:
https://venturebeat.com/ai/ais-math-problem-frontiermath-benchmark-shows-how-far-technology-still-has-to-go/
https://arxiv.org/pdf/2411.04872
觉得内容有收获,请您加个关注,标个星~ 谢谢您