首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

在一场新考试中，6个最前沿的大模型都败下阵来，解题率不到2%

科技 2024-11-13 12:09 北京

在一场新考试中，几乎所有前沿大模型都败下阵来。

日前，一个名为“Epoch AI”的研究机构，发布了面向一个人工智能大模型的新测试基准FrontierMath。这个新测试基准中包含数百个原创的研究级数学问题，这些问题需要深度推理和创造力。

当地时间11月9日，Epoch AI团队在X上的一篇文章中宣布：“我们与60多位顶尖数学家合作，创造了数百道原创、极具挑战性的数学题。目前的人工智能系统能解决的数学题不到2%。”

先看一下考试成绩：

6个最前沿的AI大模型，包括 GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet等，它们解决的FrontierMath问题不到2%。

这个考试成绩意味着，人工智能大模型可能擅长生成文本、识别图像，甚至解决基本的数学问题——但在高级数学推理方面，仍有很多东西需要学习。

全新数学测试基准

对于人工智能大模型的数据能力，目前的考试基本上是GSM-8K和MATH等基准。

领先的AI大模型现在得分超过90%。一个主要问题是数据污染——AI模型通常针对与测试集中的问题非常相似的问题进行训练。

前段时间，苹果团队发布的一篇论文，也指出了这个问题。

FrontierMath大大提高了标准，不但问题都是全新设计的，难度上也大幅提升。

Epoch AI团队介绍，FrontierMath的问题则是全新的、未发表的，专门为防止数据泄露而设计。这些问题不是靠基本记忆或模式识别就能解决的。

它们通常需要人类数学家花费数小时甚至数天的时间，而且涉及的主题范围很广——从计算数论到抽象代数几何。

这种水平的数学推理需要的不仅仅是蛮力计算或简单的算法。它需要菲尔兹奖获得者陶哲轩所说的“深厚的领域专业知识”和创造性的洞察力。

在评估这个全新的基准之后，陶哲轩评论道：“这些（问题）都极具挑战性……我认为它们至少能‘抵挡’AI几年时间。”

为什么数学对于 AI来说如此困难？

数学，尤其是在研究层面，是测试人工智能的一个独特领域。

与自然语言或图像识别不同，数学需要精确的逻辑思维，通常需要多个步骤。证明或解决方案中的每个步骤都建立在前一步的基础上，这意味着一个错误可能会导致整个解决方案不正确。

这使得数学成为测试人工智能推理能力的理想平台。大模型系统仅仅生成答案是不够的，它必须理解问题的结构，并浏览多层逻辑才能找到正确的解决方案。

与其他领域的评估不同，数学提供了一个清晰、可验证的标准：问题要么得到解决，要么没有得到解决。

这些问题不仅设计得很难，而且很难走捷径。每道题都是“防猜测”的，也就是说，如果不做数学工作，几乎不可能解答。

正如FrontierMath 论文所解释的那样，这些问题有大量的数字答案或复杂的数学对象作为解决方案，如果没有适当的推理，猜对的几率不到1%。

Epoch AI团队认为，FrontierMath代表着评估AI系统是否具有研究级数学推理能力迈出了重要一步。

如果人工智能最终能够解决FrontierMath中的问题，那么这可能预示着机器智能将取得重大飞跃——超越模仿人类行为，开始接近更接近真正理解的程度。

但就目前而言，人工智能在这个基准测试中的得分提醒人们：大模型并非无所不能，它们在那种深度、多步骤推理的数据问题上，比人类还差很多。

Epoch AI计划随着时间的推移继续扩展FrontierMath，增加更多问题并改进基准，以确保它仍然是未来AI系统的相关且具有挑战性的测试。

当然，也说不定哪天人工智能真的能够破解这些问题。

人工智能研究员Matthew Barnett 在X上评论称，“我认为，一旦FrontierMath被彻底解决，人类将与一组完全不同的智能生物生活在一起。我们将与人工智能共享这个地球，从某种意义上说，它们和我们一样聪明。”

参考链接：

https://venturebeat.com/ai/ais-math-problem-frontiermath-benchmark-shows-how-far-technology-still-has-to-go/ 
https://arxiv.org/pdf/2411.04872

觉得内容有收获，请您加个关注，标个星～谢谢您

http://mp.weixin.qq.com/s?__biz=MzA5MzMwNTIzMw==&mid=2647893544&idx=1&sn=6f9aac817dbc0cdb71f604c99c010dab

智能超参数

看趋势，涨知识，开眼界。记录AI技术与商业。提供独立思考与理性价值。

最新文章

AI标讯｜博时基金智能编码辅助系统项目开标，英捷创软LEANSOFT中标

AI标讯｜中国银联辅助研发AI模型采购项目开标，火山引擎中标

百度智能云第三季营收增长11%，AI贡献占比达到11%，沈抖说：基础模型对云越来越重要

AI标讯｜中信银行信用卡中心大模型训练服务器项目，新晨科技中标，金额636万元

AI标讯｜宝武智维大模型智能体服务框架构建项目开标，九章云极中标，金额113万元

2024年企业级AI支出现状：费用激增5倍，最爱AI编程工具，至少部署3个基础大模型

马斯克旗下xAI最新估值达500亿美元，年化收入约1亿美元

英伟达第三财季营收增长94%，净利润增长109%，毛利率略微下降

AI标讯｜中科院金属研究所先进钢铁大模型项目开标，清华大学中标，金额468万元

5分钟速览微软CEO在2024年Ignite大会上的主题演讲PPT：干货、要点都在这里了！

AI标讯｜基于大模型的国航之翼员工智能助手项目开标，科大讯飞中标

AI标讯｜太平洋保险集团大模型公有云服务流量采购项目，可利邦中标，金额58.7万元

AI标讯｜四川封面传媒行业大模型底座建设服务项目开标，阿里云中标

AI搜索引擎正在成为购物助理，Perplexity CEO说：AI需要实现从答案到动作的跨越

AI标讯｜津南数字产业创新基地大模型软件及服务采购项目，百度中标，金额7900万元

AI标讯｜广东邮电职业技术学院AI大模型应用实训室建设项目，讯飞智元中标，金额258.5万元

AI标讯｜西气东输面向智能体开发应用的数据服务项目开标，同方知网中标，金额100万元

AI标讯｜国家管网集团制程智能撰写软件采购及集成实施项目，瑞莱智慧RealAI中标

独家：2024年1-10月份，央国企大模型招投标项目都被谁拿走了?

阿里云季度营收环比大涨30亿元，AI驱动的公共云业务表现比大家想象的更优秀

50封往来邮件揭秘OpenAI的缘起、发展与矛盾

AI标讯｜福建鼓楼智脑AI智能问答系统项目开标，火山引擎中标，金额48.15万元

AI标讯｜上海徐汇区政务“云链数模”能力试点创新项目，腾讯云中标，金额7759万元

AI大模型一周标讯：科大讯飞、智谱AI、东软集团、亚信科技、云从科技等中标

AI标讯｜招商国科大模型应用场景算法开发服务采购项目开标，智谱AI中标

AI标讯｜中移动终端公司数字员工与业务场景智融能力研发采购项目，科大讯飞中标

AI标讯｜2024年审计大模型智库平台研发服务项目开标，东软集团中标，金额197万元

Scaling Law失效？大佬们各执一词，奥特曼说没有墙，施密特称模型性能还能提升100倍

AI标讯｜镇江单一来源采购微软Azure国际版GPT服务，神州数码中标，金额100万元

AI标讯｜中国电信重庆分公司AI智能体平台研发项目开标，云从科技中标，金额100万元

AI标讯｜昆明联通某单位Dali大模型中台技术服务项目开标，复深蓝中标，金额264万元

AI标讯｜山西移动AI智能外呼能力服务采购项目开标，科大讯飞中标，金额462万元

深度揭秘：马斯克如何快速建设10万卡超级计算机，并震惊AI竞争对手

AI标讯｜中译语通大模型对齐数据采购项目开标，网智天元中标，金额569.45万元

黄仁勋与孙正义笑谈当年：两人曾有三次机会成为英伟达最大股东

AI标讯｜厦门烟草大语言模型在营销业务场景中的应用研究项目开标，金额72.61万元

在一场新考试中，6个最前沿的大模型都败下阵来，解题率不到2%

独家：中国大模型中标项目监测报告(2024年10月)

AI标讯｜北京移动基于大模型的核心网智慧运维应用研究项目开标，项目金额180万元

百度创始人李彦宏：大模型不消除幻觉，就不会有应用

AI标讯｜中国信通院人工智能安全关键技术软件采购项目，浪潮云中标，金额138万元

Scaling Law提出者Ilya发声：大模型预训练效果趋于平缓，扩展正确的东西变得更重要

AI标讯｜浦发银行大模型应用体系建设算力采购项目，华讯网络中标，金额1695万元

AI标讯｜西气东输智能体研发方法研究项目公布候选人，上海理工大学排第一，智谱AI排第二

当红AI初创企业的估值为什么能3个月涨5倍？

AI标讯｜泰兴市智能云(泰兴)创新中心项目开标，百度中标，金额2995万元

MIT最新实证论文：AI让新材料发现数量提升44%

AI标讯｜海螺水泥人工智能场景建设与应用项目开标，中科类脑中标，预算8800万元

ChatGPT对Chegg的伤害还在继续

经济学人：OpenAI不会一直是微软囚禁的鸟

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉