IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

文摘 2024-07-22 20:40 上海

夕小瑶科技说原创
作者 | 海野
昨天，第65届IMO（国际数学奥林匹克竞赛）决赛成绩公布，中国队因2分之差憾失冠军。

从中国队的得分情况来看，其中第5题是中国队失分最严重的一题，该题也在网络上引发了激烈讨论。

据说这道题目遇强则强，在数学方面很有造诣的人也可能掉进它的陷阱，但答案其实非常简单。

于是，我拿着这道题去问国内外主流AI大模型，结果全员翻车？

这第5题究竟是何许题也？请看大屏幕：

好了，看到这道题，大家是不是都跟我一个想法：啊，脑子好疼，这是什么，我怎么看不懂？

别急，我这就把答案贴出来：

n＝3。

着急的小伙伴可以跳到到文章结尾去看解析～

让我们先看看，这些AI模型们的佼佼者是怎么解题的。

AI集体脑子秀逗，思路与答案割裂

首先让我们欢迎本次接受试炼的大模型选手们，它们是来自国内外的高知名度的，非常有代表性的选手。它们分别是：

Claude3.5、GPT-4o、Gemini Pro、文心一言4.0、通义千问qwen-Max、豆包、Kimi、智谱GLM-4-0520。

此外，我还选择了一部分专攻数学的改进过的模型。包括：

国内首个数学大模型九章大模型MathGPT ，以及上次AI数学奥数竞赛冠军，基于Deepseek数学模型改良的Numina-Math-7B 。

而我使用的Prompt与原题完全一致：

憨豆特工在一个2024行2023列的方格表上做游戏. 方格表中恰有2022个方格各藏有一个坏人. 初始时,憨豆不知道坏人的位置,但是他知道除了第一行和最后一行之外,每行恰有一个坏人, 且每列至多有一个坏人. 憨豆想从第一行移动到最后一行,并进行若干轮尝试. 在每一轮尝试中,憨豆可以在第一行中任意选取一个方格出发并不断移动,他每次可以移动到与当前所在方格有公共边的方格内. (他允许移动到之前已经到达过的方格.) 若憨豆移动到一个有坏人的方格,则此轮尝试结束,并且他被传送回第一行开始新的一轮尝试. 坏人在整个游戏过程中不移动,并且憨豆可以记住每个他经过的方格内是否有坏人. 若憨豆到达最后一行的任意一个方格,则游戏结束. 求最小的正整数n,使得不论坏人的位置如何分布,憨豆总有策略可以确保他能够经过不超过n轮，尝试到达最后一行。

先贴结果(做个心理建设)，模型们全军覆没，甚至一度让我以为是答案出问题了！

接下来让我们看看这些AI模型的解题思路。根据IMO竞赛的规则，一道题目7分，你们会给这些AI打几分？

GPT-4o率先送出了一血，思维不够活跃，驴唇不对马嘴。

被寄予厚望的Claude也倒了，感觉没读懂题啊，一边说最多2023次，一边说最少2023次。

Gemini Pro：

这貌似出现了跟GPT-4o相同的毛病啊。

就连文心也这样，对这个问题的见解不够深啊。

通义千问MAX：

虽然通义的答案与上面的模型不一样，但是思路还是不太对啊。

豆包：

豆包你……也是给出了意想不到的答案啊。

Kimi：

Kimi的错误跟Claude一样，明明需要的是计算最少，偏偏选了最多的回答。

智谱GLM-4-0520：

看起来很长一段推理，就要得出结果了，但是然并卵……

不仅是这些大模型翻车，就连这些数学专攻模型也各执一词……

九章大模型MathGPT：

Numina-Math-7B：

这些AI的答案五花八门，就是跟正确答案沾不上边。我在提问完后，我都忍不住怀疑是不是答案出问题了！怎么这么多大模型都是给的2023的答案啊！貌似这些AI都犯了一个错误：忽略了走过的格子也是可以再走的。 大模型们的翻车率，真是有点感人啊！

在看完大模型们的正确率后，我突然觉得AI的智慧在短时间内是赶不上人脑的。以上大模型可以很好的作为当今“最全能”的AI代表。在上个月的“AI参加高考”的结果中，各模型的得分基本在本科线左右浮动。但我们拿出这类需要善用数学思维的富有创造力的题目时，模型们就开始胡言乱语了。

大模型们的发展之路，还是任重而道远啊！

最后附上答案解析：

首先我们可以证明，憨豆没有两次尝试后一定成功到达最后一行的策略。在第一次尝试中，假设他首次到达第二行的某个单元格，可能该单元格有坏人，他必须立即返回第一行，他无法到达更远的单元格。在第二次尝试中，假设他首次到达第三行的另一个单元格，由于他必须从第二行的不同单元格移动过来，可能存在坏人，因此他也可能在第二次尝试中失败。因此，无法保证在两次尝试中到达最后一行。然而，当尝试次数为3时，可以采用一种策略确保到达最后一行。在第一次尝试中，憨豆沿着从第二行开始的路径移动，探索每一个单元格，找到第二行的坏人，尝试结束。如果第二行的坏人不在边缘（即它位于第二行的中间某个单元格），憨豆在第二次和第三次尝试中将采用两条路径，这两条路径将覆盖除了两个可能有坏人的单元格外的所有单元格，因此至少有一条路径能够成功。如果坏人在边缘（假设在第二行的第一个单元格），则憨豆在第二次尝试中将采取另一条路径，从第二个单元格开始，避开已知的坏人单元格。如果这条路径没有遇到坏人，憨豆将赢得游戏。如果遇到坏人，他将在第三次尝试中采取一条策略，确保绕过该坏人单元格，并最终到达最后一行。总结来说，尽管存在许多不确定性，但通过策略性地探索和记忆坏人的位置，憨豆可以确保在第三次尝试或更早的尝试中到达最后一行。

在YouTube上也有比较详细的题目讲解，大家也可以去看一下。

题目讲解：
https://www.youtube.com/watch?v=wfQkk9WktGE

参考资料

[1]https://www.imo-official.org

http://mp.weixin.qq.com/s?__biz=MzkwODIxMzA2OQ==&mid=2247487517&idx=2&sn=f7b59d36ba1db72403c8752b998527ff

互联网持续学习圈

清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者，持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先，文艺其从，陪你进化二十年。

最新文章

闭源模型的统治时代将结束？Llama3.1系列模型正式开源，最大405B

语言模型是如何获得复杂推理能力的？ICML文章给出新的解释

英伟达又涨了！“中国特供”B20芯片被曝，马斯克豪掷10万块H100训Grok，算力是GPT-4的四倍！

马斯克又整活了！！！特斯拉明年将内部率先启用人形机器人，目标年产10亿台，售价约2万美元

Nvidia提出ChatQA 2，提升LLM的Long Context和RAG能力

重磅！Llama3.1的405B权重和评测提前泄漏

大模型面试最新高频问题整理（三）

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

微软、Meta继续加码AI，云支出创历史新高 | AI脱水

ICML2024会议召开，Google Research相关活动

Google大语言模型Gemma 2介绍及其微调（上篇）

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

奥特曼深夜发动价格战，GPT-4o mini暴跌99%！清华同济校友立功，GPT-3.5退役

阿里千问团队AutoIF，让LLMs学会自我指导，简单有效，性能显著

【每日Leetcode】贪心系列（二）

千问2技术报告解读

LLM在论文评审中被滥用？ICML2024论文研究结果

【每日Leetcode】BFS系列（一）

AI独角兽开始卖身大厂

如何提升大模型RAG系统的效果？RAG推理增强(二)

2024年大模型LLM还有哪些可研究细分领域？

专为Excel而生的大模型来了！

如何提升大模型的Agent推理规划等能力？

【每日Leetcode】拓扑排序系列

大模型面试最新高频问题整理（二）

AI的尽头是能源？奥特曼投资核能初创公司Oklo有望2027年启动首座反应堆

四万字聊搜索系统

中国AI论文数量全球第一！中科院拿下研究机构双第一，腾讯企业排第三

大模型MOE框架发展系统总结

CoAct：模拟人类社会“全局-局部”多层级规划的多智能体自主协作

【每日Leetcode】DFS系列（一）

高盛研究主管批评“AI泡沫”：投入太多，收益太少，比2000年泡沫更大

AI芯片路线图：3张图表和7大影响

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

【每日Leetcode】堆系列（二）

超越DPO之Step-DPO

LEARN：百川大模型在快手推荐中的应用

【每日Leetcode】并查集系列

大厂开启AI大模型人才抢夺战

Meta关于深度学习推荐系统的Scaling Law的研究

【每日Leetcode】动态规划系列-有状态的序列型

大模型数学能力增强方法总结

Runway凭借Gen-3 Alpha估值将达到40亿美金，为日常性收入的160倍！！

RegMix-用回归任务解决大模型数据混合问题

教育领域大模型技术与应用

微软GraphRAG框架实现逻辑详解

【每日Leetcode】单调栈系列（二）

赢麻了！苹果再获OpenAI董事会观察员席位！0元白嫖ChatGPT，比肩微软

金融领域文档智能应用实践

UniRec：考虑序列时间间隔和item交互频率的序列推荐方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉