大模型我问你,你是什么数学水平?|AI测评师

创业   2024-11-26 18:01   浙江  
最近在刷小红书,被数学题刷屏。

题目不能说很难,但评论区真的很难评,比如下面这题。

不是说好的中国人人均数学天才吗?怎么遇到了这样的小学生题目,还能牵扯出一堆稀奇古怪的答案,难道这就是传说中的AI(人工)幻觉?

人脑会宕机,但大模型被喂了这么多数据,一定会聪明地回答。本期AI测评师,我得好好问问大模型们,你们的数学水瓶,究竟有多高?

图形解题,难倒大模型
先说说最新的和数学有关的消息:11月16日,月之暗面宣布推出数学大模型k0-math,其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。

看起来数学水平应该不错?网上download了一张求角度的题,目测应该初中生水平,不知道kimi会给出什么答案呢?(补充一句,根据kimi自己的说法,想要体验k0-math,得先下载app)

把图丢进去后,kimi框框一顿输出:

说得很好,还有非常详细的过程分析,不过,答案是错的。

上面是本人求了一半的答案,只是增加了一条辅助线(AE垂直BC),都可以知道∠DAE=30°,那比∠DAE大的∠DAC,怎么会算到15°?

不行,既然kimi不知道,我得问问Qwen。

毕竟2个月前,通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。

优点有很多,比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理(TIR,Tool-integrated Reasoning)解决中英双语的数学题;比如,Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分,解决了几乎所有的问题。

话很密,但是没有答案。于是,我又追问了(疲惫.jpg)

啊这,啊这,啊这,正确答案是45°!怎会错得如此离谱?
需要注意的是,通义千问网页版,并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区(网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo)。比较遗憾的是,只给文字提问,没法看图解题,咱这题算是没法过Qwen2.5的了。

困难总比办法多,还记得不久前开学季,我们让夸克做题么?拿这题试试。

呼,做题还得是你啊!

不过夸克这是拍题解答,用的是灵知学习大模型,正好这道题在题库中,所以不仅有解题步骤,还有解题视频,逐帧讲解。
难题还得交给Qwen2.5
如果图形题太难,那纯文字描述题呢?
新题目,咱们上个难度,选2022年清华大学强基计划数学试题。

选题目3,无他,唯好复制尔。

先考验kimi,很好,创造了一个错误答案。

再问问Qwen2.5。

解题过程很长,就不都放了,但至少答案符合选项了!而且和正确答案一对,还真是。

那国外的大模型呢?会比我们强吗?

这个是meta-llama3.1。

这个是microsoft/Phi3.5.
这是GPT-4o给出的答案。好消息是,总算接近了;坏消息是,接反了。

当我发出灵魂拷问时,GPT沉默了。

从这个角度看,是不是很人工呢?(沉默,人类才会有的反应)

结论
做了两道题,水母君也得出了一些粗浅的结论:
1)对于大多数大模型而言,图形题的解读还存在不少难点,很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型,只要题库内有,就可以检索出答案,弊端在于“无思考”痕迹。

2)当题目上难度时,Qwen2.5是相对聪明的,可以解答高考题目,且有详尽的解答过程。

3)数学是世界难题,大模型也得高考落榜。


发现未来独角兽,项目BP发过来!

如果你的项目足够优秀,希望得到36氪浙江的报道,参加36氪浙江的“未来独角兽活动”,请将你的需求和BP发至36氪浙江项目征集邮箱:zhejiang@36kr.com,我们会及时回复。 

36氪浙江——让浙江创业者先看到未来 !

了解更多


融资首发:上海立芯|冠骋信息|螣龙安科|奕力电磁|先楫半导体|产链朵朵校友圈 霞智科技ROSIWIT 昂科技术|比博斯特|芯材电路

热点观察:医疗大模型舟山宁波港智慧农业|跨年经济临空经济户外产业直播电商&实体济|浙江城乡收入差距|莲花健康|车商造手机|新能源|养生赛道

星际赛第二季:地卫二|椭圆时空|遨天科技|四象科技|英诺天使|东方空间|复旦大学陈宏宇|蓝箭航天|浙商创投

寻找2024上扬线:开篇|新能源|跨境电商|服饰品牌|宠物经济|国货护肤|自动驾驶|芯片|视觉智能


 来个“分享、点赞、在看

36氪浙江
以浙江为核心,为投资者、创业者以及科技、财经从业者提供新锐深度的商业报道,让一部分人先看到未来。
 最新文章