大模型我问你，你是什么数学水平？｜AI测评师

创业 2024-11-26 18:01 浙江

最近在刷小红书，被数学题刷屏。

题目不能说很难，但评论区真的很难评，比如下面这题。

不是说好的中国人人均数学天才吗？怎么遇到了这样的小学生题目，还能牵扯出一堆稀奇古怪的答案，难道这就是传说中的AI（人工）幻觉？

人脑会宕机，但大模型被喂了这么多数据，一定会聪明地回答。本期AI测评师，我得好好问问大模型们，你们的数学水瓶，究竟有多高？

图形解题，难倒大模型

先说说最新的和数学有关的消息：11月16日，月之暗面宣布推出数学大模型k0-math，其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。

看起来数学水平应该不错？网上download了一张求角度的题，目测应该初中生水平，不知道kimi会给出什么答案呢？（补充一句，根据kimi自己的说法，想要体验k0-math，得先下载app）

把图丢进去后，kimi框框一顿输出：

说得很好，还有非常详细的过程分析，不过，答案是错的。

上面是本人求了一半的答案，只是增加了一条辅助线（AE垂直BC），都可以知道∠DAE=30°，那比∠DAE大的∠DAC，怎么会算到15°？

不行，既然kimi不知道，我得问问Qwen。

毕竟2个月前，通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。

优点有很多，比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理（TIR，Tool-integrated Reasoning）解决中英双语的数学题；比如，Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分，解决了几乎所有的问题。

话很密，但是没有答案。于是，我又追问了（疲惫.jpg）

啊这，啊这，啊这，正确答案是45°！！！怎会错得如此离谱？？？

需要注意的是，通义千问网页版，并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区（网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo）。比较遗憾的是，只给文字提问，没法看图解题，咱这题算是没法过Qwen2.5的了。

困难总比办法多，还记得不久前开学季，我们让夸克做题么？拿这题试试。

呼，做题还得是你啊！

不过夸克这是拍题解答，用的是灵知学习大模型，正好这道题在题库中，所以不仅有解题步骤，还有解题视频，逐帧讲解。

难题还得交给Qwen2.5

如果图形题太难，那纯文字描述题呢？

新题目，咱们上个难度，选2022年清华大学强基计划数学试题。

选题目3，无他，唯好复制尔。

先考验kimi，很好，创造了一个错误答案。

再问问Qwen2.5。

解题过程很长，就不都放了，但至少答案符合选项了！而且和正确答案一对，还真是。

那国外的大模型呢？会比我们强吗？

这个是meta-llama3.1。

这个是microsoft/Phi3.5.

这是GPT-4o给出的答案。好消息是，总算接近了；坏消息是，接反了。

当我发出灵魂拷问时，GPT沉默了。

从这个角度看，是不是很人工呢？（沉默，人类才会有的反应）

结论

做了两道题，水母君也得出了一些粗浅的结论：

1）对于大多数大模型而言，图形题的解读还存在不少难点，很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型，只要题库内有，就可以检索出答案，弊端在于“无思考”痕迹。

2）当题目上难度时，Qwen2.5是相对聪明的，可以解答高考题目，且有详尽的解答过程。

3）数学是世界难题，大模型也得高考落榜。

发现未来独角兽，项目BP发过来！

如果你的项目足够优秀，希望得到36氪浙江的报道，参加36氪浙江的“未来独角兽活动”，请将你的需求和BP发至36氪浙江项目征集邮箱：zhejiang@36kr.com，我们会及时回复。

36氪浙江——让浙江创业者先看到未来！

热点观察：医疗大模型｜舟山宁波港｜智慧农业｜跨年经济｜临空经济｜户外产业｜直播电商&实体济｜浙江城乡收入差距｜莲花健康｜车商造手机｜新能源｜养生赛道

星际赛第二季：地卫二｜椭圆时空｜遨天科技｜四象科技｜英诺天使｜东方空间｜复旦大学陈宏宇｜蓝箭航天｜浙商创投

寻找2024上扬线：开篇｜新能源｜跨境电商｜服饰品牌｜宠物经济｜国货护肤｜自动驾驶｜芯片｜视觉智能

来个“分享、点赞、在看

36氪浙江

以浙江为核心，为投资者、创业者以及科技、财经从业者提供新锐深度的商业报道，让一部分人先看到未来。

最新文章

全国第七浙江第一，它如何走到今天这一步？

o1完全体发布，ChatGPT Pro惊现史上最贵订阅费；ChatGPT拒说6大禁忌名字，原因揭晓｜OPPS AIGC

3.17亿元！浙江提前下达2025年省中小企业发展专项资金预算；多家杭企拿到新钱；AI赛道出现超亿元融资｜浙氪一周

50亿台州炊具大王，猛攻机器人

高瓴启明投资的浙江公司，要IPO了

浙江诞生一批跨境大佬

360亿，杭州学霸在美敲钟

估值30亿，高瓴、淡马锡投的这家浙江公司要IPO了

ChatGPT两岁，马斯克手撕OpenAI再升级；Sora内测版本泄露｜OPPS AIGC

杭州跑出两个IPO；多家浙企密集启动上市进程｜浙氪一周

“海康系”收获一个IPO，市值超230亿

年入12亿，杭州迎来一个IPO

中国TOP3智驾供应商赴港IPO！估值超60亿，吉利是股东

浙江老板把鱼竿卖到全球，要IPO了

大模型我问你，你是什么数学水平？｜AI测评师

美司法部强制谷歌出售Chrome浏览器；Rokid推出AI+AR眼镜；OpenAI CEO年薪仅55万｜OPPS AIGC

杉杉控股换帅，郑永刚遗孀接任董事长；中科氢易、赛核生物多家企业完成数千万元融资｜浙氪一周

杭州准独角兽，又融了数亿

6.88亿，李书福布局UAM，吉利买了辆“会飞的车”

225亿宁波厨电家族，杀入冰箱赛道

93亿并购，“弟弟”成了“爹”

马斯克起诉OpenAI：垄断市场、推动AI军事化；通义上线代码模式，一句大白话就能生成应用｜OPPS AIGC

温州跑出首家北交所上市企业；极氪斥资超93亿元获领克51%股权；吉利汽车三季度营收首破600亿｜浙氪一周

李子柒归来，牵扯许多人情世故？

一本正经胡说八道，AI幻觉真的消失了吗？｜Tech深探

大意了，秘塔告诉我杨子是双子座？？？｜AI测评师

于施洋：人人拥有4个“T”，14亿人共同参与的人工智能普惠时代的展望

李书福之子，收获一个IPO

字节跳动上半年营收达730亿美元，即将超过Meta；王慧文回归美团，探索AI应用；阿里、豆包入局AI视频生成｜OPPS AIGC

台州杀出一汽车零部件IPO，年营收15.4亿；杭州冲刺400亿合成生物产业高地；多家医疗浙企拿到新钱｜浙氪一周

杭州95后，她把公司卖了

深圳超级大卖上市，老板温州人，45 岁，一年净赚 5 亿

工资到账怎么花？我尝试着请教了人工智能｜AI测评师

杭州超级LP，操刀百亿大交易

浙江跑出一个IPO：博士创业，估值近27亿

马斯克旗下xAI洽谈新融资，估值达400亿美元；OpenAI上线ChatGPT搜索｜OPPS AIGC

2024阿里巴巴全球数学竞赛获奖名单发布；吉利科技集团旗下晶能微电子完成5亿元B轮融资｜浙氪一周

女儿掌权7年亏32亿元，59岁浙江前首富高调出山，“周杰伦的衣柜”有望起死回生？

杭州杀出超级独角兽：一把融资5亿

电池边角料卖到全球，宁波兄弟净赚90亿

热闹的智算云，杭州的下一阶段？

杭州杀出超级IPO：年入72亿，国内第一

苹果、华为、荣耀纷纷推出“AI手机”；文远知行纳斯达克挂牌上市，成为全球「Robotaxi 第一股」｜OPPS AIGC

浙江前三季度进出口总值3.93万亿，稳居全国第3；元素驱动完成近2亿元A轮融资｜浙氪一周

50亿湖州奶茶老板，2亿身家的总裁突然请辞

中专学历夫妇，干出一个150亿IPO

从数字第一城到智算云第一廊，中国云谷将立起“AI+”Flag

苏州又跑出超级IPO：年入4亿，狂增53.33%

上海氢能独角兽要IPO了，年入9亿

国产大模型首次超过GPT-4o；微软人工智能副总裁加入OpenAI；美国被曝考虑收紧AI芯片出口｜OPPS AIGC

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉