9.11>9.9?AI大模型比人类更蠢,还有这两道题,回答简直五花八门

文摘   2024-07-18 18:44   北京  
9.11和9.9哪个大?
这道小学算术题,竟然让很多号称“万亿参数”的AI大模型翻车了。言之灼灼地告诉你“9.11大于9.9”,因为“十分位上1大于0”。
截至今天下午,有些大模型平台已经更正了这个问题的答案,但是经过小电测试,发现字节豆包、月之暗面Kimi、智谱清言、百川智能百小应等平台,仍然固执地认为“9.11大于9.9”

这么简单的数学常识题目,对AI大模型很难吗?它们的智力边界在哪里?
于是,小电在网上又搜了一些常见的数学类脑筋急转弯。发现只要稍微绕点弯,很多大模型真的就算不对!给出的答案有理有据,但结论真的五花八门。其中有一道题,目前看没有一家大模型能够回答正确。
本次考试的考生有八名,包括:字节豆包、腾讯元宝、百度文心一言、月之暗面Kimi、智谱清言、百川智能百小应、阿里通义千问、讯飞星火。
下面就列两个题目,大家一起来欣赏下。
题目一:
小王去网吧开会员卡,开卡要20元,小王没找到零钱,就给了网管一张50的,网管找回30元给小王后,小王找到20元零的,给网管20元后,网管把先前的50元还给了他,请问谁亏了?亏了多少钱?
这道题不难吧,100元以内的加减题,日常消费找零钱,场景非常常见。你的答案是多少?
大模型的回答开了眼界了,给出了至少五种答案!
1,腾讯元宝、百川智能百小应:网管亏了10元。

2,阿里通义千问:小王亏了20元。

3,智谱清言:没有人亏钱。

4,月之暗面Kimi:网管亏了60元。

5,字节豆包、百度文心一言:网管亏了 30 元。

6,讯飞星火:不小心问了多次,发现每次给出答案都不一样~


题目二:
小红(女)的弟弟点了一下兄弟姐妹的人数,发现自己的兄弟(不包括他本人)比姐妹多1人。那么,小红的兄弟比她的姐妹(不包括她本人)多几人?
这个题目,所有的回答都不对。
1,字节豆包、腾讯元宝、月之暗面Kimi:多2人。

2,百度文心一言、阿里通义千问、百川智能百小应、讯飞星火、智谱清言:多1人。

腾讯元宝不小心又问过一次,发现答对了,但是演算分析过程还挺绕的。




从上面能够看出来,虽然现在大模型能帮人写文章、画图甚至生成视频,看似强大,但在常识推理方面竟然还存在普遍的重大缺陷,对于稍微绕点弯的复杂逻辑也常常理解不了。
而且,一些AI模型在生成答案时具有随机性。尽管它们根据训练数据和算法进行工作,但内部的生成过程可能存在一定的随机性,导致不同的运行时产生不同的输出。
更关键的是,由于大模型的算法有一定的黑盒性,所以对它的调整、优化又变得非常困难。有业内专家表示,“但要彻底解决问题,不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽,要不断增强底层基础模型的智能水平,不断‘爬楼梯’,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”
AI聪明得令人难以置信,但同时也会蠢得令人震惊。AI没那么容易,短期不应高估,长期不应低估。
你还想到什么样的测试题可以调戏AI?欢迎评论区留言讨论。


新电实验室
关注新科技、新能源、新经济。 深度解读,犀利锐评。 加V一起探讨:KKZWLL
 最新文章