首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
9.11>9.9?AI大模型比人类更蠢,还有这两道题,回答简直五花八门
文摘
2024-07-18 18:44
北京
9.11和9.9哪个大?
这道小学算术题,竟然让很多号称“万亿参数”的AI大模型翻车了。言之灼灼地告诉你“9.11大于9.9”,因为“十分位上1大于0”。
截至今天下午,有些大模型平台已经更正了这个问题的答案,但是经过小电测试,发现
字节豆包、月之暗面Kimi、智谱清言、百川智能百小应等平台,仍然固执地认为“9.11大于9.9”
。
这么简单的数学常识题目,对AI大模型很难吗?它们的智力边界在哪里?
于是,小电在网上又搜了一些常见的数学类脑筋急转弯。
发现只要稍微绕点弯,很多大模型真的就算不对!给出的答案有理有据,但结论真的五花八门。其中有一道题,目前看没有一家大模型能够回答正确。
本次考试的考生有八名,包括:字节豆包、腾讯元宝、百度文心一言、月之暗面Kimi、智谱清言、百川智能百小应、阿里通义千问、讯飞星火。
下面就列两个题目,大家一起来欣赏下。
题目一:
小王去网吧开会员卡,开卡要20元,小王没找到零钱,就给了网管一张50的,网管找回30元给小王后,小王找到20元零的,给网管20元后,网管把先前的50元还给了他,请问谁亏了?亏了多少钱?
这道题不难吧,100元以内的加减题,日常消费找零钱,场景非常常见。你的答案是多少?
大模型的回答开了眼界了,给出了至少五种答案!
1,腾讯元宝、百川智能百小应:网管亏了10元。
2,阿里通义千问:小王亏了20元。
3,智谱清言:没有人亏钱。
4,月之暗面Kimi:网管亏了60元。
5,字节豆包、百度文心一言:网管亏了 30 元。
6,讯飞星火:不小心问了多次,发现每次给出答案都不一样~
题目二:
小红(女)的弟弟点了一下兄弟姐妹的人数,发现自己的兄弟(不包括他本人)比姐妹多1人。那么,小红的兄弟比她的姐妹(不包括她本人)多几人?
这个题目,所有的回答都不对。
1,字节豆包、腾讯元宝、月之暗面Kimi:多2人。
2,百度文心一言、阿里通义千问、百川智能百小应、讯飞星火、智谱清言:多1人。
腾讯元宝不小心又问过一次,发现答对了,但是演算分析过程还挺绕的。
从上面能够看出来,虽然现在大模型能帮人写文章、画图甚至生成视频,看似强大,但
在常识推理方面竟然还存在普遍的重大缺陷
,对于稍微绕点弯的复杂逻辑也常常理解不了。
而且,一些AI模型在
生成答案时具有随机性
。尽管它们根据训练数据和算法进行工作,但内部的生成过程可能存在一定的随机性,导致不同的运行时产生不同的输出。
更关键的是,由于大模型的算法有一定的黑盒性,所以
对它的调整、优化又变得非常困难
。有业内专家表示,“但要彻底解决问题,不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽,要不断增强底层基础模型的智能水平,不断‘爬楼梯’,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”
AI聪明得令人难以置信,但同时也会蠢得令人震惊。
AI没那么容易,短期不应高估,长期不应低估。
你还想到什么样的测试题可以调戏AI?欢迎评论区留言讨论。
http://mp.weixin.qq.com/s?__biz=MjM5Mjk2MDI5MQ==&mid=2451133943&idx=1&sn=6d05aae24287e32319af3734c4b402cd
新电实验室
关注新科技、新能源、新经济。 深度解读,犀利锐评。 加V一起探讨:KKZWLL
最新文章
百度小米Meta蜂拥而至,但AI眼镜是个好物种吗?
小鹏全面复刻特斯拉,小心贪多嚼不烂
阿里达摩院道歉了事,但谁该为“天才少女”的人生负责?
半价理想,增程零跑
欠薪,IPO受阻,销量徘徊不前,哪吒汽车面临“威马时刻”
直面小米汽车,小鹏开始反击
AI滥用,雷军“爆粗”
董宇辉又双叒翻车:成也造神,败也造神
三只羊终局:凭运气割的韭菜,全都要凭实力还回来
六大门派围攻Model Y:网上没输过,销量没赢过
鼓吹苹果手机远程引爆的,都是假爱国,真反智
秒售罄?排大队?华为三折叠手机和iPhone 16开售热销的冷眼观察
香港月饼只是导火索,全民清算三只羊
小鹏汽车放下我执:曾扬言淘汰混动,现如今拥抱增程
苹果让黄牛越来越下头,华为让黄牛越来越癫狂
罗永浩:我假一赔三了,在座各位跟不跟?
苹果更软了,华为更硬了
当小杨哥说出这句话,就彻底输给辛巴了
支付宝历史性推出新App,超级平台的AI遭遇战一触即发
淘宝接入微信支付,谁受益最大?谁受伤最深?
微信和iPhone怎么可能二选一!为什么这样的谣言满天飞?
零跑汽车月销量都是小鹏2倍多了!
复制品新《异形》竟然是暑期档最好看的电影
极越抨击小米“卖一辆车亏6万是倾销”:不是蠢,就是坏
国产首部3A游戏大作《黑神话:悟空》为什么没有诞生在大厂?
《逆行人生》:我们真没有余力再欣赏自己的艰难了
罗永浩,不要再用你的流量和小作文,挥霍粉丝好感了
“仅退款”,这块低价电商的遮羞布快盖不住了
董宇辉挟粉丝以令东方,俞敏洪哪有什么体面可言
“五毛特效”真来了!这款国产视频AI全面开放!生成一只视频5毛钱
连3万智商税都舍不得花的客户,不配成为尊贵的宝马车主
《抓娃娃》:西虹市电影送给观众的又一次“富豪”意淫
三年蹭试驾170多辆车,雷军连续成功方法论:躬身入局
9.11>9.9?AI大模型比人类更蠢,还有这两道题,回答简直五花八门
余承东集齐鸿蒙四界,坦承智界卖得不好,更需警惕理想MEGA式滑铁卢
“视频为证”彻底成历史!AI让容嬷嬷喂烤肠,让孙悟空举起手枪
萝卜快跑迷惑行为大赏!就凭这能替代司机?笑死也不信!
喷百度没用,被无人出租车顶掉的司机,快去应聘“赛博驾驶员”
中金94年女员工离世,撕开新中产脆弱一面,社会压力测试才刚开始
25亿元转让问界商标,华为的阳谋是什么?
鸿蒙智行登顶新势力上半年销冠,但它是一个汽车品牌吗?
新能源汽车6月高考答卷:多品牌交付创纪录,但比亚迪没爆发?
北大数学教授袁新意分析姜萍事件疑点:不希望造成社会撕裂
像老司机一样丝滑!何小鹏美国评测特斯拉FSD,国内车企谁能掰手腕?
决赛选手和爱好者联名请愿!阿里达摩院却默默修改姜萍采访视频
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉