13.8和13.11哪个大？大模型竟然开始“一本正经地胡说八道”……

百科 2024-07-27 09:42 上海

13.8和13.11哪个大？

综艺节目的选手排名，竟让一道本不该成为争议的“小学数学题”，在网上掀起讨论。

不仅部分人类搞不清楚，“聪明”的大模型也洋相百出——简单的常识题对它们来说还是有难度！

咖啡师测试了多款大模型，在这道数学题上，它们错得“振振有词”。

错得“各有千秋”

在2024世界人工智能大会上惊艳亮相的阶跃星辰，其产品“跃问”就在这道题上栽了跟头——

“比较两个数的大小，可以直接观察它们的十位和小数部分”，这句判断，就已经忘了个位数的存在。

“由于十位相同，我们只需要比较小数部分。0.11等于11/100，而0.8等于8/100。显然，11/100大于8/100，所以13.11大于13.8。”相信明眼人一眼就看出了大模型的“故障”所在。

已经被不少人广泛使用的月之暗面kimi，同样回答错误。面对相同的问题，它“斩钉截铁”：13.11比13.8大。再追问为什么，kimi认为先比较整数部分，两者相等。接下去就让人越来越看不懂，“然后比较十分位上的数字，两者都是8……接下来比较百分位上的数字，13.8的百分位是0，而13.11的百分位是1。由于1大于0，因此百分位上13.11更大。”

用大家熟悉的话来评价就是——一本正经地胡说八道。

科大讯飞的“星火”，是回答正确的“选手”之一。在最关键的步骤，“星火”判断：小数部分0.8大于0.11，因此可以得出13.8大于13.11的结论。

常识推理仍需学习

多家大模型研发企业的研发人员解释称，两个数字的大小比较对于普通人来说是常识，然而对大模型而言，它们并不能理解这两个数字是什么意思。如果明确告知大模型两个数字是浮点数（实数）再让其比较的话，大模型就更容易理解这个问题的内涵。

换种简单的说法，在软件版号迭代、文件系统中，13.11都是在13.8之后的；如果整数部分小于等于12，从日期来看，12.11也是在12.8之后。“大模型采用的是token（词元） by token生成预测的方式，所以大模型会把13.11拆解成13，.（点）和11三部分，并以同样方式拆解13.8，所以在比较时会出现错误。”有研发人员表示。

在他们看来，这一现象也反映了大模型和人类认知的差异：大模型是基于统计模型和模式识别，而不像人类基于逻辑推理和概念理解。

“虽然大模型在很多方面的能力都非常强悍，但在常识推理能力上还需要持续学习进步。”科大讯飞研发人员说。

数理推理能力有短板

继公布AI高考语数外成绩后，由上海人工智能实验室推出的大模型开源开放评测体系“司南”又在近日对7款大模型进行了高考全科目测试。结果显示，在理科成绩方面，“AI考生”整体弱于文科，体现了大模型在数理推理能力上普遍存在短板。

在数学科目的一道题目中，大模型由于在解题过程中出现了计算错误，导致不正确的求k值方程式出现。面对非常复杂难解的方程式，模型依然选择“硬解”，还直接蒙了一个答案——该答案无法使等式成立。

阅卷教师指出，对于大多数人类考生，一旦发现计算存在问题，会反思此前的步骤并重新更正计算过程，而不会“硬蒙”出答案。

同样在数学科目的一道立体几何题中，大模型的平均得分率为8.5%，远低于数学科目平均得分率35.5%，通过检查模型回答，评测团队发现，模型往往会出现一些完全不符合空间逻辑的推断。

当前大模型仍存在很大的局限性。组织大模型‘参加高考’，目的是评测当前大模型的真实水平，找准问题，持续推进技术进步。

司南相关负责人介绍。

THE

END

鹦鹉螺工作室

作者| 郜阳

图片 | 采访对象　东方IC

编辑 | Amy

新民科学咖啡馆

新民晚报社与上海市科学技术协会联合主办的公益科普项目“新民科学咖啡馆”，为您打造新鲜、有趣的科技资讯台。欢迎品尝和订制，属于你的那杯香气四溢、回味无穷的“科学咖啡”。

最新文章

从嘴唇干燥起皮到唇炎，也许就是这些坏习惯害了你｜第医线

一箭多星是这样做到的！临港的这间实验室，创新打造中国自己的“星链”

这个升级版脑机接口系统如何构建“信息高速公路”

长期喝纯净水有害健康？药片太大能掰开吃？快来看看真相如何｜科学流言榜

推理模型InternThinker开放体验，它挑战了高考数学难题，结果……

著名光学专家、中国工程院院士庄松林：毕力追光，也成为照亮他人之光

被“五彩玉米”惊艳到了！上海科学家耕耘培育出众多顶级“玉米宝宝”

降糖版vs减重版，两款司美格鲁肽有什么差别？停打后会反弹吗？

探秘昆虫王国！这里藏有上万份隐翅虫标本！

上海首例！国产脑机接口体内机植入成功

6G来了！上海积极布局测试，正在为颠覆式创新蓄能

“鲜掉眉毛”的滋味是哪来的？这间实验室探究风味与感知的奥秘

发现植物免疫激活新机制，上海科学家两项成果“背靠背”登上国际顶刊！

鸡蛋过敏的人不能打流感疫苗？喝苏打水就能降尿酸？别信！｜科学流言榜

“拖堂”半小时还有学生意犹未尽！顶尖科学家寄语：你们的每个问题都会成为科学催化剂

顶尖的她们鼓励年轻人：别让旁人夺走你的梦想！

他们的“看见”值得“被看见”！首次到访上海的两位科学家迎来人生高光时刻

吴光辉：梦圆中国人自己的大飞机

丁健：中国抗肿瘤创新药的拓荒者与引领者

奔向“最前沿”！上海大手笔驱动科创加速跑

上海科研团队最新发现：胃中细菌演变透露祖先饮食习惯！

年年体检无异常，一朝得癌泪涟涟？专家为你答疑解惑→

一刀两断不算啥，千刀万剐还能活！“再生实验室”里，科学家找寻“永生”秘密｜实验室的故事

年度科学高光时刻来了！今起三天诺贝尔奖科学奖项依次揭晓

上海科学家创新谱系示踪技术，追捕细胞衰老之路上的“妖魔鬼怪”

螃蟹有“针眼”是人为的？喝“防弹咖啡”可以减肥？来看“秋味”渐浓的最新科学流言榜

秋分｜夏天渐行渐远，滋阴润肺莫“悲秋”

台风飘忽多变，卫星如何把它“看”个明明白白？

每个环节创新无极限！从向外“众筹”到多方“求合作”，空间新技术试验卫星研制团队够“新”够“大胆”

月到中秋分外明，今年“十五的月亮十六圆”！月饼怎么吃更健康，来听专家建议～

应对新增人口带来的蛋白质缺口，你没想到南极磷虾有这么大潜力可挖

20年接力！上海科学家领衔揭开乙肝病毒神秘面纱

这个实验室能“腾云驾雾”，更能“云里雾里”看得清清楚楚

刚刚！2024世界顶尖科学家协会奖揭晓，两位科学家获奖，分获1000万元奖金！

著名骨科和骨科生物力学专家戴尅戎院士：步步“落子无悔”，回回“迎难而上” ｜依旧少年

吹一晚上空调会面瘫？洗冷水澡更降温？这些大夏天的常见误区，你中招了吗？

尊重实验动物的生命 → 高温天为斑马鱼守住25℃清凉

这个温室很“高级”，在“重演”远古时代“植物王朝”的更迭

人“饿”瘦了，肝却“肥”了？减肥减出“脂肪肝”不是个例！

脑机接口的未来，人还是原来的那个人吗？｜科创风暴眼

接力检测十年发现：太浦河浮游植物数量大增，还有了“植物图鉴”

你知道吗？这里要诞生的是“AI爱因斯坦”！

这群生活在松江的“小悟空”，肩负着脑科学研究的重要使命

高温依旧暑未散，养阴润肺属玉竹 | 处暑

“叮！今日气象风险已送达！”

神奇！AI“慧眼”透过包装能看清食物内部新鲜度

酷热未消秋尚远，化湿解暑推藿香｜立秋

三伏天更适合减肥？电风扇＋矿泉水瓶比空调还好？来看7月科学流言榜

13.8和13.11哪个大？大模型竟然开始“一本正经地胡说八道”……

拯救“小蝌蚪”活力，调控密码原来是……

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉