首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

愚蠢的AI，科技巨头需要反思

文化 2024-07-19 20:58 北京

最近有个问题挺火，歌手2024的结果，孙楠13.8%排第三，CM13.11%排第四，竟然引起网上很多人质疑，认为13.11比13.8大，质疑官方公开舞弊。排除有人故意搞笑，或许真的有人这么想。

因为小镇拿AI试了一下，问AI们9.11和9.9哪个数更大，结果全世界Ai们纷纷翻车，翻车的主要是美国的大模型，认为9.11更大，而中国大模型大都对了。

其实结论判断错了倒也罢了，问题是很多AI明明逻辑是正确的，也知道个位数都是9，需要比较小数点之后的小数，但美国的AI们竟然认为小数点后的11>9，所以9.11更大。

先是国外的，集体翻车：

GPT-4o错得很干脆，直接说0.11大于0.9。

GPT3.5Turbo是一样的毛病。

2024年6月新发布Claude3.5，还有谷歌的Gemini 1.5 Flash最搞笑，一边说11/100比90/100小，但是又说0.11比0.9大，逻辑已经彻底乱了。

Sider Fusion跟GPT一个毛病。

精神最错乱的当属Meta公司的Llama 3。既小又大，反正两个结论都说了，就差说9.11和9.9一样大了。

唯一正确的是谷歌的Gemini 1.5 Pro，这个版本是1.0 Ultra和1.5 Flash的升级版，终于知道小数点之后要一位位的比，果然Flash不愧是“最快的模型”，别管对不对，快就完事了。

跟集体翻车的美国AI们相对比，中国AI靠谱太多了，测试了四个，分别是通义千问、文心一言、讯飞星火、月之暗面的Kimi，除了Kimi都对了，文心一言还特别强调，小数部分比较要从左到右、每一位都要进行比较。

虽然国产大模型也有错误的，但总的来说，作为中美两国头部的大模型，国产大模型大多数是对的，与国外大多数是错的形成了鲜明对比。

当然毕竟9.11和9.9的比较实在是太容易了，不能因此认为美国的数学水平比中国低，目前AI也确实普遍存在类似幻觉率太高的问题，这也导致大模型目前很难应用于实际生产，毕竟搞搞文字、图片、内容生成，错了就错了，实际生产如果出现这种错误，那问题就大了。

但考虑到AI大模型训练是基于大量的数据，美国的当然用美国的数据，中国的用中国的数据，那么造成这个错误，就两个可能：

一是美国的大模型存在严重的底层错误。发现一个蟑螂就意味着有更多没有发现的，还有多少类似于9.11大于9.9的可笑错误？这些错误的存在必然会影响大模型的实际使用。

目前中美大模型基于的基础理论是一致的，因此不至于因为基础理论和架构，出现中国大模型可以、美国不行的问题。

二是美国国民数学平均能力远远差于中国。毕竟进行训练的时候，不可能只选择来自精英的数据，或许是美国近些年极为普遍的轻视理工科教育、全民反智倾向，导致了这一恶果。

当然，以上猜测只是一种可能，理论上不至于在这么简单的问题上出现错误，那么还有一种可能，那就是“草台班子”问题。

凡是在这个问题上出现错误的AI大模型，开发团队肯定直接把数字当文本处理了，虽然回答的时候会提到小数，但实际分析的时候忽略了小数点，属于非常基础的模型分词错误。

也可能是某些大模型在处理的时候，为了节省资源，直接用了32位单精度甚至16位半精度计算，而没有使用64位的双精度浮点计算。

但无论如何，中美两国的头部大模型，美国的基本全错，中国的基本全对，显然美国的AI大模型公司需要反思，且看什么时候这个问题能够得到纠正，各公司理应收到了很多结果错误的反馈，如果一周时间还不能解决，那需要反思的就更多了。

从目前看，至少国外的大模型AI不太适合做数学题，还是别难为AI了。

其他文章推荐

■ 历史转变的关键时刻，谈谈对未来方向的判断

■ 楼市刺激政策加码，普通人又该如何买房？

■ 从关键岗位安排，把握未来深化改革的方向

■ 特朗普选出的不是接班人，而是家族的护航者

■ 找准了问题，不能在解药里下毒

如果喜欢，还请点赞、“在看”和关注吧

欢迎分享，让更多人发现“大树乡谈”

除本号外，小镇仅在以下两号发文

请注意辨别，欢迎关注

‍

http://mp.weixin.qq.com/s?__biz=MzI2MzY3NjAwOQ==&mid=2247497101&idx=2&sn=360d616971e3ad0ce48d277171073ef6

讲逻辑，说人话，有意思。让我们一起穿越时代迷雾、共同成长至少20年。

最新文章

欢迎加入“大树乡谈”读者圈，搭建一生的平台

越想和平统一，越要坚定武统

普通人家留学，很可能掏空两代人的口袋

普通人家留学，很可能掏空两代人的口袋

纠结的抉择：养老到底要不要市场化

在吸引外国人留学上，中国必须实现“赶英超美”

从未免费，何谈恢复？

顺差太高，不是好事

压榨越狠，反噬来得越快

再次下调存量房贷利率的小作文，有真有假

中国不可能大规模开凿国内新运河

房地产救市进入攻坚期

砸锅卖铁绝不是变卖国有资产

某些外资要走，不是我们做错了

加征100%关税后，美国也不敢开放市场

经济到底怎么了？何时才能走出低谷？

中国将是全球最早走出危机的

骂够了吧？正经谈谈房屋养老金

蔬菜价格为什么上涨？

如果哈里斯上台，她想干什么？

韭菜太多，骗子不够用

“养命钱”的缺口太大了

全精英组成的团队，战斗力惊人

不玩游戏的搞不懂游戏产业

唯有革命，才能消灭人间地狱

网络上“女拳”声音，水军占比极高

人间地狱，罪恶之国

男人不如狗的时代已经结束了

雇佣军靠不住，终究要靠自己人

国家怎么看下半年的经济？又会怎么做？

东北不需要被拯救

黑神话是个好游戏

好坏不分，被卖了还帮着数钱

男性是被忽略的家暴受害者

总是幻想轻松取胜，稍遇挫折就想投降

差点不会写文章了

关于婚姻和公务员，闲谈一二

想败光家产，没有专业人士操盘其实挺难的

几个乌克兰醉鬼炸掉了北溪管道？想要抛弃乌克兰不妨直说

不是女法官太多，是男法官越来越干不下去

日本从未投降，又何谈原谅？

中国太大，太复杂了

让散户能赚到钱，才是金融的护身符

老虎总要吃肉，给多少才不吃人?

是监管能力不足，而不是市场化过度

为了发展经济，公务员需要大规模扩编

边打边退，以空间换时间

小镇写文章，是不是有特殊渠道？

彻底打破美元霸权的一条新路，正在筹备中

有个问题，研究了一晚上都没搞明白，求教

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉