愚蠢的AI,科技巨头需要反思

文化   2024-07-19 20:58   北京  
最近有个问题挺火,歌手2024的结果,孙楠13.8%排第三,CM13.11%排第四,竟然引起网上很多人质疑,认为13.11比13.8大,质疑官方公开舞弊。排除有人故意搞笑,或许真的有人这么想。
因为小镇拿AI试了一下,问AI们9.11和9.9哪个数更大,结果全世界Ai们纷纷翻车,翻车的主要是美国的大模型,认为9.11更大,而中国大模型大都对了。
其实结论判断错了倒也罢了,问题是很多AI明明逻辑是正确的,也知道个位数都是9,需要比较小数点之后的小数,但美国的AI们竟然认为小数点后的11>9,所以9.11更大。
先是国外的,集体翻车:
GPT-4o错得很干脆,直接说0.11大于0.9。
GPT3.5Turbo是一样的毛病。
2024年6月新发布Claude3.5,还有谷歌的Gemini 1.5 Flash最搞笑,一边说11/100比90/100小,但是又说0.11比0.9大,逻辑已经彻底乱了。
Sider Fusion跟GPT一个毛病。
精神最错乱的当属Meta公司的Llama 3。既小又大,反正两个结论都说了,就差说9.11和9.9一样大了。
唯一正确的是谷歌的Gemini 1.5 Pro,这个版本是1.0 Ultra和1.5 Flash的升级版,终于知道小数点之后要一位位的比,果然Flash不愧是“最快的模型”,别管对不对,快就完事了。
跟集体翻车的美国AI们相对比,中国AI靠谱太多了,测试了四个,分别是通义千问、文心一言、讯飞星火、之暗面的Kimi,除了Kimi都对了,文心一言还特别强调,小数部分比较要从左到右、每一位都要进行比较。
虽然国产大模型也有错误的,但总的来说,作为中美两国头部的大模型,国产大模型大多数是对的,与国外大多数是错的形成了鲜明对比。
当然毕竟9.11和9.9的比较实在是太容易了,不能因此认为美国的数学水平比中国低,目前AI也确实普遍存在类似幻觉率太高的问题,这也导致大模型目前很难应用于实际生产,毕竟搞搞文字、图片、内容生成,错了就错了,实际生产如果出现这种错误,那问题就大了。
但考虑到AI大模型训练是基于大量的数据,国的当然用美国的数据,中国的用中国的数据,那么造成这个错误,就两个可能:
一是美国的大模型存在严重的底层错误。发现一个蟑螂就意味着有更多没有发现的,还有多少类似于9.11大于9.9的可笑错误?这些错误的存在必然会影响大模型的实际使用。
目前中美大模型基于的基础理论是一致的,因此不至于因为基础理论和架构,出现中国大模型可以、美国不行的问题。
二是美国国民数学平均能力远远差于中国。毕竟进行训练的时候,不可能只选择来自精英的数据,或许是美国近些年极为普遍的轻视理工科教育、全民反智倾向,导致了这一恶果。
当然,以上猜测只是一种可能,理论上不至于在这么简单的问题上出现错误,那么还有一种可能,那就是“草台班子”问题。
凡是在这个问题上出现错误的AI大模型,开发团队肯定直接把数字当文本处理了,虽然回答的时候会提到小数,但实际分析的时候忽略了小数点,属于非常基础的模型分词错误。
也可能是某些大模型在处理的时候,为了节省资源,直接用了32位单精度甚至16位半精度计算,而没有使用64位的双精度浮点计算。
但无论如何,中美两国的头部大模型,美国的基本全错,中国的基本全对,显然美国的AI大模型公司需要反思,且看什么时候这个问题能够得到纠正,各公司理应收到了很多结果错误的反馈,如果一周时间还不能解决,那需要反思的就更多了。
从目前看,至少国外的大模型AI不太适合做数学题,还是别难为AI了。
其他文章推荐
■  历史转变的关键时刻,谈谈对未来方向的判断
■  楼市刺激政策加码,普通人又该如何买房?
■  从关键岗位安排,把握未来深化改革的方向
■  特朗普选出的不是接班人,而是家族的护航者
■  找准了问题,不能在解药里下毒
如果喜欢,还请点赞、“在看”和关注吧
欢迎分享,让更多人发现“大树乡谈”

除本号外,小镇仅在以下两号发文

请注意辨别,欢迎关注


大树乡谈
讲逻辑,说人话,有意思。让我们一起穿越时代迷雾、共同成长至少20年。
 最新文章