首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

AI又出bug了? 数学能力翻车？嘲笑AI的结局，就是被碾压

科技 2024-07-16 16:07 北京

近日,人工智能领域再次引发热议。知名AI研究者Riley Goodside在社交平台上发布了一组有趣的测试结果,揭示了包括ChatGPT、Claude和Gemini在内的多个大语言模型(LLM)在进行简单数值比较时出现了令人困惑的错误。

这个看似简单的测试是这样的:询问AI "9.11和9.9哪个数字更大?"

下面是亲测GPT-4o，英文给出的答案，前后有些矛盾，但最终给了正确答案

而中文，则是正确的。对中文会更谨慎求证？还是能自我学习，改进？

谣言不要尽信，需要去小心求证。像当年围棋一样，嘲笑Alapha Go的结局一样，最终一众大师被碾压。

下面是社交媒体上疯传的截图。

GPT-4o，认为9.11更大。

都这么肯定了，那就继续问你9.11比9.9大多少，果然上套了。

Claude 3.5，给出了推理过程，很负责任地认为9.11更大。

Gemini，给出了推理过程，很确定认为9.11更大。

令人惊讶的是,多个顶级AI模型都给出了错误答案,认为9.11比9.9大。这个结果引发了技术界的广泛讨论,也让我们不禁思考:AI在基础数学运算上为何会出现如此明显的错误?

Goodside的实验显示,即便明确指出这是实数比较而非软件版本号,AI仍然会犯同样的错误。这个问题似乎并不受标点符号、连词选择或比较词的影响。

有评论认为,这可能与AI训练数据中包含大量软件版本号有关,导致模型在某些情况下将数字误解为版本号。然而,更深层次的原因可能在于AI对数字概念的理解还不够深入和灵活。

这一发现再次提醒我们,尽管当前AI技术发展迅速,在许多复杂任务上表现出色,但在一些看似简单的基础问题上仍可能出现意想不到的失误。这凸显了AI系统在数学逻辑、常识推理等方面还有很长的路要走。

随着ChatGPT、文心一言等生成式AI的普及,越来越多人开始在日常生活和工作中使用这些工具。这个案例提醒我们,在使用AI时仍需保持警惕,特别是在涉及数据分析、财务计算等关键领域时,人类的判断和验证仍然不可或缺。

这一事件也为AI研究者们指明了新的方向。如何提升AI在基础数学和逻辑推理方面的能力,如何让AI拥有更接近人类的"常识",将是未来AI发展的重要课题。

随着技术的不断进步,相信这类问题终将得到解决。但在此之前,我们既要认识到AI的强大之处,也要清醒地认识到它的局限性,在"人机协作"中找到最佳平衡点。

记得关注我们的公众号，获取更多AI使用技巧和效率提升秘籍

解锁未来，掌控AI 大模型的力量！评论区留言，加入“零基础掌握AI”群

http://mp.weixin.qq.com/s?__biz=MzA4MTEzMzEzMQ==&mid=2649412426&idx=1&sn=71eac120ea1e5783d1a608dca2c405a4

AI大模型应用派

AI前沿，AI大模型应用介绍，AI大模型案例分享。

最新文章

著名未来学家凯文·凯利(Kevin Kelly)有关AI的观点

著名未来学家凯文·凯利(Kevin Kelly)谈AI时代三大趋势

Cursor AI：8岁女孩用它45分钟生成聊天机器人！

10个免费学习大语言模型(LLM)的资源

FLUX.1：AI图像生成技术全面解析

AI电影制作的10种方式及最佳工具

AI广告革命：10个惊艳案例揭示未来营销新范式

麻省理工出品的《决策算法》

谷歌前CEO斯坦福“放飞自我”的演讲全文（英文）

劲爆！谷歌前CEO斯坦福“放飞自我”说了啥？

大语言模型(THE CHINESE BOOKFOR LARGE LANGUAGE MODEL)

DMMA《穿越数据的迷宫》

Meta SAM-2：视觉分割的革命性飞跃

2024年AI行业6大高薪职位揭秘:薪资曝光!

AI/ML学习资源大揭秘：从零基础到顶级科技公司机器学习工程师的进阶之路

大语言模型LLMs如何进行探索性数据分析

2024年8款顶级AI数据分析工具

2024年必读17本顶级人工智能（AI）书籍

Runway Gen-3 Alpha：AI视频生成的现状与局限

麻省理工《深入理解深度学习》

Luma AI ：如何将图片生成视频

2024年15款最佳AI写作工具

有效的ChatGPT提示词:技巧与示例

互联网已死?AI正在"杀死"我们所熟知的网络世界

2024年必备：500+最佳ChatGPT提示词大全

新一代开源图像生成模型：Aura Flow

顶尖AI生成视频工具，游戏动画设计都变得如此简单！

惊天揭秘：AI如何席卷全球经济，让你措手不及

AI又出bug了? 数学能力翻车？嘲笑AI的结局，就是被碾压

每年花费70万美元的ElliQ机器人：老年人的智能陪伴

揭秘AI的"大脑":它到底学到了什么?

GPT-5发布震撼细节解析

2024年值得关注的十大免费AI工具

10 款AI App，改变你的生活方式！

国产AI可灵（LivePortrait）能让照片动起来

中国人工智能技术的新飞跃：具身智能与大模型的融合

Ilya Sutskever: AI 将拥有能够自我思考的人类大脑 | 必须认真对待AI安全

Claude 3.5 Sonnet: AI机器人的新标杆

震惊!韩国首现"机器人自杀"?AI时代的警钟还是技术小插曲?

2024年必学：7个顶级科技公司和大学提供的免费AI在线课程

Claude 3.5 Sonnet七大实用场景解析,这款AI究竟有多强?

2024年教育革命:10大AI工具正在改变课堂

2024年度五大AI趋势

2024年150家顶尖AI公司：引领AI革命的先驱者们

人人都应该阅读的文章：对未来10年态势的感知

ChatGPT记忆功能：管理您的记忆

人类与AI代理的协作：提升客户体验的新关键

离实现人类水平的人工智能还有多远？可能比你想象的更近！

TikTok在美国被禁：谁将从中受益？

AI革命：轻松提升工作效率的5种方式

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉